論文の概要: How Language Models Process Negation
- arxiv url: http://arxiv.org/abs/2605.03052v1
- Date: Mon, 04 May 2026 18:17:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-06 19:35:43.593208
- Title: How Language Models Process Negation
- Title(参考訳): 言語モデルとプロセスのネゲーション
- Authors: Zhejian Zhou, Tianyi Zhou, Robin Jia, Jonathan May,
- Abstract要約: 本研究では,Large Language Models (LLMs) の否定処理を機械的に行う方法について検討する。
我々の研究は、LLMの内部の理解を深め、構築に支配的な計算と競合する機構の共存を強調した。
- 参考スコア(独自算出の注目度): 56.41361273288279
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study how Large Language Models (LLMs) process negation mechanistically. First, we establish that even though open-weight models often provide wrong answers to questions involving negation, they do possess internal components that process negation correctly. Their poor accuracy is due to late-layer attention behavior that promotes simple shortcuts; ablating those attention modules greatly improves accuracy on negation-related questions. Second, we uncover how models process negation. We consider two hypotheses: models could use attention heads that attend to the phrase being negated and suppress related concepts, or they could directly construct a representation of the entire negative phrase (e.g., representing "not gas" as a vector that promotes liquids and solids). We apply a range of observational and causal interpretability techniques on Mistral-7B and Llama-3.1-8B to show that models implement both mechanisms, with the "constructive" mechanism being more prominent. Combined, our work deepens the understanding of LLMs' internals, highlighting construction-dominant computations and the coexistence of competing mechanisms within LLMs.
- Abstract(参考訳): 本研究では,Large Language Models (LLMs) の否定処理を機械的に行う方法について検討する。
まず、オープンウェイトモデルが否定に関わる質問に対して間違った回答を与えることが多いが、彼らは否定を正しく処理する内部コンポーネントを持っていることを確かめる。
それらの精度の低さは、単純なショートカットを促進する後期の注意行動によるものであり、これらの注意モジュールは否定関連質問の精度を大幅に向上させる。
次に、モデルがどのように否定を処理するかを明らかにする。
モデルは2つの仮説を考察する: モデルは、フレーズが否定され、関連する概念を抑圧する注意頭を用いるか、または、負のフレーズ全体(例えば、液体や固体を促進するベクトルとして「ガスではない」を表す)の表現を直接構築できる。
我々はMistral-7BとLlama-3.1-8Bに様々な観察・因果解釈技術を適用し、モデルが両方のメカニズムを実装していることを示す。
本研究は,LLMの内部の理解を深め,LLM内部の計算処理と競合する機構の共存を強調した。
関連論文リスト
- Mastering Negation: Boosting Grounding Models via Grouped Opposition-Based Learning [87.15765427638195]
D-Negationは、ポジティブな意味記述とネガティブな意味記述の両方で注釈付けされたオブジェクトを提供する新しいデータセットである。
本稿では,限られたサンプルから否定認識表現を学習する,反抗型学習フレームワークを提案する。
モデルパラメータの10%未満を微調整することにより、正および負のセマンティック評価において最大4.4mAPおよび5.7mAPの改善が達成される。
論文 参考訳(メタデータ) (2026-03-13T03:21:48Z) - Training Language Models to Explain Their Own Computations [73.8562596518326]
本研究では,LMの自己内部への特権的アクセスをどの程度活用できるかを考察し,その振る舞いを説明するための新しい手法を提案する。
既存の解釈可能性技術を用いて,(1)LM特徴によって符号化された情報,(2)LMの内部アクティベーションの因果構造,(3)特定の入力トークンがLM出力に与える影響の自然言語記述を生成する。
論文 参考訳(メタデータ) (2025-11-11T18:57:14Z) - How and where does CLIP process negation? [2.5600000778964294]
VALSEベンチマークからモデルによる否定の理解をテストするために,既存のタスクを構築した。
本稿では,モデル解釈可能性に関する文献からインスピレーションを得て,否定の理解におけるVLモデルの振る舞いを説明する。
論文 参考訳(メタデータ) (2024-07-15T07:20:06Z) - Brittle Minds, Fixable Activations: Understanding Belief Representations in Language Models [9.318796743761224]
言語モデル(LM)を評価するための心の理論(ToM)タスクへの関心が高まりつつあるが、LMが自己や他者の精神状態を内部的にどのように表現しているかについては、ほとんど分かっていない。
本研究は、異なるスケールのモデル、トレーニングレギュラー、プロンプトを探索することで、LMにおける信念表現を初めて体系的に研究するものである。
我々の実験は、モデルサイズと微調整の両方が、他者の信念に対するLMの内部表現を大幅に改善する証拠を提供する。
論文 参考訳(メタデータ) (2024-06-25T12:51:06Z) - Revisiting subword tokenization: A case study on affixal negation in large language models [57.75279238091522]
現代英語大言語モデル(LLM)に対する接尾辞否定の影響を計測する。
我々は、異なるサブワードトークン化手法を用いてLLMを用いて実験を行う。
モデルは全体として、接尾辞の意味を確実に認識できることを示す。
論文 参考訳(メタデータ) (2024-04-03T03:14:27Z) - This is not a Dataset: A Large Negation Benchmark to Challenge Large
Language Models [4.017326849033009]
我々は,否定を理解する大規模言語モデルの最適部分性能の理由を明らかにする。
我々は,コモンセンス知識に関する40万前後の記述文を半自動生成する大規模データセットを提案する。
我々は,その一般化と推論能力を把握するために,ゼロショットアプローチで利用可能な最大オープンLCMを用いてデータセットを構築した。
論文 参考訳(メタデータ) (2023-10-24T15:38:21Z) - Interpretability in the Wild: a Circuit for Indirect Object
Identification in GPT-2 small [68.879023473838]
間接オブジェクト識別 (IOI) と呼ばれる自然言語タスクにおいて, GPT-2 の小型化が果たす役割について解説する。
我々の知る限り、この調査は言語モデルにおいて「野生」の自然な振る舞いをリバースエンジニアリングする最大のエンドツーエンドの試みである。
論文 参考訳(メタデータ) (2022-11-01T17:08:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。