論文の概要: Interpreting Negation in GPT-2: Layer- and Head-Level Causal Analysis
- arxiv url: http://arxiv.org/abs/2603.12423v1
- Date: Thu, 12 Mar 2026 20:10:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-16 17:38:11.751698
- Title: Interpreting Negation in GPT-2: Layer- and Head-Level Causal Analysis
- Title(参考訳): GPT-2における否定の解釈:レイヤーとヘッドレベル因果解析
- Authors: Abdullah Al Mofael, Lisa M. Kuhn, Ghassan Alkadi, Kuo-Pao Yang,
- Abstract要約: ネゲーションは現代言語モデルにとって永続的な課題である。
我々は、GPT-2 の言語変換を小さく内部的にどのように処理するかの因果解析を行う。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Negation remains a persistent challenge for modern language models, often causing reversed meanings or factual errors. In this work, we conduct a causal analysis of how GPT-2 Small internally processes such linguistic transformations. We examine its hidden representations at both the layer and head level. Our analysis is based on a self-curated 12,000-pair dataset of matched affirmative and negated sentences, covering multiple linguistic templates and forms of negation. To quantify this behavior, we define a metric, the Negation Effect Score (NES), which measures the model's sensitivity in distinguishing between affirmative statements and their negations. We carried out two key interventions to probe causal structure. In activation patching, internal activations from affirmative sentences were inserted into their negated counterparts to see how meaning shifted. In ablation, specific attention heads were temporarily disabled to observe how logical polarity changed. Together, these steps revealed how negation signals move and evolve through GPT-2's layers. Our findings indicate that this capability is not widespread; instead, it is highly concentrated within a limited number of mid-layer attention heads, primarily within layers 4 to 6. Ablating these specific components directly disrupts the model's negation sensitivity: on our in-domain, ablation increased NES (indicating weaker negation sensitivity), and re-introducing cached affirmative activations (rescue) increased NES further, confirming that these heads carry affirmative signal rather than restoring baseline behavior. On xNot360, ablation slightly decreased NES and rescue restored performance above baseline. This pattern demonstrates that these causal patterns are consistent across various negation forms and remain detectable on the external xNot360 benchmark, though with smaller magnitude.
- Abstract(参考訳): 否定は現代言語モデルにとって永続的な課題であり、しばしば逆の意味や事実的誤りを引き起こす。
本研究では,GPT-2 が言語変換を内部的にどのように処理するかの因果解析を行う。
層と頭部の両面に隠された表現について検討する。
本分析は,複数の言語テンプレートと否定形態を網羅した,一致した肯定文と否定文からなる12,000対の自己計算データセットに基づく。
この振る舞いを定量化するために、肯定的ステートメントと否定を区別する際のモデルの感度を測定するメトリクスである否定効果スコア(NES)を定義する。
我々は因果構造を調査するために2つの重要な介入を行った。
アクティベーションパッチでは、肯定的な文章からの内的アクティベーションが否定的な相手に挿入され、意味がどう変わったかを確認した。
アブレーションでは、特定の注意頭は一時的に停止され、論理的な極性の変化を観察した。
これらのステップは共に、GPT-2の層を通して負のシグナルがどのように移動し、進化するかを明らかにした。
以上の結果から,本能力は広範ではないことが示唆された。その代わりに,主に4層から6層に限って,少数の中層アテンションヘッドに高度に集中している。
ドメイン内において、アブレーションはNES(より弱い否定感度を示す)を増加させ、キャッシュされた肯定的なアクティベーション(レスキュー)を再導入することでNESをさらに増加させ、これらのヘッドがベースラインの振る舞いを回復するのではなく、肯定的なシグナルを持っていることを確認した。
xNot360では、アブレーションによりNESがわずかに減少し、ベースライン上での回復性能が回復した。
このパターンは、これらの因果パターンが様々な否定形式で一致していることを示し、外部のxNot360ベンチマークで検出できるが、大きさは小さい。
関連論文リスト
- Mastering Negation: Boosting Grounding Models via Grouped Opposition-Based Learning [87.15765427638195]
D-Negationは、ポジティブな意味記述とネガティブな意味記述の両方で注釈付けされたオブジェクトを提供する新しいデータセットである。
本稿では,限られたサンプルから否定認識表現を学習する,反抗型学習フレームワークを提案する。
モデルパラメータの10%未満を微調整することにより、正および負のセマンティック評価において最大4.4mAPおよび5.7mAPの改善が達成される。
論文 参考訳(メタデータ) (2026-03-13T03:21:48Z) - What "Not" to Detect: Negation-Aware VLMs via Structured Reasoning and Token Merging [42.41372222021938]
最先端のビジョン言語モデル(VLM)は否定を理解する上で重大な失敗を経験し、しばしば肯定バイアスと呼ばれる。
CoVANDは,システムチェーン(CoT)とVQAベースのパイプラインで構築されたデータセットで,高品質なインスタンス基底型否定データを生成する。
第二に,肯定バイアスのアーキテクチャ的原因に直接対処する新しいテキストトークンマージモジュールNegToMeを提案する。
論文 参考訳(メタデータ) (2025-10-15T07:36:38Z) - Hallucination Detection via Internal States and Structured Reasoning Consistency in Large Language Models [7.18947815679122]
内部状態探索と整合検証は、大きな言語モデルにおける幻覚を検出するために用いられる。
両手法のギャップを埋める統一的なフレームワークを開発する。
私たちのフレームワークは一貫して、強力なベースラインをはるかに上回ります。
論文 参考訳(メタデータ) (2025-10-13T15:31:21Z) - Negative Pre-activations Differentiate Syntax [3.623168857780243]
ワッサースタインニューロンとして知られる最近発見された絡み合ったニューロンのクラスは、大きな言語モデルでは不均等に重要である。
絡み合ったニューロンのスパース部分集合における負の分化は、言語モデルが構文に依存する重要なメカニズムであることを示す。
論文 参考訳(メタデータ) (2025-09-29T02:29:29Z) - Vision-Language Models Do Not Understand Negation [50.27667000027403]
NegBenchは18のタスクバリエーションと79ドルのサンプルに対する否定的理解を評価するために設計されたベンチマークである。
提案手法は, 否定的クエリに対するリコールが10%増加し, 否定的キャプションを用いた複数質問に対する精度が28%向上することを示す。
論文 参考訳(メタデータ) (2025-01-16T09:55:42Z) - The Self-Contained Negation Test Set [1.8749305679160366]
我々は、入力の極性の関数としてのPLMの予測の修正を研究するGubelmann and Handschuh (2022) を英語で構築する。
このテストでは、マスクされた位置で終わる自己完結'の入力を使用します。
改良版である自己完結ネグテストを提案し、より制御され、より体系的であり、最小対を形成する例に基づいている。
論文 参考訳(メタデータ) (2024-08-21T09:38:15Z) - Probing structural constraints of negation in Pretrained Language Models [1.8749305679160366]
文中の否定の存在を最もよくエンコードする文脈表現を,プローブを用いて識別する。
否定範囲内のトークンの文脈表現は、(i)スコープ外のトークンと比較して、存在を予測しやすくする。
しかし、さらなる制御実験により、同じ構文節内でトークンの文脈表現を使用する場合、他の語彙項目の存在もよりよく捉えられることが明らかになった。
論文 参考訳(メタデータ) (2024-08-06T09:54:49Z) - Revisiting subword tokenization: A case study on affixal negation in large language models [57.75279238091522]
現代英語大言語モデル(LLM)に対する接尾辞否定の影響を計測する。
我々は、異なるサブワードトークン化手法を用いてLLMを用いて実験を行う。
モデルは全体として、接尾辞の意味を確実に認識できることを示す。
論文 参考訳(メタデータ) (2024-04-03T03:14:27Z) - Navigating the Grey Area: How Expressions of Uncertainty and
Overconfidence Affect Language Models [74.07684768317705]
LMはプロンプトにおける確実性のマーカーに非常に敏感であり、アクーは80%以上変化している。
その結果,高い確実性の表現は低い表現に比べて精度が低下し,事実動詞が性能を損なうのに対して,明らかな表現はパフォーマンスに寄与することがわかった。
これらの関連性は、LMが真に不確実性を反映するのではなく、観察された言語の使用に基づいていることを示唆している。
論文 参考訳(メタデータ) (2023-02-26T23:46:29Z) - Not another Negation Benchmark: The NaN-NLI Test Suite for Sub-clausal
Negation [59.307534363825816]
否定は現在の言語モデルでは不十分だが、この問題の範囲は広く理解されていない。
自然言語推論(NLI)テストスイートを導入し,NLP手法の能力を検証した。
論文 参考訳(メタデータ) (2022-10-06T23:39:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。