論文の概要: From Indirect Object Identification to Syllogisms: Exploring Binary Mechanisms in Transformer Circuits
- arxiv url: http://arxiv.org/abs/2508.16109v1
- Date: Fri, 22 Aug 2025 05:54:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-25 16:42:36.261367
- Title: From Indirect Object Identification to Syllogisms: Exploring Binary Mechanisms in Transformer Circuits
- Title(参考訳): 間接物体同定からソロジズムへ:変圧器回路における二元機構の探索
- Authors: Karim Saraipour, Shichang Zhang,
- Abstract要約: 本稿では,GPT-2小さめの2値真理値処理能力について,その振る舞いをシロジカル・プロンプトを用いて解析することによって検討する。
GPT-2の論理推論能力を機械的に説明できる複数の回路を同定する。
- 参考スコア(独自算出の注目度): 5.1877231178075425
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer-based language models (LMs) can perform a wide range of tasks, and mechanistic interpretability (MI) aims to reverse engineer the components responsible for task completion to understand their behavior. Previous MI research has focused on linguistic tasks such as Indirect Object Identification (IOI). In this paper, we investigate the ability of GPT-2 small to handle binary truth values by analyzing its behavior with syllogistic prompts, e.g., "Statement A is true. Statement B matches statement A. Statement B is", which requires more complex logical reasoning compared to IOI. Through our analysis of several syllogism tasks of varying difficulty, we identify multiple circuits that mechanistically explain GPT-2's logical-reasoning capabilities and uncover binary mechanisms that facilitate task completion, including the ability to produce a negated token not present in the input prompt through negative heads. Our evaluation using a faithfulness metric shows that a circuit comprising five attention heads achieves over 90% of the original model's performance. By relating our findings to IOI analysis, we provide new insights into the roles of specific attention heads and MLPs in LMs. These insights contribute to a broader understanding of model reasoning and support future research in mechanistic interpretability.
- Abstract(参考訳): トランスフォーマーベースの言語モデル(LM)は幅広いタスクをこなすことができ、機械的解釈可能性(MI)はタスク完了に責任を持つコンポーネントをリバースエンジニアリングしてそれらの振る舞いを理解することを目的としている。
従来のMI研究は、間接的オブジェクト識別(IOI)のような言語タスクに重点を置いてきた。
本稿では,GPT-2が二項真理値を扱う能力について,例えば「ステートメントAは真実である。ステートメントBはステートメントBと一致する。ステートメントBは,IOIよりも複雑な論理的推論を必要とする」といったシロジカルプロンプトを用いて解析することで検討する。
難易度が異なる複数のシロジズムタスクの解析を通じて,GPT-2の論理推論能力を機械的に説明する複数の回路を同定し,負の頭を通して入力プロンプトに存在しない負のトークンを生成する機能を含む,タスク完了を容易にするバイナリ機構を明らかにする。
忠実度測定値を用いて評価した結果,5つのアテンションヘッドからなる回路が元のモデルの性能の90%以上を達成できた。
本研究の結果をIOI分析に関連付けることで,LMにおける特定の注意頭とMLPの役割に関する新たな知見を提供する。
これらの知見は、モデル推論のより広範な理解に寄与し、機械論的解釈可能性における将来の研究を支援する。
関連論文リスト
- Mechanistic Unveiling of Transformer Circuits: Self-Influence as a Key to Model Reasoning [9.795934690403374]
このような課題を解決するために言語モデルでどのような多段階推論機構が使われているのかはいまだ不明である。
回路解析と自己影響関数を用いて、推論過程を通して各トークンの変動の重要性を評価する。
提案手法は,モデルが使用する人間の解釈可能な推論過程を明らかにする。
論文 参考訳(メタデータ) (2025-02-13T07:19:05Z) - Latent Causal Probing: A Formal Perspective on Probing with Causal Models of Data [3.376269351435396]
構造因果モデル(SCM)を用いた探索の形式的視点を開発する。
我々は,合成グリッドワールドナビゲーションタスクの文脈において,最近のLMの研究を拡張した。
我々の手法は、LMがテキストの根底にある潜在概念を誘発する能力を示す、堅牢な実証的な証拠を提供する。
論文 参考訳(メタデータ) (2024-07-18T17:59:27Z) - Towards a Mechanistic Interpretation of Multi-Step Reasoning
Capabilities of Language Models [107.07851578154242]
言語モデル(LM)は強力な多段階推論能力を持つ。
LMが事前学習コーパスから記憶された回答を不正に処理するか,多段階推論機構を用いてタスクを実行するかは明らかでない。
メカニスティックプローブは,ほとんどの例において,モデルの注意から推論ツリーの情報を検出することができることを示す。
論文 参考訳(メタデータ) (2023-10-23T01:47:29Z) - Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical Reasoning Capabilities of Language Models [56.34029644009297]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。
LLMは誘導的推論において最も優れているが、誘導的推論では最も効果が低い。
モデルの性能を評価するため,シングルタスクトレーニング,マルチタスクトレーニング,および「チェーンオブ思考」知識蒸留細調整技術について検討した。
論文 参考訳(メタデータ) (2023-10-02T01:00:50Z) - Competence-Based Analysis of Language Models [21.43498764977656]
CALM (Competence-based Analysis of Language Models) は、特定のタスクの文脈におけるLLM能力を調べるために設計された。
我々は,勾配に基づく対向攻撃を用いた因果探究介入を行うための新しい手法を開発した。
これらの介入を用いてCALMのケーススタディを行い、様々な語彙推論タスクにおけるLCM能力の分析と比較を行う。
論文 参考訳(メタデータ) (2023-03-01T08:53:36Z) - Interpretability in the Wild: a Circuit for Indirect Object
Identification in GPT-2 small [68.879023473838]
間接オブジェクト識別 (IOI) と呼ばれる自然言語タスクにおいて, GPT-2 の小型化が果たす役割について解説する。
我々の知る限り、この調査は言語モデルにおいて「野生」の自然な振る舞いをリバースエンジニアリングする最大のエンドツーエンドの試みである。
論文 参考訳(メタデータ) (2022-11-01T17:08:44Z) - AR-LSAT: Investigating Analytical Reasoning of Text [57.1542673852013]
テキストの分析的推論の課題を研究し、1991年から2016年までのロースクール入学試験からの質問からなる新しいデータセットを紹介します。
我々は,この課題をうまくこなすために必要な知識理解と推論能力を分析する。
論文 参考訳(メタデータ) (2021-04-14T02:53:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。