論文の概要: Mechanistic Unveiling of Transformer Circuits: Self-Influence as a Key to Model Reasoning
- arxiv url: http://arxiv.org/abs/2502.09022v1
- Date: Thu, 13 Feb 2025 07:19:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-14 13:48:42.978831
- Title: Mechanistic Unveiling of Transformer Circuits: Self-Influence as a Key to Model Reasoning
- Title(参考訳): 変圧器回路の機械的展開:モデル推論の鍵としての自己影響
- Authors: Lin Zhang, Lijie Hu, Di Wang,
- Abstract要約: トランスフォーマーベースの言語モデルは目覚ましい成功を収めているが、内部の推論機構はほとんど不透明である。
本稿では,言語モデルが推論タスクで使用する推論戦略の追跡と解析を目的とした,新しい機械的解釈可能性フレームワークSICAFを提案する。
Indirect Object Identification (IOI) 予測タスクにおける GPT-2 モデルへの SICAF の適用により,基礎回路が人間の解釈可能性に合致する推論過程を明らかにすることができることを示す。
- 参考スコア(独自算出の注目度): 9.795934690403374
- License:
- Abstract: Transformer-based language models have achieved notable success, yet their internal reasoning mechanisms remain largely opaque due to complex non-linear interactions and high-dimensional operations. While previous research suggests that these models implicitly encode reasoning structures, it is still unclear which specific multi-step thought processes they employ to solve complex tasks. To address this gap, we propose a novel mechanistic interpretability framework, SICAF, designed to trace and analyze the reasoning strategies that language models use in multi-step inference tasks. By employing circuit analysis and self-influence functions, we quantify the evolving importance of each token throughout the reasoning process, thereby mapping the pathways the model uses for inference. Applying SICAF to the GPT-2 model on the Indirect Object Identification (IOI) prediction task, we demonstrate how underlying circuits can reveal a reasoning process that aligns with human interpretability, offering new insights into the model's internal logic.
- Abstract(参考訳): トランスフォーマーベースの言語モデルは顕著な成功を収めているが、複雑な非線形相互作用と高次元演算のため、内部の推論機構はほとんど不透明である。
従来の研究では、これらのモデルが推論構造を暗黙的にエンコードしていることが示唆されていたが、複雑なタスクを解決するためにどの特定の多段階の思考プロセスを使っているかはまだ不明である。
このギャップに対処するために,多段階推論タスクにおいて言語モデルが使用する推論戦略の追跡と解析を目的とした,新しい機械的解釈可能性フレームワーク SICAF を提案する。
回路解析と自己影響関数を用いることで、推論過程を通じて各トークンの進化的重要性を定量化し、モデルが推論に使用する経路をマッピングする。
Indirect Object Identification (IOI) 予測タスクにおける GPT-2 モデルへの SICAF の適用により,本モデルの内部ロジックに対する新たな洞察を提供するとともに,人間の解釈可能性と整合する推論過程を明らかにすることができることを示す。
関連論文リスト
- On the Reasoning Capacity of AI Models and How to Quantify It [0.0]
大規模言語モデル(LLM)は、その推論能力の基本的な性質に関する議論を激化させている。
GPQAやMMLUのようなベンチマークで高い性能を達成する一方で、これらのモデルはより複雑な推論タスクにおいて制限を示す。
本稿では,モデル行動のメカニズムを解明するために,従来の精度指標を超える新しい現象論的手法を提案する。
論文 参考訳(メタデータ) (2025-01-23T16:58:18Z) - Transformers Use Causal World Models in Maze-Solving Tasks [49.67445252528868]
各種領域にまたがるタスクで訓練された変圧器モデルの内部動作について検討する。
トランスフォーマーは、トレーニング中に見るよりも多くのアクティブな機能に対して理にかなっていることが分かりました。
様々な位置エンコーディングがモデルの残留ストリームにWMをエンコードする方法を変えることを観察する。
論文 参考訳(メタデータ) (2024-12-16T15:21:04Z) - A Mechanistic Interpretation of Syllogistic Reasoning in Auto-Regressive Language Models [13.59675117792588]
言語モデル(LM)における論理的推論に関する最近の研究は、LMが事前学習中に体系的推論原理を学べるかという議論を巻き起こしている。
本稿では、内部力学の理解を深めるために、LMにおけるシロメトリクス推論の機械論的解釈を提案する。
論文 参考訳(メタデータ) (2024-08-16T07:47:39Z) - Mechanistically Interpreting a Transformer-based 2-SAT Solver: An Axiomatic Approach [28.336108192282737]
機械的解釈可能性(Mechanistic Interpretability)は、内部コンポーネントの観点からニューラルネットワークが実行する計算をリバースエンジニアリングすることを目的としている。
解析対象のニューラルネットワークのセマンティクスを概ね捉えた記述として,機械的解釈を形式的に特徴づける公理の集合を与える。
解析モデルの機械論的解釈が、実際に記述された公理を満たすことを裏付ける証拠を提示する。
論文 参考訳(メタデータ) (2024-07-18T15:32:44Z) - The Buffer Mechanism for Multi-Step Information Reasoning in Language Models [52.77133661679439]
大きな言語モデルの内部的推論メカニズムを調べることは、よりよいモデルアーキテクチャとトレーニング戦略を設計するのに役立ちます。
本研究では,トランスフォーマーモデルが垂直思考戦略を採用するメカニズムを解明するために,シンボリックデータセットを構築した。
我々は,GPT-2モデルに必要なトレーニング時間を75%削減し,モデルの推論能力を高めるために,ランダムな行列ベースアルゴリズムを提案した。
論文 参考訳(メタデータ) (2024-05-24T07:41:26Z) - Explaining Text Similarity in Transformer Models [52.571158418102584]
説明可能なAIの最近の進歩により、トランスフォーマーの説明の改善を活用することで、制限を緩和できるようになった。
両線形類似性モデルにおける2次説明の計算のために開発された拡張であるBiLRPを用いて、NLPモデルにおいてどの特徴相互作用が類似性を促進するかを調べる。
我々の発見は、異なる意味的類似性タスクやモデルに対するより深い理解に寄与し、新しい説明可能なAIメソッドが、どのようにして深い分析とコーパスレベルの洞察を可能にするかを強調した。
論文 参考訳(メタデータ) (2024-05-10T17:11:31Z) - A Mechanistic Analysis of a Transformer Trained on a Symbolic Multi-Step Reasoning Task [14.921790126851008]
合成推論タスクで訓練された変圧器の包括的力学解析について述べる。
モデルがタスクの解決に使用する解釈可能なメカニズムのセットを特定し,相関的および因果的証拠を用いた結果の検証を行った。
論文 参考訳(メタデータ) (2024-02-19T08:04:25Z) - Towards a Mechanistic Interpretation of Multi-Step Reasoning
Capabilities of Language Models [107.07851578154242]
言語モデル(LM)は強力な多段階推論能力を持つ。
LMが事前学習コーパスから記憶された回答を不正に処理するか,多段階推論機構を用いてタスクを実行するかは明らかでない。
メカニスティックプローブは,ほとんどの例において,モデルの注意から推論ツリーの情報を検出することができることを示す。
論文 参考訳(メタデータ) (2023-10-23T01:47:29Z) - Explainability for Large Language Models: A Survey [59.67574757137078]
大規模言語モデル(LLM)は、自然言語処理における印象的な能力を示している。
本稿では,トランスフォーマーに基づく言語モデルを記述する手法について,説明可能性の分類法を紹介した。
論文 参考訳(メタデータ) (2023-09-02T22:14:26Z) - Interpretability in the Wild: a Circuit for Indirect Object
Identification in GPT-2 small [68.879023473838]
間接オブジェクト識別 (IOI) と呼ばれる自然言語タスクにおいて, GPT-2 の小型化が果たす役割について解説する。
我々の知る限り、この調査は言語モデルにおいて「野生」の自然な振る舞いをリバースエンジニアリングする最大のエンドツーエンドの試みである。
論文 参考訳(メタデータ) (2022-11-01T17:08:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。