論文の概要: Mechanistic Unveiling of Transformer Circuits: Self-Influence as a Key to Model Reasoning
- arxiv url: http://arxiv.org/abs/2502.09022v2
- Date: Fri, 14 Feb 2025 05:46:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-17 14:46:18.692464
- Title: Mechanistic Unveiling of Transformer Circuits: Self-Influence as a Key to Model Reasoning
- Title(参考訳): 変圧器回路の機械的展開:モデル推論の鍵としての自己影響
- Authors: Lin Zhang, Lijie Hu, Di Wang,
- Abstract要約: このような課題を解決するために言語モデルでどのような多段階推論機構が使われているのかはいまだ不明である。
回路解析と自己影響関数を用いて、推論過程を通して各トークンの変動の重要性を評価する。
提案手法は,モデルが使用する人間の解釈可能な推論過程を明らかにする。
- 参考スコア(独自算出の注目度): 9.795934690403374
- License:
- Abstract: Transformer-based language models have achieved significant success; however, their internal mechanisms remain largely opaque due to the complexity of non-linear interactions and high-dimensional operations. While previous studies have demonstrated that these models implicitly embed reasoning trees, humans typically employ various distinct logical reasoning mechanisms to complete the same task. It is still unclear which multi-step reasoning mechanisms are used by language models to solve such tasks. In this paper, we aim to address this question by investigating the mechanistic interpretability of language models, particularly in the context of multi-step reasoning tasks. Specifically, we employ circuit analysis and self-influence functions to evaluate the changing importance of each token throughout the reasoning process, allowing us to map the reasoning paths adopted by the model. We apply this methodology to the GPT-2 model on a prediction task (IOI) and demonstrate that the underlying circuits reveal a human-interpretable reasoning process used by the model.
- Abstract(参考訳): トランスフォーマーベースの言語モデルは大きな成功を収めているが、非線形相互作用と高次元演算の複雑さのため、内部メカニズムはほとんど不透明である。
以前の研究では、これらのモデルが暗黙的に推論木を埋め込むことが実証されているが、人間は通常、同じタスクを完了するために様々な異なる論理的推論メカニズムを使用している。
このような課題を解決するために言語モデルでどのような多段階推論機構が使われているのかはいまだ不明である。
本稿では,言語モデルの機械論的解釈可能性,特に多段階推論タスクの文脈において,この問題に対処することを目的とする。
具体的には、回路解析と自己影響関数を用いて、推論プロセスを通して各トークンの重要度の変化を評価し、モデルが採用する推論経路をマッピングする。
本手法を予測タスク(IOI)上でのGPT-2モデルに適用し,そのモデルが使用する人間解釈可能な推論プロセスを明らかにする。
関連論文リスト
- On the Reasoning Capacity of AI Models and How to Quantify It [0.0]
大規模言語モデル(LLM)は、その推論能力の基本的な性質に関する議論を激化させている。
GPQAやMMLUのようなベンチマークで高い性能を達成する一方で、これらのモデルはより複雑な推論タスクにおいて制限を示す。
本稿では,モデル行動のメカニズムを解明するために,従来の精度指標を超える新しい現象論的手法を提案する。
論文 参考訳(メタデータ) (2025-01-23T16:58:18Z) - Transformers Use Causal World Models in Maze-Solving Tasks [49.67445252528868]
各種領域にまたがるタスクで訓練された変圧器モデルの内部動作について検討する。
トランスフォーマーは、トレーニング中に見るよりも多くのアクティブな機能に対して理にかなっていることが分かりました。
様々な位置エンコーディングがモデルの残留ストリームにWMをエンコードする方法を変えることを観察する。
論文 参考訳(メタデータ) (2024-12-16T15:21:04Z) - A Mechanistic Interpretation of Syllogistic Reasoning in Auto-Regressive Language Models [13.59675117792588]
言語モデル(LM)における論理的推論に関する最近の研究は、LMが事前学習中に体系的推論原理を学べるかという議論を巻き起こしている。
本稿では、内部力学の理解を深めるために、LMにおけるシロメトリクス推論の機械論的解釈を提案する。
論文 参考訳(メタデータ) (2024-08-16T07:47:39Z) - Mechanistically Interpreting a Transformer-based 2-SAT Solver: An Axiomatic Approach [28.336108192282737]
機械的解釈可能性(Mechanistic Interpretability)は、内部コンポーネントの観点からニューラルネットワークが実行する計算をリバースエンジニアリングすることを目的としている。
解析対象のニューラルネットワークのセマンティクスを概ね捉えた記述として,機械的解釈を形式的に特徴づける公理の集合を与える。
解析モデルの機械論的解釈が、実際に記述された公理を満たすことを裏付ける証拠を提示する。
論文 参考訳(メタデータ) (2024-07-18T15:32:44Z) - The Buffer Mechanism for Multi-Step Information Reasoning in Language Models [52.77133661679439]
大きな言語モデルの内部的推論メカニズムを調べることは、よりよいモデルアーキテクチャとトレーニング戦略を設計するのに役立ちます。
本研究では,トランスフォーマーモデルが垂直思考戦略を採用するメカニズムを解明するために,シンボリックデータセットを構築した。
我々は,GPT-2モデルに必要なトレーニング時間を75%削減し,モデルの推論能力を高めるために,ランダムな行列ベースアルゴリズムを提案した。
論文 参考訳(メタデータ) (2024-05-24T07:41:26Z) - Explaining Text Similarity in Transformer Models [52.571158418102584]
説明可能なAIの最近の進歩により、トランスフォーマーの説明の改善を活用することで、制限を緩和できるようになった。
両線形類似性モデルにおける2次説明の計算のために開発された拡張であるBiLRPを用いて、NLPモデルにおいてどの特徴相互作用が類似性を促進するかを調べる。
我々の発見は、異なる意味的類似性タスクやモデルに対するより深い理解に寄与し、新しい説明可能なAIメソッドが、どのようにして深い分析とコーパスレベルの洞察を可能にするかを強調した。
論文 参考訳(メタデータ) (2024-05-10T17:11:31Z) - A Mechanistic Analysis of a Transformer Trained on a Symbolic Multi-Step Reasoning Task [14.921790126851008]
合成推論タスクで訓練された変圧器の包括的力学解析について述べる。
モデルがタスクの解決に使用する解釈可能なメカニズムのセットを特定し,相関的および因果的証拠を用いた結果の検証を行った。
論文 参考訳(メタデータ) (2024-02-19T08:04:25Z) - Towards a Mechanistic Interpretation of Multi-Step Reasoning
Capabilities of Language Models [107.07851578154242]
言語モデル(LM)は強力な多段階推論能力を持つ。
LMが事前学習コーパスから記憶された回答を不正に処理するか,多段階推論機構を用いてタスクを実行するかは明らかでない。
メカニスティックプローブは,ほとんどの例において,モデルの注意から推論ツリーの情報を検出することができることを示す。
論文 参考訳(メタデータ) (2023-10-23T01:47:29Z) - Explainability for Large Language Models: A Survey [59.67574757137078]
大規模言語モデル(LLM)は、自然言語処理における印象的な能力を示している。
本稿では,トランスフォーマーに基づく言語モデルを記述する手法について,説明可能性の分類法を紹介した。
論文 参考訳(メタデータ) (2023-09-02T22:14:26Z) - Interpretability in the Wild: a Circuit for Indirect Object
Identification in GPT-2 small [68.879023473838]
間接オブジェクト識別 (IOI) と呼ばれる自然言語タスクにおいて, GPT-2 の小型化が果たす役割について解説する。
我々の知る限り、この調査は言語モデルにおいて「野生」の自然な振る舞いをリバースエンジニアリングする最大のエンドツーエンドの試みである。
論文 参考訳(メタデータ) (2022-11-01T17:08:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。