論文の概要: Mechanistic Unveiling of Transformer Circuits: Self-Influence as a Key to Model Reasoning
- arxiv url: http://arxiv.org/abs/2502.09022v1
- Date: Thu, 13 Feb 2025 07:19:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-14 13:48:42.978831
- Title: Mechanistic Unveiling of Transformer Circuits: Self-Influence as a Key to Model Reasoning
- Title(参考訳): 変圧器回路の機械的展開:モデル推論の鍵としての自己影響
- Authors: Lin Zhang, Lijie Hu, Di Wang,
- Abstract要約: トランスフォーマーベースの言語モデルは目覚ましい成功を収めているが、内部の推論機構はほとんど不透明である。
本稿では,言語モデルが推論タスクで使用する推論戦略の追跡と解析を目的とした,新しい機械的解釈可能性フレームワークSICAFを提案する。
Indirect Object Identification (IOI) 予測タスクにおける GPT-2 モデルへの SICAF の適用により,基礎回路が人間の解釈可能性に合致する推論過程を明らかにすることができることを示す。
- 参考スコア(独自算出の注目度): 9.795934690403374
- License:
- Abstract: Transformer-based language models have achieved notable success, yet their internal reasoning mechanisms remain largely opaque due to complex non-linear interactions and high-dimensional operations. While previous research suggests that these models implicitly encode reasoning structures, it is still unclear which specific multi-step thought processes they employ to solve complex tasks. To address this gap, we propose a novel mechanistic interpretability framework, SICAF, designed to trace and analyze the reasoning strategies that language models use in multi-step inference tasks. By employing circuit analysis and self-influence functions, we quantify the evolving importance of each token throughout the reasoning process, thereby mapping the pathways the model uses for inference. Applying SICAF to the GPT-2 model on the Indirect Object Identification (IOI) prediction task, we demonstrate how underlying circuits can reveal a reasoning process that aligns with human interpretability, offering new insights into the model's internal logic.
- Abstract(参考訳): トランスフォーマーベースの言語モデルは顕著な成功を収めているが、複雑な非線形相互作用と高次元演算のため、内部の推論機構はほとんど不透明である。
従来の研究では、これらのモデルが推論構造を暗黙的にエンコードしていることが示唆されていたが、複雑なタスクを解決するためにどの特定の多段階の思考プロセスを使っているかはまだ不明である。
このギャップに対処するために,多段階推論タスクにおいて言語モデルが使用する推論戦略の追跡と解析を目的とした,新しい機械的解釈可能性フレームワーク SICAF を提案する。
回路解析と自己影響関数を用いることで、推論過程を通じて各トークンの進化的重要性を定量化し、モデルが推論に使用する経路をマッピングする。
Indirect Object Identification (IOI) 予測タスクにおける GPT-2 モデルへの SICAF の適用により,本モデルの内部ロジックに対する新たな洞察を提供するとともに,人間の解釈可能性と整合する推論過程を明らかにすることができることを示す。
関連論文リスト
- Interpreting Affine Recurrence Learning in GPT-style Transformers [54.01174470722201]
インコンテキスト学習により、GPTスタイルのトランスフォーマーは、重みを変更することなく推論中に一般化できる。
本稿では,ICLタスクとしてアフィンの再発を学習し,予測する能力に着目する。
実験的手法と理論的手法の両方を用いてモデルの内部動作を分析する。
論文 参考訳(メタデータ) (2024-10-22T21:30:01Z) - Interpreting token compositionality in LLMs: A robustness analysis [10.777646083061395]
Constituent-Aware Pooling (CAP)は、大規模言語モデルが言語構造をどのように処理するかを分析するために設計された方法論である。
CAPは様々なモデルレベルで構成型プールを通してモデル活性化に介入する。
本研究は,合成セマンティクス処理とモデル解釈可能性に関する,現在のトランスフォーマーアーキテクチャの基本的制約を明らかにする。
論文 参考訳(メタデータ) (2024-10-16T18:10:50Z) - The Buffer Mechanism for Multi-Step Information Reasoning in Language Models [52.77133661679439]
大きな言語モデルの内部的推論メカニズムを調べることは、よりよいモデルアーキテクチャとトレーニング戦略を設計するのに役立ちます。
本研究では,トランスフォーマーモデルが垂直思考戦略を採用するメカニズムを解明するために,シンボリックデータセットを構築した。
我々は,GPT-2モデルに必要なトレーニング時間を75%削減し,モデルの推論能力を高めるために,ランダムな行列ベースアルゴリズムを提案した。
論文 参考訳(メタデータ) (2024-05-24T07:41:26Z) - Explaining Text Similarity in Transformer Models [52.571158418102584]
説明可能なAIの最近の進歩により、トランスフォーマーの説明の改善を活用することで、制限を緩和できるようになった。
両線形類似性モデルにおける2次説明の計算のために開発された拡張であるBiLRPを用いて、NLPモデルにおいてどの特徴相互作用が類似性を促進するかを調べる。
我々の発見は、異なる意味的類似性タスクやモデルに対するより深い理解に寄与し、新しい説明可能なAIメソッドが、どのようにして深い分析とコーパスレベルの洞察を可能にするかを強調した。
論文 参考訳(メタデータ) (2024-05-10T17:11:31Z) - Axiomatic Causal Interventions for Reverse Engineering Relevance Computation in Neural Retrieval Models [20.29451537633895]
本稿では,ニューラルランサーのリバースエンジニアリングにおける因果介入法を提案する。
本稿では, 項周波数公理を満たす成分を分離するために, 機械的解釈可能性法をどのように利用できるかを示す。
論文 参考訳(メタデータ) (2024-05-03T22:30:15Z) - A Mechanistic Analysis of a Transformer Trained on a Symbolic Multi-Step Reasoning Task [14.921790126851008]
合成推論タスクで訓練された変圧器の包括的力学解析について述べる。
モデルがタスクの解決に使用する解釈可能なメカニズムのセットを特定し,相関的および因果的証拠を用いた結果の検証を行った。
論文 参考訳(メタデータ) (2024-02-19T08:04:25Z) - End-to-End Meta-Bayesian Optimisation with Transformer Neural Processes [52.818579746354665]
本稿では,ニューラルネットワークを一般化し,トランスフォーマーアーキテクチャを用いて獲得関数を学習する,エンド・ツー・エンドの差別化可能な最初のメタBOフレームワークを提案する。
我々は、この強化学習(RL)によるエンドツーエンドのフレームワークを、ラベル付き取得データの欠如に対処できるようにします。
論文 参考訳(メタデータ) (2023-05-25T10:58:46Z) - A Mechanistic Interpretation of Arithmetic Reasoning in Language Models
using Causal Mediation Analysis [128.0532113800092]
算数問題に対するトランスフォーマーに基づくLMの機械的解釈を提案する。
これにより、算術に関連する情報がLMによってどのように処理されるかについての洞察が得られる。
論文 参考訳(メタデータ) (2023-05-24T11:43:47Z) - Obtaining Faithful Interpretations from Compositional Neural Networks [72.41100663462191]
NLVR2およびDROPデータセット上でNMNの中間出力を評価する。
中間出力は期待出力と異なり,ネットワーク構造がモデル動作の忠実な説明を提供していないことを示す。
論文 参考訳(メタデータ) (2020-05-02T06:50:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。