論文の概要: Transformers Use Causal World Models in Maze-Solving Tasks
- arxiv url: http://arxiv.org/abs/2412.11867v2
- Date: Wed, 05 Mar 2025 23:16:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-07 15:56:12.667446
- Title: Transformers Use Causal World Models in Maze-Solving Tasks
- Title(参考訳): モーズソルビング作業における因果世界モデルを用いたトランスフォーマー
- Authors: Alex F. Spies, William Edwards, Michael I. Ivanitskiy, Adrians Skapars, Tilman Räuker, Katsumi Inoue, Alessandra Russo, Murray Shanahan,
- Abstract要約: 我々は迷路解決タスクで訓練されたトランスフォーマーで世界モデルを特定する。
機能を抑圧するよりも、機能をアクティベートする方が簡単であることが分かりました。
位置符号化方式は、モデルの残留ストリーム内でのワールドモデルがどのように構成されているかに影響を与えるように見える。
- 参考スコア(独自算出の注目度): 49.67445252528868
- License:
- Abstract: Recent studies in interpretability have explored the inner workings of transformer models trained on tasks across various domains, often discovering that these networks naturally develop highly structured representations. When such representations comprehensively reflect the task domain's structure, they are commonly referred to as "World Models" (WMs). In this work, we identify WMs in transformers trained on maze-solving tasks. By using Sparse Autoencoders (SAEs) and analyzing attention patterns, we examine the construction of WMs and demonstrate consistency between SAE feature-based and circuit-based analyses. By subsequently intervening on isolated features to confirm their causal role, we find that it is easier to activate features than to suppress them. Furthermore, we find that models can reason about mazes involving more simultaneously active features than they encountered during training; however, when these same mazes (with greater numbers of connections) are provided to models via input tokens instead, the models fail. Finally, we demonstrate that positional encoding schemes appear to influence how World Models are structured within the model's residual stream.
- Abstract(参考訳): 解釈可能性に関する最近の研究は、様々な領域にわたるタスクで訓練されたトランスフォーマーモデルの内部動作を調査し、これらのネットワークが自然に高度に構造化された表現を発達させることをしばしば発見している。
このような表現がタスク領域の構造を包括的に反映すると、それらは一般に「世界モデル」(WM)と呼ばれる。
本研究では,迷路解決タスクを訓練した変圧器のWMを同定する。
スパースオートエンコーダ(SAE)を用いて注目パターンを解析することにより,WMの構成を検証し,SAE特徴量と回路解析との整合性を実証する。
その後、孤立した特徴に介入して因果的役割を確認することにより、特徴を抑制できるよりも、特徴を活性化する方が容易であることが判明した。
さらに、モデルがトレーニング中に遭遇したより同時に発生する機能を含む迷路を推論できることが分かるが、入力トークンを介してモデルに同じ迷路(接続数が多い)が提供されると、モデルは失敗する。
最後に、位置符号化方式が、モデルの残留ストリーム内における世界モデルがどのように構成されているかに影響を及ぼすことを示す。
関連論文リスト
- Interpreting and Steering Protein Language Models through Sparse Autoencoders [0.9208007322096533]
本稿では,タンパク質言語モデルの内部表現の解釈におけるスパースオートエンコーダの適用について検討する。
各潜伏成分の異なるタンパク質アノテーションとの関連性について統計的解析を行うことにより,種々のタンパク質の特徴に関連する潜在的な解釈を同定する。
次に、これらの洞察を活用してシーケンス生成をガイドし、モデルを望ましいターゲットに向けて操ることのできる関連する潜在コンポーネントをショートリスト化します。
論文 参考訳(メタデータ) (2025-02-13T10:11:36Z) - Analyzing Fine-tuning Representation Shift for Multimodal LLMs Steering alignment [53.90425382758605]
モデルの内部構造が微調整によってどのように変化し、新しいマルチモーダルタスクを専門化するかを示す。
我々の研究は、微調整によってマルチモーダル表現がどのように進化するかに光を当て、マルチモーダルタスクにおけるモデル適応を解釈するための新しい視点を提供する。
論文 参考訳(メタデータ) (2025-01-06T13:37:13Z) - Interpreting Affine Recurrence Learning in GPT-style Transformers [54.01174470722201]
インコンテキスト学習により、GPTスタイルのトランスフォーマーは、重みを変更することなく推論中に一般化できる。
本稿では,ICLタスクとしてアフィンの再発を学習し,予測する能力に着目する。
実験的手法と理論的手法の両方を用いてモデルの内部動作を分析する。
論文 参考訳(メタデータ) (2024-10-22T21:30:01Z) - Towards Universality: Studying Mechanistic Similarity Across Language Model Architectures [49.24097977047392]
本稿では,言語モデリングの主流となる2つのアーキテクチャ,すなわち Transformers と Mambas について検討する。
我々はこれらのモデルから解釈可能な特徴を分離するためにスパースオートエンコーダ(SAE)を用いることを提案し、これらの2つのモデルでほとんどの特徴が似ていることを示す。
論文 参考訳(メタデータ) (2024-10-09T08:28:53Z) - Circuit Compositions: Exploring Modular Structures in Transformer-Based Language Models [22.89563355840371]
言語モデル内の高構成サブタスクの回路解析により,ニューラルネットワークのモジュラリティについて検討する。
以上の結果から,機能的に類似した回路は,ノード重なりとクロスタスク忠実度の両方を示すことが明らかとなった。
論文 参考訳(メタデータ) (2024-10-02T11:36:45Z) - Computation-Efficient Era: A Comprehensive Survey of State Space Models in Medical Image Analysis [8.115549269867403]
状態空間モデル(SSM)は、最近、シーケンシャルなモデリングと視覚的表現学習において大きな関心を集めている。
コンピュータービジョンの進歩に乗じて、医療画像はMambaモデルによる新しい時代を告げた。
論文 参考訳(メタデータ) (2024-06-05T16:29:03Z) - A Mechanistic Analysis of a Transformer Trained on a Symbolic Multi-Step Reasoning Task [14.921790126851008]
合成推論タスクで訓練された変圧器の包括的力学解析について述べる。
モデルがタスクの解決に使用する解釈可能なメカニズムのセットを特定し,相関的および因果的証拠を用いた結果の検証を行った。
論文 参考訳(メタデータ) (2024-02-19T08:04:25Z) - Understanding Addition in Transformers [2.07180164747172]
本稿では,n桁整数加算を行うために訓練された1層トランスフォーマーモデルの包括的解析を行う。
提案手法は,各桁を対象とする並列ストリームに分割し,各桁の異なる位置に合わせて最適化されたアルゴリズムを用いることを示唆している。
論文 参考訳(メタデータ) (2023-10-19T19:34:42Z) - A Comprehensive Survey on Applications of Transformers for Deep Learning
Tasks [60.38369406877899]
Transformerは、シーケンシャルデータ内のコンテキスト関係を理解するために自己認識メカニズムを使用するディープニューラルネットワークである。
Transformerモデルは、入力シーケンス要素間の長い依存関係を処理し、並列処理を可能にする。
我々の調査では、トランスフォーマーベースのモデルのためのトップ5のアプリケーションドメインを特定します。
論文 参考訳(メタデータ) (2023-06-11T23:13:51Z) - VisBERT: Hidden-State Visualizations for Transformers [66.86452388524886]
VisBERTは,複数の質問応答のタスクに対して,BERT内のコンテキストトークン表現を可視化するツールである。
VisBERTは、モデルの内部状態に関する洞察を得て、推論ステップや潜在的な欠点を探索することを可能にする。
論文 参考訳(メタデータ) (2020-11-09T15:37:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。