論文の概要: Transformers Use Causal World Models in Maze-Solving Tasks
- arxiv url: http://arxiv.org/abs/2412.11867v2
- Date: Wed, 05 Mar 2025 23:16:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-07 15:06:36.210458
- Title: Transformers Use Causal World Models in Maze-Solving Tasks
- Title(参考訳): モーズソルビング作業における因果世界モデルを用いたトランスフォーマー
- Authors: Alex F. Spies, William Edwards, Michael I. Ivanitskiy, Adrians Skapars, Tilman Räuker, Katsumi Inoue, Alessandra Russo, Murray Shanahan,
- Abstract要約: 我々は迷路解決タスクで訓練されたトランスフォーマーで世界モデルを特定する。
機能を抑圧するよりも、機能をアクティベートする方が簡単であることが分かりました。
位置符号化方式は、モデルの残留ストリーム内でのワールドモデルがどのように構成されているかに影響を与えるように見える。
- 参考スコア(独自算出の注目度): 49.67445252528868
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent studies in interpretability have explored the inner workings of transformer models trained on tasks across various domains, often discovering that these networks naturally develop highly structured representations. When such representations comprehensively reflect the task domain's structure, they are commonly referred to as "World Models" (WMs). In this work, we identify WMs in transformers trained on maze-solving tasks. By using Sparse Autoencoders (SAEs) and analyzing attention patterns, we examine the construction of WMs and demonstrate consistency between SAE feature-based and circuit-based analyses. By subsequently intervening on isolated features to confirm their causal role, we find that it is easier to activate features than to suppress them. Furthermore, we find that models can reason about mazes involving more simultaneously active features than they encountered during training; however, when these same mazes (with greater numbers of connections) are provided to models via input tokens instead, the models fail. Finally, we demonstrate that positional encoding schemes appear to influence how World Models are structured within the model's residual stream.
- Abstract(参考訳): 解釈可能性に関する最近の研究は、様々な領域にわたるタスクで訓練されたトランスフォーマーモデルの内部動作を調査し、これらのネットワークが自然に高度に構造化された表現を発達させることをしばしば発見している。
このような表現がタスク領域の構造を包括的に反映すると、それらは一般に「世界モデル」(WM)と呼ばれる。
本研究では,迷路解決タスクを訓練した変圧器のWMを同定する。
スパースオートエンコーダ(SAE)を用いて注目パターンを解析することにより,WMの構成を検証し,SAE特徴量と回路解析との整合性を実証する。
その後、孤立した特徴に介入して因果的役割を確認することにより、特徴を抑制できるよりも、特徴を活性化する方が容易であることが判明した。
さらに、モデルがトレーニング中に遭遇したより同時に発生する機能を含む迷路を推論できることが分かるが、入力トークンを介してモデルに同じ迷路(接続数が多い)が提供されると、モデルは失敗する。
最後に、位置符号化方式が、モデルの残留ストリーム内における世界モデルがどのように構成されているかに影響を及ぼすことを示す。
関連論文リスト
- Analyzing Fine-tuning Representation Shift for Multimodal LLMs Steering alignment [53.90425382758605]
モデルの内部構造が微調整によってどのように変化し、新しいマルチモーダルタスクを専門化するかを示す。
我々の研究は、微調整によってマルチモーダル表現がどのように進化するかに光を当て、マルチモーダルタスクにおけるモデル適応を解釈するための新しい視点を提供する。
論文 参考訳(メタデータ) (2025-01-06T13:37:13Z) - Towards Universality: Studying Mechanistic Similarity Across Language Model Architectures [49.24097977047392]
本稿では,言語モデリングの主流となる2つのアーキテクチャ,すなわち Transformers と Mambas について検討する。
我々はこれらのモデルから解釈可能な特徴を分離するためにスパースオートエンコーダ(SAE)を用いることを提案し、これらの2つのモデルでほとんどの特徴が似ていることを示す。
論文 参考訳(メタデータ) (2024-10-09T08:28:53Z) - How Transformers Learn Diverse Attention Correlations in Masked Vision Pretraining [66.08606211686339]
本研究では,マスク付き再建前訓練における一層変圧器の学習に関する,最初のエンドツーエンドの理論的保証を提供する。
概念的側面から,マスク付き視覚前訓練目標を用いた変圧器の局所的・多彩な注意パターンの生成機構を考察する。
技術面では、ソフトマックス・アテンションモデルにおけるトレーニングダイナミクスのエンドツーエンド特性は、入力と位置の埋め込みを同時に考慮する。
論文 参考訳(メタデータ) (2024-03-04T17:24:03Z) - A Mechanistic Analysis of a Transformer Trained on a Symbolic Multi-Step Reasoning Task [14.921790126851008]
合成推論タスクで訓練された変圧器の包括的力学解析について述べる。
モデルがタスクの解決に使用する解釈可能なメカニズムのセットを特定し,相関的および因果的証拠を用いた結果の検証を行った。
論文 参考訳(メタデータ) (2024-02-19T08:04:25Z) - Structured World Representations in Maze-Solving Transformers [3.75591091941815]
この研究は、小さなトランスモデルによって形成された抽象化に焦点を当てている。
迷路位相と有効経路の構造的内部表現が一貫した出現を示す証拠を見出した。
また,注目ヘッドの同定により経路追従回路の解読を行う。
論文 参考訳(メタデータ) (2023-12-05T08:24:26Z) - Understanding Addition in Transformers [2.07180164747172]
本稿では,n桁整数加算を行うために訓練された1層トランスフォーマーモデルの包括的解析を行う。
提案手法は,各桁を対象とする並列ストリームに分割し,各桁の異なる位置に合わせて最適化されたアルゴリズムを用いることを示唆している。
論文 参考訳(メタデータ) (2023-10-19T19:34:42Z) - Emergence of Segmentation with Minimalistic White-Box Transformers [22.688777622988795]
従来の研究では、視覚変換器(ViT)はDINOのような自己教師型手法で訓練されるが、教師型分類タスクでは訓練されていない。
本研究では,複雑な自己教師付き学習機構の結果としてのみ,変圧器モデルにセグメンテーションが出現するかどうかを考察する。
この結果から,高い性能と数学的に完全に解釈可能なホワイトボックス基礎モデルを設計するための道筋が示唆された。
論文 参考訳(メタデータ) (2023-08-30T19:02:17Z) - A Comprehensive Survey on Applications of Transformers for Deep Learning
Tasks [60.38369406877899]
Transformerは、シーケンシャルデータ内のコンテキスト関係を理解するために自己認識メカニズムを使用するディープニューラルネットワークである。
Transformerモデルは、入力シーケンス要素間の長い依存関係を処理し、並列処理を可能にする。
我々の調査では、トランスフォーマーベースのモデルのためのトップ5のアプリケーションドメインを特定します。
論文 参考訳(メタデータ) (2023-06-11T23:13:51Z) - Investigating the role of model-based learning in exploration and
transfer [11.652741003589027]
本稿では,モデルベースエージェントの文脈における伝達学習について検討する。
モデルベースアプローチは,移動学習におけるモデルフリーベースラインよりも優れていることがわかった。
本研究の結果から,本質的な探索と環境モデルが組み合わさって,自己監督的かつ新たな報酬関数に一般化可能なエージェントの方向性を示すことが明らかとなった。
論文 参考訳(メタデータ) (2023-02-08T11:49:58Z) - Generalization Properties of Retrieval-based Models [50.35325326050263]
検索ベースの機械学習手法は、幅広い問題で成功をおさめた。
これらのモデルの約束を示す文献が増えているにもかかわらず、そのようなモデルの理論的基盤はいまだに解明されていない。
本稿では,その一般化能力を特徴付けるために,検索ベースモデルの形式的処理を行う。
論文 参考訳(メタデータ) (2022-10-06T00:33:01Z) - VisBERT: Hidden-State Visualizations for Transformers [66.86452388524886]
VisBERTは,複数の質問応答のタスクに対して,BERT内のコンテキストトークン表現を可視化するツールである。
VisBERTは、モデルの内部状態に関する洞察を得て、推論ステップや潜在的な欠点を探索することを可能にする。
論文 参考訳(メタデータ) (2020-11-09T15:37:43Z) - S2RMs: Spatially Structured Recurrent Modules [105.0377129434636]
モジュール構造とテンポラル構造の両方を同時に活用できる動的構造を利用するための一歩を踏み出します。
我々のモデルは利用可能なビューの数に対して堅牢であり、追加のトレーニングなしで新しいタスクに一般化できる。
論文 参考訳(メタデータ) (2020-07-13T17:44:30Z) - Deep Autoencoding Topic Model with Scalable Hybrid Bayesian Inference [55.35176938713946]
我々は、ガンマ分布の階層構造を用いて、その多確率層生成ネットワークを構築するディープ・オートエンコーディング・トピック・モデル(DATM)を開発した。
Weibull上向き変分エンコーダを提案する。このエンコーダは深層ニューラルネットワークを介して情報を上向きに伝播し,次いで下向き生成モデルを提案する。
大規模コーパス上での教師なしおよび教師なしの学習タスクにおいて,モデルの有効性とスケーラビリティを実証した。
論文 参考訳(メタデータ) (2020-06-15T22:22:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。