Fugu-MT 論文翻訳(概要): Transformers Use Causal World Models in Maze-Solving Tasks

論文の概要: Transformers Use Causal World Models in Maze-Solving Tasks

arxiv url: http://arxiv.org/abs/2412.11867v1
Date: Mon, 16 Dec 2024 15:21:04 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-17 15:50:00.455412
Title: Transformers Use Causal World Models in Maze-Solving Tasks
Title（参考訳）: モーズソルビング作業における因果世界モデルを用いたトランスフォーマー
Authors: Alex F. Spies, William Edwards, Michael I. Ivanitskiy, Adrians Skapars, Tilman Räuker, Katsumi Inoue, Alessandra Russo, Murray Shanahan,
Abstract要約: 各種領域にまたがるタスクで訓練された変圧器モデルの内部動作について検討する。トランスフォーマーは、トレーニング中に見るよりも多くのアクティブな機能に対して理にかなっていることが分かりました。様々な位置エンコーディングがモデルの残留ストリームにWMをエンコードする方法を変えることを観察する。
参考スコア（独自算出の注目度）: 49.67445252528868
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent studies in interpretability have explored the inner workings of transformer models trained on tasks across various domains, often discovering that these networks naturally develop surprisingly structured representations. When such representations comprehensively reflect the task domain's structure, they are commonly referred to as ``World Models'' (WMs). In this work, we discover such WMs in transformers trained on maze tasks. In particular, by employing Sparse Autoencoders (SAEs) and analysing attention patterns, we examine the construction of WMs and demonstrate consistency between the circuit analysis and the SAE feature-based analysis. We intervene upon the isolated features to confirm their causal role and, in doing so, find asymmetries between certain types of interventions. Surprisingly, we find that models are able to reason with respect to a greater number of active features than they see during training, even if attempting to specify these in the input token sequence would lead the model to fail. Futhermore, we observe that varying positional encodings can alter how WMs are encoded in a model's residual stream. By analyzing the causal role of these WMs in a toy domain we hope to make progress toward an understanding of emergent structure in the representations acquired by Transformers, leading to the development of more interpretable and controllable AI systems.
Abstract（参考訳）: 解釈可能性に関する最近の研究は、様々な領域にわたるタスクで訓練されたトランスフォーマーモデルの内部動作を調査し、しばしばこれらのネットワークが驚くほど構造化された表現を自然に発達させることを発見した。このような表現がタスクドメインの構造を包括的に反映すると、それらは一般に '`World Models'' (WMs) と呼ばれる。本研究では,迷路タスクを訓練した変圧器において,そのようなWMを発見する。特に、スパースオートエンコーダ(SAE)を用いて注意パターンを解析することにより、WMの構成を検証し、回路解析とSAE特徴量解析の整合性を実証する。我々は,その因果的役割を確認するために孤立した特徴に介入し,その際,ある種類の介入の間に対称性を見いだす。驚くべきことに、たとえ入力トークンシーケンスでこれらを指定しようとすると、モデルがトレーニング中に見るよりも多くのアクティブな特徴に対して推論できることがわかった。さらに,モデルの残差ストリームにWMをエンコードする方法を,様々な位置エンコーディングが変更可能であることも確認した。おもちゃの領域におけるこれらのWMの因果的役割を分析することで、トランスフォーマーが獲得した表現における創発的構造理解に向けて前進し、より解釈可能で制御可能なAIシステムの開発に繋がることを期待します。

関連論文リスト

Neural Network Reprogrammability: A Unified Theme on Model Reprogramming, Prompt Tuning, and Prompt Instruction [55.914891182214475]
モデル適応のための統一フレームワークとして,ニューラルネットワークの再プログラム可能性を導入する。本稿では,4つの重要な側面にまたがる情報操作アプローチを分類する分類法を提案する。残る技術的課題や倫理的考察も分析する。
論文参考訳（メタデータ） (2025-06-05T05:42:27Z)
Analyzing Fine-tuning Representation Shift for Multimodal LLMs Steering alignment [53.90425382758605]
モデルの内部構造が微調整によってどのように変化し、新しいマルチモーダルタスクを専門化するかを示す。我々の研究は、微調整によってマルチモーダル表現がどのように進化するかに光を当て、マルチモーダルタスクにおけるモデル適応を解釈するための新しい視点を提供する。
論文参考訳（メタデータ） (2025-01-06T13:37:13Z)
Towards Universality: Studying Mechanistic Similarity Across Language Model Architectures [49.24097977047392]
本稿では,言語モデリングの主流となる2つのアーキテクチャ,すなわち Transformers と Mambas について検討する。我々はこれらのモデルから解釈可能な特徴を分離するためにスパースオートエンコーダ(SAE)を用いることを提案し、これらの2つのモデルでほとんどの特徴が似ていることを示す。
論文参考訳（メタデータ） (2024-10-09T08:28:53Z)
How Transformers Learn Diverse Attention Correlations in Masked Vision Pretraining [66.08606211686339]
本研究では,マスク付き再建前訓練における一層変圧器の学習に関する,最初のエンドツーエンドの理論的保証を提供する。概念的側面から,マスク付き視覚前訓練目標を用いた変圧器の局所的・多彩な注意パターンの生成機構を考察する。技術面では、ソフトマックス・アテンションモデルにおけるトレーニングダイナミクスのエンドツーエンド特性は、入力と位置の埋め込みを同時に考慮する。
論文参考訳（メタデータ） (2024-03-04T17:24:03Z)
A Mechanistic Analysis of a Transformer Trained on a Symbolic Multi-Step Reasoning Task [14.921790126851008]
合成推論タスクで訓練された変圧器の包括的力学解析について述べる。モデルがタスクの解決に使用する解釈可能なメカニズムのセットを特定し,相関的および因果的証拠を用いた結果の検証を行った。
論文参考訳（メタデータ） (2024-02-19T08:04:25Z)
Structured World Representations in Maze-Solving Transformers [3.75591091941815]
この研究は、小さなトランスモデルによって形成された抽象化に焦点を当てている。迷路位相と有効経路の構造的内部表現が一貫した出現を示す証拠を見出した。また,注目ヘッドの同定により経路追従回路の解読を行う。
論文参考訳（メタデータ） (2023-12-05T08:24:26Z)
Understanding Addition in Transformers [2.07180164747172]
本稿では,n桁整数加算を行うために訓練された1層トランスフォーマーモデルの包括的解析を行う。提案手法は,各桁を対象とする並列ストリームに分割し,各桁の異なる位置に合わせて最適化されたアルゴリズムを用いることを示唆している。
論文参考訳（メタデータ） (2023-10-19T19:34:42Z)
Emergence of Segmentation with Minimalistic White-Box Transformers [22.688777622988795]
従来の研究では、視覚変換器(ViT)はDINOのような自己教師型手法で訓練されるが、教師型分類タスクでは訓練されていない。本研究では,複雑な自己教師付き学習機構の結果としてのみ,変圧器モデルにセグメンテーションが出現するかどうかを考察する。この結果から,高い性能と数学的に完全に解釈可能なホワイトボックス基礎モデルを設計するための道筋が示唆された。
論文参考訳（メタデータ） (2023-08-30T19:02:17Z)
A Comprehensive Survey on Applications of Transformers for Deep Learning Tasks [60.38369406877899]
Transformerは、シーケンシャルデータ内のコンテキスト関係を理解するために自己認識メカニズムを使用するディープニューラルネットワークである。 Transformerモデルは、入力シーケンス要素間の長い依存関係を処理し、並列処理を可能にする。我々の調査では、トランスフォーマーベースのモデルのためのトップ5のアプリケーションドメインを特定します。
論文参考訳（メタデータ） (2023-06-11T23:13:51Z)
Investigating the role of model-based learning in exploration and transfer [11.652741003589027]
本稿では,モデルベースエージェントの文脈における伝達学習について検討する。モデルベースアプローチは,移動学習におけるモデルフリーベースラインよりも優れていることがわかった。本研究の結果から,本質的な探索と環境モデルが組み合わさって,自己監督的かつ新たな報酬関数に一般化可能なエージェントの方向性を示すことが明らかとなった。
論文参考訳（メタデータ） (2023-02-08T11:49:58Z)
Generalization Properties of Retrieval-based Models [50.35325326050263]
検索ベースの機械学習手法は、幅広い問題で成功をおさめた。これらのモデルの約束を示す文献が増えているにもかかわらず、そのようなモデルの理論的基盤はいまだに解明されていない。本稿では,その一般化能力を特徴付けるために,検索ベースモデルの形式的処理を行う。
論文参考訳（メタデータ） (2022-10-06T00:33:01Z)
VisBERT: Hidden-State Visualizations for Transformers [66.86452388524886]
VisBERTは,複数の質問応答のタスクに対して,BERT内のコンテキストトークン表現を可視化するツールである。 VisBERTは、モデルの内部状態に関する洞察を得て、推論ステップや潜在的な欠点を探索することを可能にする。
論文参考訳（メタデータ） (2020-11-09T15:37:43Z)
S2RMs: Spatially Structured Recurrent Modules [105.0377129434636]
モジュール構造とテンポラル構造の両方を同時に活用できる動的構造を利用するための一歩を踏み出します。我々のモデルは利用可能なビューの数に対して堅牢であり、追加のトレーニングなしで新しいタスクに一般化できる。
論文参考訳（メタデータ） (2020-07-13T17:44:30Z)
Deep Autoencoding Topic Model with Scalable Hybrid Bayesian Inference [55.35176938713946]
我々は、ガンマ分布の階層構造を用いて、その多確率層生成ネットワークを構築するディープ・オートエンコーディング・トピック・モデル(DATM)を開発した。 Weibull上向き変分エンコーダを提案する。このエンコーダは深層ニューラルネットワークを介して情報を上向きに伝播し,次いで下向き生成モデルを提案する。大規模コーパス上での教師なしおよび教師なしの学習タスクにおいて,モデルの有効性とスケーラビリティを実証した。
論文参考訳（メタデータ） (2020-06-15T22:22:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。