Fugu-MT 論文翻訳(概要): Transformers represent belief state geometry in their residual stream

論文の概要: Transformers represent belief state geometry in their residual stream

arxiv url: http://arxiv.org/abs/2405.15943v2
Date: Mon, 11 Nov 2024 20:09:51 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:32.77497
Title: Transformers represent belief state geometry in their residual stream
Title（参考訳）: 変圧器は残流における信念状態の幾何学を表現する
Authors: Adam S. Shai, Sarah E. Marzen, Lucas Teixeira, Alexander Gietelink Oldenziel, Paul M. Riechers,
Abstract要約: 本稿では,この構造が,データ生成過程の隠蔽状態を更新する信念のメタ力学によって与えられることを示す。我々の研究は、トレーニングデータの構造とトランス内のアクティベーションの幾何学的構造を結びつける一般的なフレームワークを提供する。
参考スコア（独自算出の注目度）: 40.803656512527645
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: What computational structure are we building into large language models when we train them on next-token prediction? Here, we present evidence that this structure is given by the meta-dynamics of belief updating over hidden states of the data-generating process. Leveraging the theory of optimal prediction, we anticipate and then find that belief states are linearly represented in the residual stream of transformers, even in cases where the predicted belief state geometry has highly nontrivial fractal structure. We investigate cases where the belief state geometry is represented in the final residual stream or distributed across the residual streams of multiple layers, providing a framework to explain these observations. Furthermore we demonstrate that the inferred belief states contain information about the entire future, beyond the local next-token prediction that the transformers are explicitly trained on. Our work provides a general framework connecting the structure of training data to the geometric structure of activations inside transformers.
Abstract（参考訳）: 次世代の予測をトレーニングする際に、どんな計算構造を大規模言語モデルに組み込むのか? 本稿では、この構造が、データ生成過程の隠蔽状態を更新する信念のメタ力学によって与えられることを示す。最適予測理論を応用して、予測された信念状態幾何が非常に非自明なフラクタル構造を持つ場合であっても、信念状態が変圧器の残留ストリームに線形に表現されることを予想し、発見する。本研究では, 状態幾何学が最終残差ストリームに表現される場合や, 複数層の残差ストリームに分散する場合について検討し, それらの観察の枠組みを提供する。さらに、推論された信念状態には、トランスフォーマーが明示的に訓練されているという局所的な次なる予測以上の、未来に関する情報が含まれていることを実証する。我々の研究は、トレーニングデータの構造とトランス内のアクティベーションの幾何学的構造を結びつける一般的なフレームワークを提供する。

関連論文リスト

On the Robustness of Transformers against Context Hijacking for Linear Classification [26.1838836907147]
Transformer-based Large Language Models (LLM) は、強力なコンテキスト内学習能力を実証している。それらは、コンテキストハイジャックとして知られる、事実的に正しいコンテキストによって破壊される。十分に訓練された深部変圧器は、経験的観測と整合した高い強靭性を実現することができることを示す。
論文参考訳（メタデータ） (2025-02-21T17:31:00Z)
Constrained belief updates explain geometric structures in transformer representations [0.0]
我々は、最適予測のモデル非依存理論と機械論的解釈可能性を統合し、隠れマルコフモデルのトラクタブルファミリーで訓練されたトランスフォーマーを解析する。注目ヘッドは,確率単純度を自然に解釈したアルゴリズムを実行し,特異な幾何学的構造を持つ表現を生成する。
論文参考訳（メタデータ） (2025-02-04T03:03:54Z)
Transformers trained on proteins can learn to attend to Euclidean distance [0.0]
座標の線形埋め込みをパスした場合,トランスフォーマーは構造モデルとして独立に機能することを示す。また,事前学習したタンパク質トランスフォーマーエンコーダの構造により,下流タスクの性能が向上することを示す。
論文参考訳（メタデータ） (2025-02-03T17:12:44Z)
Dynamics of Transient Structure in In-Context Linear Regression Transformers [0.5242869847419834]
中間タスクの多様性を持つコンテキスト内線形回帰タスクでトランスフォーマーを訓練する場合、トレーニング分布のタスクに特化する前にリッジ回帰のように振る舞うことを示す。一般解から特殊解へのこの遷移は、結合軌道主成分分析によって明らかにされる。局所学習係数によって定義される変圧器のモデル複雑性を測定することにより、この説明を実証的に検証する。
論文参考訳（メタデータ） (2025-01-29T16:32:14Z)
Understanding Scaling Laws with Statistical and Approximation Theory for Transformer Neural Networks on Intrinsically Low-dimensional Data [4.481230230086981]
ディープニューラルネットワークでは、モデルのサイズとデータサイズの両方に依存するパワースケーリング法則に従うために、モデルの一般化誤差がしばしば観察される。本理論は, 一般化誤差とトレーニングデータサイズと変圧器のネットワークサイズとの間のパワー則を予測する。多様体仮説の下で低次元のデータ構造を利用することにより、データ幾何学を尊重する方法でトランスフォーマースケーリング法則を説明することができる。
論文参考訳（メタデータ） (2024-11-11T01:05:28Z)
Grokking of Hierarchical Structure in Vanilla Transformers [72.45375959893218]
トランスフォーマー言語モデルでは,極端に長い訓練期間を経て階層的に一般化できることが示される。中間深度モデルは、非常に深い変圧器と非常に浅い変圧器の両方よりも良く一般化される。
論文参考訳（メタデータ） (2023-05-30T04:34:13Z)
DejaVu: Conditional Regenerative Learning to Enhance Dense Prediction [45.89461725594674]
我々は,高密度予測タスクの深部ネットワーク改善のために,条件付き画像再生をトレーニング中に追加の監督として利用する。 DejaVuは、高密度予測ネットワークに注目ベースの再生モジュールを組み込むように拡張することができる。
論文参考訳（メタデータ） (2023-03-02T20:56:36Z)
Transformers learn in-context by gradient descent [58.24152335931036]
自己回帰目標におけるトランスフォーマーの訓練は、勾配に基づくメタラーニングの定式化と密接に関連している。トレーニングされたトランスフォーマーがメザ最適化器となる方法,すなわち,前方通過における勾配降下によるモデル学習方法を示す。
論文参考訳（メタデータ） (2022-12-15T09:21:21Z)
Characterizing Intrinsic Compositionality in Transformers with Tree Projections [72.45375959893218]
トランスのようなニューラルモデルは、入力の異なる部分間で情報を任意にルーティングすることができる。 3つの異なるタスクに対するトランスフォーマーは、トレーニングの過程でより木のようなものになることを示す。これらの木はモデル挙動を予測し、より木のようなモデルは構成的一般化のテストにおいてより良く一般化する。
論文参考訳（メタデータ） (2022-11-02T17:10:07Z)
Unsupervised Learning of Equivariant Structure from Sequences [30.974508897223124]
我々は,少なくとも3つの長さの時系列から対称性を学習するための教師なしのフレームワークを提案する。当社のフレームワークでは,データセットの非絡み合い構造が副産物として自然に現れることを実証します。
論文参考訳（メタデータ） (2022-10-12T07:29:18Z)
Structural Biases for Improving Transformers on Translation into Morphologically Rich Languages [120.74406230847904]
TP-Transformerは従来のTransformerアーキテクチャを拡張し、構造を表現するコンポーネントを追加する。第2の方法は、形態的トークン化でデータをセグメント化することで、データレベルで構造を付与する。これらの2つのアプローチのそれぞれが、ネットワークがより良いパフォーマンスを達成することを可能にすることは分かっていますが、この改善はデータセットのサイズに依存します。
論文参考訳（メタデータ） (2022-08-11T22:42:24Z)
Vision Transformers for Dense Prediction [77.34726150561087]
高密度予測タスクのバックボーンとして、畳み込みネットワークの代わりにビジョントランスを活用するアーキテクチャである高密度ビジョントランスを紹介します。実験により,このアーキテクチャは高密度予測タスクにおいて大幅な改善をもたらすことが示された。
論文参考訳（メタデータ） (2021-03-24T18:01:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。