論文の概要: Towards Understanding Transformers in Learning Random Walks
- arxiv url: http://arxiv.org/abs/2511.23239v1
- Date: Fri, 28 Nov 2025 14:48:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.941005
- Title: Towards Understanding Transformers in Learning Random Walks
- Title(参考訳): ランダムウォーク学習における変圧器の理解に向けて
- Authors: Wei Shi, Yuan Cao,
- Abstract要約: 古典的な統計モデル群を学習する際の変圧器の能力と解釈可能性について検討する。
理論的には、勾配降下訓練後、1層変圧器モデルがランダムウォークの予測において最適な精度を達成できることを実証する。
- 参考スコア(独自算出の注目度): 9.932786025716103
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Transformers have proven highly effective across various applications, especially in handling sequential data such as natural languages and time series. However, transformer models often lack clear interpretability, and the success of transformers has not been well understood in theory. In this paper, we study the capability and interpretability of transformers in learning a family of classic statistical models, namely random walks on circles. We theoretically demonstrate that, after training with gradient descent, a one-layer transformer model can achieve optimal accuracy in predicting random walks. Importantly, our analysis reveals that the trained model is interpretable: the trained softmax attention serves as a token selector, focusing on the direct parent state; subsequently, the value matrix executes a one-step probability transition to predict the location of the next state based on this parent state. We also show that certain edge cases not covered by our theory are indeed failure cases, demonstrating that our theoretical conditions are tight. By investigating these success and failure cases, it is revealed that gradient descent with small initialization may fail or struggle to converge to a good solution in certain simple tasks even beyond random walks. Experiments are conducted to support our theoretical findings.
- Abstract(参考訳): トランスフォーマーは様々なアプリケーション、特に自然言語や時系列などのシーケンシャルなデータを扱う上で、非常に効果的であることが証明されている。
しかし、トランスモデルは明確な解釈可能性に欠けることが多く、理論上はトランスフォーマーの成功はよく理解されていない。
本稿では,古典的統計モデル,すなわち円上のランダムウォークを学習する際の変圧器の能力と解釈可能性について検討する。
理論的には、勾配降下訓練後、1層変圧器モデルがランダムウォークの予測において最適な精度を達成できることを実証する。
トレーニングされたソフトマックスアテンションは、直接親状態に着目したトークンセレクタとして機能し、その後、値行列はこの親状態に基づいて次の状態の位置を予測する1ステップの確率遷移を実行する。
また、我々の理論によってカバーされていない特定のエッジケースは、確かに失敗ケースであり、我々の理論条件が厳密であることを示す。
これらの成功事例と失敗事例を調査した結果、小さな初期化を伴う勾配勾配降下は失敗するか、あるいはランダムウォークを超える単純なタスクにおいて良い解に収束するのに苦労する可能性があることが明らかとなった。
理論的研究を支援するために実験を行った。
関連論文リスト
- Two failure modes of deep transformers and how to avoid them: a unified theory of signal propagation at initialisation [8.973965016201822]
ニューラルネットワークの適切な初期化を見つけることは、スムーズなトレーニングと優れたパフォーマンスを保証するために不可欠である。
トランスフォーマーでは、間違った初期化は、ランク崩壊、すべてのトークンが同様の表現に崩壊するランク崩壊、エントロピー崩壊、高度に集中した注意スコアが不安定になる2つの失敗モードの1つにつながる可能性がある。
ここでは、自己アテンション、層正規化、スキップ接続、勾配を有する深層変圧器による信号伝搬の解析理論を提案する。
論文 参考訳(メタデータ) (2025-05-30T08:18:23Z) - One-Layer Transformer Provably Learns One-Nearest Neighbor In Context [48.4979348643494]
本研究では、1層変圧器が1層近傍の規則を学習する能力について検討する。
単一のソフトマックスアテンション層は、ワンアレスト隣人のように振る舞うことをうまく学ぶことができる。
論文 参考訳(メタデータ) (2024-11-16T16:12:42Z) - Can Looped Transformers Learn to Implement Multi-step Gradient Descent for In-context Learning? [69.4145579827826]
収束ランドスケープの勾配非性アルゴリズムにもかかわらず、回帰損失に高速な流れを示す。
この設定における多層トランスの理論的解析はこれが初めてである。
論文 参考訳(メタデータ) (2024-10-10T18:29:05Z) - Unveil Benign Overfitting for Transformer in Vision: Training Dynamics, Convergence, and Generalization [88.5582111768376]
本研究では, ソフトマックスを用いた自己保持層と, 勾配勾配下での完全連結層からなるトランスフォーマーの最適化について検討した。
この結果から,データモデルにおける信号対雑音比に基づいて,小さなテストエラー位相と大規模なテストエラー状態とを区別できるシャープ条件を確立した。
論文 参考訳(メタデータ) (2024-09-28T13:24:11Z) - Learning on Transformers is Provable Low-Rank and Sparse: A One-layer Analysis [63.66763657191476]
低ランク計算としての効率的な数値学習と推論アルゴリズムはトランスフォーマーに基づく適応学習に優れた性能を持つことを示す。
我々は、等級モデルが適応性を改善しながら一般化にどのように影響するかを分析する。
適切なマグニチュードベースのテストは,テストパフォーマンスに多少依存している,と結論付けています。
論文 参考訳(メタデータ) (2024-06-24T23:00:58Z) - Trained Transformers Learn Linear Models In-Context [39.56636898650966]
トランスフォーマーとしての注意に基づくニューラルネットワークは、意図的学習(ICL)を示す顕著な能力を示した
線形回帰問題のランダムな例に対する変圧器の訓練において、これらのモデルの予測は通常の正方形の非線形性を模倣することを示した。
論文 参考訳(メタデータ) (2023-06-16T15:50:03Z) - Transformers learn in-context by gradient descent [58.24152335931036]
自己回帰目標におけるトランスフォーマーの訓練は、勾配に基づくメタラーニングの定式化と密接に関連している。
トレーニングされたトランスフォーマーがメザ最適化器となる方法,すなわち,前方通過における勾配降下によるモデル学習方法を示す。
論文 参考訳(メタデータ) (2022-12-15T09:21:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。