論文の概要: Incremental Learning of Sparse Attention Patterns in Transformers
- arxiv url: http://arxiv.org/abs/2602.19143v1
- Date: Sun, 22 Feb 2026 12:16:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.503165
- Title: Incremental Learning of Sparse Attention Patterns in Transformers
- Title(参考訳): 変圧器におけるスパースアテンションパターンのインクリメンタル学習
- Authors: Oğuz Kaan Yüksel, Rodrigo Alvarez Lucendo, Nicolas Flammarion,
- Abstract要約: 本稿では,複数の過去の位置からの情報を変換器がどのように統合するかを検討するために,高次マルコフ連鎖タスクを提案する。
我々は、頭が最も統計的に支配的なパターンに収束する競争から、異なるパターンを専門とする協調へと、学習力学のシフトを特定する。
- 参考スコア(独自算出の注目度): 29.54151079577767
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces a high-order Markov chain task to investigate how transformers learn to integrate information from multiple past positions with varying statistical significance. We demonstrate that transformers learn this task incrementally: each stage is defined by the acquisition of specific information through sparse attention patterns. Notably, we identify a shift in learning dynamics from competitive, where heads converge on the most statistically dominant pattern, to cooperative, where heads specialize in distinct patterns. We model these dynamics using simplified differential equations that characterize the trajectory and prove stage-wise convergence results. Our analysis reveals that transformers ascend a complexity ladder by passing through simpler, misspecified hypothesis classes before reaching the full model class. We further show that early stopping acts as an implicit regularizer, biasing the model toward these simpler classes. These results provide a theoretical foundation for the emergence of staged learning and complex behaviors in transformers, offering insights into generalization for natural language processing and algorithmic reasoning.
- Abstract(参考訳): 本稿では,複数の過去の位置からの情報を統計的に有意な値でどのように統合するかを検討するために,高次マルコフ連鎖タスクを提案する。
それぞれの段階は、スパース・アテンション・パターンを通じて特定の情報を取得することで定義される。
特に、最も統計的に支配的なパターンに頭が収束する競争から、異なるパターンを専門とする協調的パターンへの学習ダイナミクスのシフトを特定する。
我々はこれらの力学を、軌道を特徴づける単純化された微分方程式を用いてモデル化し、段階収束結果を証明する。
解析の結果, トランスフォーマーはモデルクラスに到達する前に, より単純で不特定な仮説クラスを通り抜けることで, 複雑性を増進することが明らかとなった。
さらに、早期停止は暗黙の正則化子として作用し、モデルがこれらの単純なクラスに偏っていることを示す。
これらの結果は、トランスフォーマーにおけるステージドラーニングと複雑な振る舞いの出現に関する理論的基盤を提供し、自然言語処理とアルゴリズム推論の一般化に関する洞察を提供する。
関連論文リスト
- The Kinetics of Reasoning: How Chain-of-Thought Shapes Learning in Transformers? [25.29458951592086]
チェーン・オブ・シント(CoT)の監督はトランスフォーマーの性能を大幅に向上させることができる。
シンボリック推論タスクにおけるトランスフォーマーの事前学習により、これらの学習ダイナミクスをグラクキングのレンズを通して検討する。
論文 参考訳(メタデータ) (2025-10-28T20:14:26Z) - Transformers as Multi-task Learners: Decoupling Features in Hidden Markov Models [12.112842686827669]
トランスフォーマーベースのモデルは、幅広いタスクにわたってシーケンス学習において顕著な能力を示している。
マルチタスク一般化能力の基盤となるメカニズムを明らかにするために,トランスフォーマーの階層的挙動について検討する。
我々の明示的な構成は経験的観察と密接に一致し、様々なタスクにわたるシーケンス学習におけるトランスフォーマーの有効性と効率の理論的支援を提供する。
論文 参考訳(メタデータ) (2025-06-02T17:39:31Z) - A distributional simplicity bias in the learning dynamics of transformers [50.91742043564049]
自然言語データに基づいてトレーニングされたトランスフォーマーは、単純さのバイアスも示している。
具体的には、入力トークン間の多体相互作用を逐次学習し、低次相互作用の予測誤差において飽和点に達する。
このアプローチは、自然言語処理などにおいて、データ内の異なる順序の相互作用が学習にどのように影響するかを研究する可能性を開く。
論文 参考訳(メタデータ) (2024-10-25T15:39:34Z) - In-Context Learning with Representations: Contextual Generalization of Trained Transformers [66.78052387054593]
In-context Learning (ICL) は、事前訓練された大規模言語モデルの能力を指し、推論中にいくつか例を挙げると、新しいタスクを学習できる。
本稿では,非線形回帰タスクのレンズによる勾配降下による変圧器のトレーニングダイナミクスについて検討する。
論文 参考訳(メタデータ) (2024-08-19T16:47:46Z) - Learning on Transformers is Provable Low-Rank and Sparse: A One-layer Analysis [63.66763657191476]
低ランク計算としての効率的な数値学習と推論アルゴリズムはトランスフォーマーに基づく適応学習に優れた性能を持つことを示す。
我々は、等級モデルが適応性を改善しながら一般化にどのように影響するかを分析する。
適切なマグニチュードベースのテストは,テストパフォーマンスに多少依存している,と結論付けています。
論文 参考訳(メタデータ) (2024-06-24T23:00:58Z) - Local to Global: Learning Dynamics and Effect of Initialization for Transformers [20.02103237675619]
我々は一階マルコフ連鎖と単層変圧器に焦点をあてる。
我々は,次世代の予測損失に基づいてトレーニングしたトランスフォーマーパラメータが,グローバルあるいはローカルのミニマに収束可能であることを証明した。
論文 参考訳(メタデータ) (2024-06-05T08:57:41Z) - In-Context Convergence of Transformers [63.04956160537308]
勾配降下法により訓練したソフトマックスアテンションを有する一層変圧器の学習力学について検討した。
不均衡な特徴を持つデータに対しては、学習力学が段階的に収束する過程をとることを示す。
論文 参考訳(メタデータ) (2023-10-08T17:55:33Z) - Masked Language Modeling for Proteins via Linearly Scalable Long-Context
Transformers [42.93754828584075]
我々は、高速注意Via Orthogonal Random機能(FAVOR)に基づく新しいトランスフォーマーアーキテクチャPerformerを提案する。
我々の機構は、列内のトークンの数で2次ではなく2次的にスケールし、四次空間の複雑さが特徴であり、スパーシティパターンの先行を含まない。
これは強い理論的保証を与える:注意行列の偏りのない推定と一様収束である。
論文 参考訳(メタデータ) (2020-06-05T17:09:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。