論文の概要: What Makes Looped Transformers Perform Better Than Non-Recursive Ones (Provably)
- arxiv url: http://arxiv.org/abs/2510.10089v1
- Date: Sat, 11 Oct 2025 07:59:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.776305
- Title: What Makes Looped Transformers Perform Better Than Non-Recursive Ones (Provably)
- Title(参考訳): ループトランスフォーマーは、非再帰的なトランスフォーマーよりもパフォーマンスが良い(たぶん)
- Authors: Zixuan Gong, Jiaye Teng, Yong Liu,
- Abstract要約: ループ変換器は複雑な推論タスクにおいて標準変換器より優れていることが多い。
我々はLooped-AttnがRiver-V-Valleyに対してランドスケープレベルの帰納バイアスをもたらすと推測する。
本稿では,Looped-Attnのトレーニングプロセスを高速化し,同等のパフォーマンスを実現するためのトレーニングフレームワークShiftを提案する。
- 参考スコア(独自算出の注目度): 19.50769116890508
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While looped transformers (termed as Looped-Attn) often outperform standard transformers (termed as Single-Attn) on complex reasoning tasks, the theoretical basis for this advantage remains underexplored. In this paper, we explain this phenomenon through the lens of loss landscape geometry, inspired by empirical observations of their distinct dynamics at both sample and Hessian levels. To formalize this, we extend the River-Valley landscape model by distinguishing between U-shaped valleys (flat) and V-shaped valleys (steep). Based on empirical observations, we conjecture that the recursive architecture of Looped-Attn induces a landscape-level inductive bias towards River-V-Valley. Theoretical derivations based on this inductive bias guarantee a better loss convergence along the river due to valley hopping, and further encourage learning about complex patterns compared to the River-U-Valley induced by Single-Attn. Building on this insight, we propose SHIFT (Staged HIerarchical Framework for Progressive Training), a staged training framework that accelerates the training process of Looped-Attn while achieving comparable performances.
- Abstract(参考訳): ループ変換器 (Looped-Attn と呼ばれる) は複雑な推論タスクにおいて標準変換器 (Single-Attn と呼ばれる) よりも優れているが、この利点の理論的基礎は未解明のままである。
本稿では、この現象を損失地形幾何学のレンズを通して説明し、サンプルとヘッセンの双方で異なるダイナミクスを経験的に観察した結果から着想を得た。
これを定式化するために、U字谷(平)とV字谷(平)を区別することにより、リバー・ヴァレー景観モデルを拡張した。
経験的観測に基づいて,ループド・アットンの再帰的構造は河川-V-ヴァレーに対する景観レベルの帰納的バイアスをもたらすと推測する。
この帰納バイアスに基づく理論的導出により、谷のホッピングによる河岸の損失収束が向上し、シングルアットンによって誘発される川-U-ヴァレーと比較して複雑なパターンの学習が促進される。
この知見に基づいて、我々は、Looped-Attnのトレーニングプロセスを加速しつつ、同等のパフォーマンスを実現する段階的なトレーニングフレームワークShiFT(Staged HIerarchical Framework for Progressive Training)を提案する。
関連論文リスト
- Diffusion Bridge or Flow Matching? A Unifying Framework and Comparative Analysis [57.614436689939986]
拡散ブリッジとフローマッチングは、任意の分布間の変換において魅力的な経験的性能を示した。
我々は,これらのフレームワークを最適制御のレンズを通して再キャストし,拡散橋のコスト関数が低いことを証明した。
これらの理論的主張を裏付けるために,潜伏変圧器上に構築された拡散橋の新しい強力なアーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-09-29T09:45:22Z) - Transformers Learn to Implement Multi-step Gradient Descent with Chain of Thought [46.71030329872635]
Chain of Thought (CoT) のプロンプトにより,大規模言語モデル (LLM) の性能が大幅に向上することが示されている。
線形回帰のための文脈内重み予測タスクにおいて,CoT目標に対する変圧器のトレーニングダイナミクスについて検討する。
論文 参考訳(メタデータ) (2025-02-28T16:40:38Z) - Can Looped Transformers Learn to Implement Multi-step Gradient Descent for In-context Learning? [69.4145579827826]
収束ランドスケープの勾配非性アルゴリズムにもかかわらず、回帰損失に高速な流れを示す。
この設定における多層トランスの理論的解析はこれが初めてである。
論文 参考訳(メタデータ) (2024-10-10T18:29:05Z) - Uncovering Layer-Dependent Activation Sparsity Patterns in ReLU Transformers [2.1572258716881905]
我々は、トレーニングの過程でトークンレベルのスパーシリティがどのように進化し、より広いスパーシリティパターンにどのように結びつくかを探る。
特に、ネットワークの第一層と最後の層は、多くの点で、空間性との関係を逆転させることを実証する。
さらに、ReLU次元の「オフ」現象を探求し、「ニューロン死」がトレーニングのダイナミクスによって引き起こされていることを示す証拠を示す。
論文 参考訳(メタデータ) (2024-07-10T17:10:10Z) - Towards Training Without Depth Limits: Batch Normalization Without
Gradient Explosion [83.90492831583997]
バッチ正規化ネットワークは,信号伝搬特性を最適に保ちつつ,爆発的な勾配を回避することができることを示す。
線形アクティベーションとバッチ正規化を備えた多層パーセプトロン(MLP)を用いて,有界深度を実証する。
また、ある非線形活性化に対して同じ特性を経験的に達成する活性化整形法を設計する。
論文 参考訳(メタデータ) (2023-10-03T12:35:02Z) - Transport meets Variational Inference: Controlled Monte Carlo Diffusions [5.5654189024307685]
本稿では,経路空間上の発散に着目したサンプリングおよび生成モデリングのための原理的かつ体系的な枠組みを提案する。
ベイズ計算のためのemphControlled Monte Carlo Diffusion sampler (CMCD)を開発した。
論文 参考訳(メタデータ) (2023-07-03T14:28:36Z) - Latent Traversals in Generative Models as Potential Flows [113.4232528843775]
我々は,学習された動的ポテンシャルランドスケープを持つ潜在構造をモデル化することを提案する。
物理、最適輸送、神経科学にインスパイアされたこれらの潜在的景観は、物理的に現実的な偏微分方程式として学習される。
本手法は,最先端のベースラインよりも定性的かつ定量的に歪んだ軌跡を実現する。
論文 参考訳(メタデータ) (2023-04-25T15:53:45Z) - Haar Wavelet based Block Autoregressive Flows for Trajectories [129.37479472754083]
歩行者等の軌道予測は,自律型エージェントの性能向上に不可欠である。
本稿では分割結合を利用した新しいハールウェーブレットに基づくブロック自己回帰モデルを提案する。
実世界の2つのデータセット上で、多種多様な正確な軌跡を生成するアプローチの利点について説明する。
論文 参考訳(メタデータ) (2020-09-21T13:57:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。