論文の概要: Momentum Streams for Optimizer-Inspired Transformers
- arxiv url: http://arxiv.org/abs/2605.24425v1
- Date: Sat, 23 May 2026 06:40:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:18.051053
- Title: Momentum Streams for Optimizer-Inspired Transformers
- Title(参考訳): 最適化器駆動型変圧器用モーメントムストリーム
- Authors: Jingchu Gai, Nai-Chieh Huang, Jiayun Wu,
- Abstract要約: 私たちはモーメントベースのデザインにインスパイアされたトランスフォーマーのファミリーを構築します。
本実験では, 3重モーメントのTMMFormerが最小の検証損失を達成した。
TMMFormerや他の運動量に基づく設計は、バニラトランスよりもフラットなミニマに達することを示す。
- 参考スコア(独自算出の注目度): 8.060910957442397
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The residual update of a pre-norm Transformer layer admits an interpretation as one step of a first-order optimizer acting on a surrogate token energy, wherein the attention and MLP sublayers function as gradient oracles. Based on this observation, we build a family of optimizer-inspired Transformers (triple-momentum, Adam/AdamW, Muon, SOAP) and compare them under matched compute. In our main pretraining experiment, the triple-momentum TMMFormer achieves the lowest validation loss, outperforming the vanilla Transformer and prior architectural variants. A controlled ablation and supporting theory show that momentum, not preconditioning, is the main source of the gain. We further show that TMMFormer and other momentum-based designs reach flatter minima than the vanilla Transformer, which leads to less forgetting and better generalization.
- Abstract(参考訳): プレノーム変圧器層の残留更新は、サロゲートトークンエネルギーに作用する1次オプティマイザの一段階として解釈され、注目層とMLPサブ層は勾配オラクルとして機能する。
この観測に基づいて、オプティマイザにインスパイアされたトランスフォーマー群(トリプルモメンタム、Adam/AdamW、Muon、SOAP)を構築し、マッチした計算の下でそれらを比較します。
本実験では, 3重モーメントTMMFormerの検証損失が最低であり,バニラ変圧器および先行のアーキテクチャ特性よりも優れていた。
制御されたアブレーションと支持理論は、プレコンディショニングではなく運動量が利得の主源であることを示している。
さらに、TMMFormerや他の運動量に基づく設計は、バニラ変換器よりもフラットなミニマに達し、より忘れられやすく、より一般化されることを示す。
関連論文リスト
- A Constrained Optimization Perspective of Unrolled Transformers [77.12297732942095]
我々は、最適化降下アルゴリズムのように振る舞う変圧器の訓練のための制約付き最適化フレームワークを導入する。
拘束型変圧器は摂動の強靭性を実現し,より高い分布分布一般化を維持する。
論文 参考訳(メタデータ) (2026-01-24T02:12:39Z) - Tricks and Plug-ins for Gradient Boosting with Transformers [17.43386196818751]
BoostTransformerは、サブグリッドトークンの選択と重要度の高いサンプリングを通じて、トランスフォーマーを強化します。
提案手法はトランスパイプラインに直接最小2乗推進目標を組み込むことで,より効率的なトレーニングと性能向上を実現している。
論文 参考訳(メタデータ) (2025-08-04T21:54:16Z) - Unveil Benign Overfitting for Transformer in Vision: Training Dynamics, Convergence, and Generalization [88.5582111768376]
本研究では, ソフトマックスを用いた自己保持層と, 勾配勾配下での完全連結層からなるトランスフォーマーの最適化について検討した。
この結果から,データモデルにおける信号対雑音比に基づいて,小さなテストエラー位相と大規模なテストエラー状態とを区別できるシャープ条件を確立した。
論文 参考訳(メタデータ) (2024-09-28T13:24:11Z) - MoEUT: Mixture-of-Experts Universal Transformers [75.96744719516813]
ユニバーサルトランスフォーマー(UT)は、合成一般化の学習において標準トランスフォーマーよりも有利である。
層共有は、同じ次元を持つ非共有モデルと比較してパラメータ数を大幅に削減する。
従来の作業では、言語モデリングのようなパラメータ数の支配的なタスクと競合する共有層トランスフォーマー設計の提案に成功しなかった。
論文 参考訳(メタデータ) (2024-05-25T03:24:32Z) - Setting the Record Straight on Transformer Oversmoothing [35.125957267464756]
モデル深度が増加するにつれて、トランスフォーマーは過度に滑らかになる。
平滑化挙動は値と射影重みの固有スペクトルに依存することを示す。
解析により,トランスフォーマー更新方程式の重み付けをパラメータ化して平滑化挙動に影響を及ぼす簡単な方法が明らかになった。
論文 参考訳(メタデータ) (2024-01-09T01:19:03Z) - Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。
単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-05-26T00:43:02Z) - Transformers learn in-context by gradient descent [58.24152335931036]
自己回帰目標におけるトランスフォーマーの訓練は、勾配に基づくメタラーニングの定式化と密接に関連している。
トレーニングされたトランスフォーマーがメザ最適化器となる方法,すなわち,前方通過における勾配降下によるモデル学習方法を示す。
論文 参考訳(メタデータ) (2022-12-15T09:21:21Z) - Transformers from an Optimization Perspective [24.78739299952529]
本研究では,トランスフォーマーモデルに基づくエネルギー関数の探索問題について検討する。
このような関数を見つけることで、解釈可能な最適化プロセスの展開として変換器を再解釈することができる。
この研究はトランスフォーマーの直感と理解に寄与し、新しいモデル設計の基礎を築き上げている可能性がある。
論文 参考訳(メタデータ) (2022-05-27T10:45:15Z) - Pay Attention to MLPs [84.54729425918164]
gMLP はキー言語やアプリケーションで Transformer と同等に動作可能であることを示す。
我々の比較では、gMLPが同じ精度を達成できるため、ビジョントランスフォーマーには自己注意が重要でないことが示されている。
一般的な実験では、gMLPはデータと計算量を増やして、Transformerと同様にスケール可能である。
論文 参考訳(メタデータ) (2021-05-17T17:55:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。