論文の概要: Closing the Curvature Gap: Full Transformer Hessians and Their Implications for Scaling Laws
- arxiv url: http://arxiv.org/abs/2510.16927v1
- Date: Sun, 19 Oct 2025 16:54:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.212787
- Title: Closing the Curvature Gap: Full Transformer Hessians and Their Implications for Scaling Laws
- Title(参考訳): 曲率ギャップの閉包:フル変圧器ヘッセンとそのスケーリング法則への応用
- Authors: Egor Petrov, Nikita Kiselev, Vladislav Meshkov, Andrey Grabovoy,
- Abstract要約: ヘッセン理論をフルトランスフォーマーアーキテクチャに拡張する。
本研究は,大規模深層学習における最適化の理論的および実証的研究の新たな基盤を確立する。
- 参考スコア(独自算出の注目度): 0.5774786149181391
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The lack of theoretical results for Layer Normalization and feedforward Hessians has left a gap in the study of Transformer optimization landscapes. We address this by deriving explicit second-order expressions for these components, thereby completing the Hessian characterization of full Transformer blocks. Our results generalize prior self-attention analyses and yield estimations for the role of each sublayer in curvature propagation. We demonstrate how these Hessian structures inform both convergence dynamics and the empirical scaling laws governing large-model performance. Further, we propose a Taylor-expansion-based framework for analyzing loss differences to quantify convergence trajectories. By extending Hessian theory to the full Transformer architecture, this work establishes a new foundation for theoretical and empirical investigations of optimization in large-scale deep learning.
- Abstract(参考訳): 層正規化とフィードフォワードヘッセンに対する理論的結果の欠如は、トランスフォーマー最適化のランドスケープの研究にギャップを残している。
これらのコンポーネントに対して明示的な2階式を導出することにより,フルトランスフォーマーブロックのヘッセン的特徴を完備化することで,この問題に対処する。
本研究は, 曲率伝播における各サブレイヤの役割について, 先行自己アテンション解析と収率推定を一般化した。
これらのヘッセン構造が収束力学と大規模モデル性能を規定する経験的スケーリング則の両方にどのように影響するかを実証する。
さらに,損失差を解析して収束軌跡の定量化を行うためのTaylor-Expansion-based frameworkを提案する。
ヘッセン理論をフルトランスフォーマーアーキテクチャに拡張することにより、大規模なディープラーニングにおける最適化の理論的および実証的研究のための新たな基盤を確立する。
関連論文リスト
- Mixture-of-Transformers Learn Faster: A Theoretical Study on Classification Problems [59.94955550958074]
本研究では,各変圧器ブロックが連続的に訓練されたゲーティングネットワークによって制御される専門家として機能する,トラクタブルな理論的枠組みについて検討する。
専門家の専門化は、勾配の衝突を減らし、各サブタスクを強く凸させることを示す。
トレーニングによって予測損失が$O(log(epsilon-1)$のステップでゼロに近づき、単一変圧器の$O(epsilon-1)$のレートよりも大幅に向上することが証明された。
論文 参考訳(メタデータ) (2025-10-30T21:07:36Z) - Diffusion Bridge or Flow Matching? A Unifying Framework and Comparative Analysis [57.614436689939986]
拡散ブリッジとフローマッチングは、任意の分布間の変換において魅力的な経験的性能を示した。
我々は,これらのフレームワークを最適制御のレンズを通して再キャストし,拡散橋のコスト関数が低いことを証明した。
これらの理論的主張を裏付けるために,潜伏変圧器上に構築された拡散橋の新しい強力なアーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-09-29T09:45:22Z) - Provable In-Context Vector Arithmetic via Retrieving Task Concepts [53.685764040547625]
クロスエントロピー損失に対する勾配降下による非線形残差変圧器の訓練は,ベクトル演算による実-リコールICLタスクをいかに行うかを示す。
これらの結果は、静的埋め込み前駆体よりもトランスフォーマーの利点を解明する。
論文 参考訳(メタデータ) (2025-08-13T13:54:44Z) - On the Convergence of Gradient Descent on Learning Transformers with Residual Connections [26.02176724426513]
本研究では, 自己アテンション, フィードフォワードネットワーク, 残差接続を含む構造的に完全な単一層トランスの収束挙動を解析する。
残余接続はこの出力行列の不調和を改善するのに役立ち、これはソフトマックス演算によって課される低ランク構造から生じる問題である。
論文 参考訳(メタデータ) (2025-06-05T17:10:22Z) - Born a Transformer -- Always a Transformer? On the Effect of Pretraining on Architectural Abilities [58.742178800799614]
We study a family of $textitretrieval$ and $textitcopying$ tasks inspired by Liu et al。
我々は、事前訓練されたモデルがクエリトークンの左(アンチインダクション)よりも右(インダクション)へのトークンの検索が優れているような、$textitinduction-versus-anti-induction$ asymmetricを観察する。
力学解析により、この非対称性は、事前学習された変圧器内の誘導の強度と反誘導回路の強度の違いに関係していることが明らかになった。
論文 参考訳(メタデータ) (2025-05-27T21:36:50Z) - A Theoretical Framework for OOD Robustness in Transformers using Gevrey Classes [5.236910203359897]
セマンティック・アウト・オブ・ディストリビューション・シフト下でのトランスフォーマー言語モデルのロバスト性について検討する。
We derived sub-exponential upper bounds on prediction error using Wasserstein-1 distance and Gevrey-class smoothness。
論文 参考訳(メタデータ) (2025-04-17T14:59:29Z) - Beyond Progress Measures: Theoretical Insights into the Mechanism of Grokking [50.465604300990904]
グロキング(Grokking)とは、オーバーフィッティングの拡張後のテスト精度の急激な改善を指す。
本研究では、素数演算のタスクにおいて、Transformerの基盤となるグルーキング機構について検討する。
論文 参考訳(メタデータ) (2025-04-04T04:42:38Z) - Constrained belief updates explain geometric structures in transformer representations [1.1666234644810893]
我々は、最適予測のモデル非依存理論と機械論的解釈可能性を統合し、隠れマルコフモデルのトラクタブルファミリーで訓練されたトランスフォーマーを解析する。
分析では,単一層トランスに着目し,最初のアテンション層がどのように制約付き更新を実装しているかを明らかにする。
これらの表現のアルゴリズム的挙動と基礎となる幾何学の両方が理論的にどのように予測できるかを示す。
論文 参考訳(メタデータ) (2025-02-04T03:03:54Z) - Dynamics of Transient Structure in In-Context Linear Regression Transformers [0.5242869847419834]
中間タスクの多様性を持つコンテキスト内線形回帰タスクでトランスフォーマーを訓練する場合、トレーニング分布のタスクに特化する前にリッジ回帰のように振る舞うことを示す。
一般解から特殊解へのこの遷移は、結合軌道主成分分析によって明らかにされる。
局所学習係数によって定義される変圧器のモデル複雑性を測定することにより、この説明を実証的に検証する。
論文 参考訳(メタデータ) (2025-01-29T16:32:14Z) - Unraveling the Gradient Descent Dynamics of Transformers [37.096572564254515]
グラディエント・Descent (GD) は、特に入力埋め込み次元が大きい場合、大域的最適解を達成するためにトランスフォーマーモデルを訓練することができる。
ソフトマックスとガウスアテンションカーネルを用いて単一トランスフォーマー層の損失状況を分析する。
論文 参考訳(メタデータ) (2024-11-12T04:33:56Z) - Interpreting Affine Recurrence Learning in GPT-style Transformers [54.01174470722201]
インコンテキスト学習により、GPTスタイルのトランスフォーマーは、重みを変更することなく推論中に一般化できる。
本稿では,ICLタスクとしてアフィンの再発を学習し,予測する能力に着目する。
実験的手法と理論的手法の両方を用いてモデルの内部動作を分析する。
論文 参考訳(メタデータ) (2024-10-22T21:30:01Z) - Non-asymptotic Convergence of Training Transformers for Next-token Prediction [48.9399496805422]
トランスフォーマーは、シーケンシャルなデータを扱う優れた能力のために、現代の機械学習において驚くべき成功を収めています。
本稿では, 単層変圧器のトレーニング力学の微細な非漸近解析を行う。
トレーニングされたトランスフォーマーは,データセットシフトによる非トーケン予測能力を示すことを示す。
論文 参考訳(メタデータ) (2024-09-25T20:22:06Z) - Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。
最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文 参考訳(メタデータ) (2023-10-20T12:45:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。