Fugu-MT 論文翻訳(概要): Closing the Curvature Gap: Full Transformer Hessians and Their Implications for Scaling Laws

論文の概要: Closing the Curvature Gap: Full Transformer Hessians and Their Implications for Scaling Laws

arxiv url: http://arxiv.org/abs/2510.16927v1
Date: Sun, 19 Oct 2025 16:54:00 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-25 00:56:39.212787
Title: Closing the Curvature Gap: Full Transformer Hessians and Their Implications for Scaling Laws
Title（参考訳）: 曲率ギャップの閉包:フル変圧器ヘッセンとそのスケーリング法則への応用
Authors: Egor Petrov, Nikita Kiselev, Vladislav Meshkov, Andrey Grabovoy,
Abstract要約: ヘッセン理論をフルトランスフォーマーアーキテクチャに拡張する。本研究は,大規模深層学習における最適化の理論的および実証的研究の新たな基盤を確立する。
参考スコア（独自算出の注目度）: 0.5774786149181391
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The lack of theoretical results for Layer Normalization and feedforward Hessians has left a gap in the study of Transformer optimization landscapes. We address this by deriving explicit second-order expressions for these components, thereby completing the Hessian characterization of full Transformer blocks. Our results generalize prior self-attention analyses and yield estimations for the role of each sublayer in curvature propagation. We demonstrate how these Hessian structures inform both convergence dynamics and the empirical scaling laws governing large-model performance. Further, we propose a Taylor-expansion-based framework for analyzing loss differences to quantify convergence trajectories. By extending Hessian theory to the full Transformer architecture, this work establishes a new foundation for theoretical and empirical investigations of optimization in large-scale deep learning.
Abstract（参考訳）: 層正規化とフィードフォワードヘッセンに対する理論的結果の欠如は、トランスフォーマー最適化のランドスケープの研究にギャップを残している。これらのコンポーネントに対して明示的な2階式を導出することにより,フルトランスフォーマーブロックのヘッセン的特徴を完備化することで,この問題に対処する。本研究は, 曲率伝播における各サブレイヤの役割について, 先行自己アテンション解析と収率推定を一般化した。これらのヘッセン構造が収束力学と大規模モデル性能を規定する経験的スケーリング則の両方にどのように影響するかを実証する。さらに,損失差を解析して収束軌跡の定量化を行うためのTaylor-Expansion-based frameworkを提案する。ヘッセン理論をフルトランスフォーマーアーキテクチャに拡張することにより、大規模なディープラーニングにおける最適化の理論的および実証的研究のための新たな基盤を確立する。

関連論文リスト

Diffusion Bridge or Flow Matching? A Unifying Framework and Comparative Analysis [57.614436689939986]
拡散ブリッジとフローマッチングは、任意の分布間の変換において魅力的な経験的性能を示した。我々は,これらのフレームワークを最適制御のレンズを通して再キャストし,拡散橋のコスト関数が低いことを証明した。これらの理論的主張を裏付けるために,潜伏変圧器上に構築された拡散橋の新しい強力なアーキテクチャを提案する。
論文参考訳（メタデータ） (2025-09-29T09:45:22Z)
On the Convergence of Gradient Descent on Learning Transformers with Residual Connections [26.02176724426513]
本研究では, 自己アテンション, フィードフォワードネットワーク, 残差接続を含む構造的に完全な単一層トランスの収束挙動を解析する。残余接続はこの出力行列の不調和を改善するのに役立ち、これはソフトマックス演算によって課される低ランク構造から生じる問題である。
論文参考訳（メタデータ） (2025-06-05T17:10:22Z)
A Theoretical Framework for OOD Robustness in Transformers using Gevrey Classes [5.236910203359897]
セマンティック・アウト・オブ・ディストリビューション・シフト下でのトランスフォーマー言語モデルのロバスト性について検討する。 We derived sub-exponential upper bounds on prediction error using Wasserstein-1 distance and Gevrey-class smoothness。
論文参考訳（メタデータ） (2025-04-17T14:59:29Z)
Beyond Progress Measures: Theoretical Insights into the Mechanism of Grokking [50.465604300990904]
グロキング(Grokking)とは、オーバーフィッティングの拡張後のテスト精度の急激な改善を指す。本研究では、素数演算のタスクにおいて、Transformerの基盤となるグルーキング機構について検討する。
論文参考訳（メタデータ） (2025-04-04T04:42:38Z)
Unraveling the Gradient Descent Dynamics of Transformers [37.096572564254515]
グラディエント・Descent (GD) は、特に入力埋め込み次元が大きい場合、大域的最適解を達成するためにトランスフォーマーモデルを訓練することができる。ソフトマックスとガウスアテンションカーネルを用いて単一トランスフォーマー層の損失状況を分析する。
論文参考訳（メタデータ） (2024-11-12T04:33:56Z)
Interpreting Affine Recurrence Learning in GPT-style Transformers [54.01174470722201]
インコンテキスト学習により、GPTスタイルのトランスフォーマーは、重みを変更することなく推論中に一般化できる。本稿では,ICLタスクとしてアフィンの再発を学習し,予測する能力に着目する。実験的手法と理論的手法の両方を用いてモデルの内部動作を分析する。
論文参考訳（メタデータ） (2024-10-22T21:30:01Z)
Non-asymptotic Convergence of Training Transformers for Next-token Prediction [48.9399496805422]
トランスフォーマーは、シーケンシャルなデータを扱う優れた能力のために、現代の機械学習において驚くべき成功を収めています。本稿では, 単層変圧器のトレーニング力学の微細な非漸近解析を行う。トレーニングされたトランスフォーマーは,データセットシフトによる非トーケン予測能力を示すことを示す。
論文参考訳（メタデータ） (2024-09-25T20:22:06Z)
Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文参考訳（メタデータ） (2023-10-20T12:45:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。