論文の概要: The Potential of Second-Order Optimization for LLMs: A Study with Full Gauss-Newton
- arxiv url: http://arxiv.org/abs/2510.09378v1
- Date: Fri, 10 Oct 2025 13:35:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:49.10287
- Title: The Potential of Second-Order Optimization for LLMs: A Study with Full Gauss-Newton
- Title(参考訳): LLMの2次最適化の可能性:フルガウスニュートンによる検討
- Authors: Natalie Abreu, Nikhil Vyas, Sham Kakade, Depen Morwani,
- Abstract要約: Gauss-Newton (GN) プレコンディショニングはプレコンディショニングに非常に効果的であり、高次損失項は収束速度に重要でない可能性がある。
層間情報を無視した正確なGNプリコンディショナーは,全GN法の性能とほぼ一致している。
- 参考スコア(独自算出の注目度): 12.469584848673845
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent efforts to accelerate LLM pretraining have focused on computationally-efficient approximations that exploit second-order structure. This raises a key question for large-scale training: how much performance is forfeited by these approximations? To probe this question, we establish a practical upper bound on iteration complexity by applying full Gauss-Newton (GN) preconditioning to transformer models of up to 150M parameters. Our experiments show that full GN updates yield substantial gains over existing optimizers, achieving a 5.4x reduction in training iterations compared to strong baselines like SOAP and Muon. Furthermore, we find that a precise layerwise GN preconditioner, which ignores cross-layer information, nearly matches the performance of the full GN method. Collectively, our results suggest: (1) the GN approximation is highly effective for preconditioning, implying higher-order loss terms may not be critical for convergence speed; (2) the layerwise Hessian structure contains sufficient information to achieve most of these potential gains; and (3) a significant performance gap exists between current approximate methods and an idealized layerwise oracle.
- Abstract(参考訳): LLM事前学習を加速する最近の取り組みは、二階構造を利用する計算効率の高い近似に焦点を当てている。
これにより、大規模なトレーニングにおいて重要な疑問が持ち上がる。
この問題を解くために,最大1億5000万パラメータのトランスフォーマーモデルに完全ガウスニュートン(GN)プレコンディショニングを適用することで,反復複雑性の現実的な上限を確立する。
我々の実験によると、GNの完全な更新は既存のオプティマイザよりも大幅に向上し、SOAPやMuonのような強力なベースラインと比較して、トレーニングイテレーションの5.4倍の削減を実現しています。
さらに、層間情報を無視した正確なGNプリコンディショナーが、全GN法の性能とほぼ一致していることが判明した。
以上の結果から,(1)GN近似は事前条件付けに極めて有効であり,(2)高次損失項は収束速度に重要でないこと,(2)階層状ヘッセン構造はこれらのポテンシャルのほとんどを達成するのに十分な情報を含んでいること,(3)現在の近似法と理想化された層状オラクルの間には顕著な性能差が存在すること,などが示唆された。
関連論文リスト
- Exact, Tractable Gauss-Newton Optimization in Deep Reversible Architectures Reveal Poor Generalization [52.16435732772263]
多くのアプリケーションにおいて、ディープニューラルネットワークのトレーニングを加速する2階最適化が示されている。
しかし、二階法の一般化特性についてはいまだ議論が続いている。
我々は、Gauss-Newton (GN) の正確な更新が、ディープアーキテクチャのクラスにおいて、牽引可能な形式を取ることを初めて示す。
論文 参考訳(メタデータ) (2024-11-12T17:58:40Z) - Fast Graph Sharpness-Aware Minimization for Enhancing and Accelerating Few-Shot Node Classification [53.727688136434345]
グラフニューラルネットワーク(GNN)はノード分類において優れた性能を示している。
高速グラフシャープネス認識最小化(FGSAM)を提案する。
提案アルゴリズムは,FSNCタスクにおいて,計算コストの低い標準SAMよりも優れる。
論文 参考訳(メタデータ) (2024-10-22T09:33:29Z) - Rethinking Gauss-Newton for learning over-parameterized models [14.780386419851956]
まず, 条件改善によるGDよりも高速な収束率を示す連続時間限界において, GNのグローバル収束結果を確立する。
次に,GNの手法の暗黙的偏見を調べるために,合成回帰タスクに関する実証的研究を行った。
論文 参考訳(メタデータ) (2023-02-06T16:18:48Z) - Versatile Single-Loop Method for Gradient Estimator: First and Second
Order Optimality, and its Application to Federated Learning [45.78238792836363]
本稿では,SLEDGE (Single-Loop-E Gradient Estimator) という単一ループアルゴリズムを提案する。
既存の手法とは異なり、SLEDGEは、(ii)2階最適、(ii)PL領域における、(iii)少ないデータ以下の複雑さの利点を持つ。
論文 参考訳(メタデータ) (2022-09-01T11:05:26Z) - Fast Objective & Duality Gap Convergence for Non-Convex Strongly-Concave
Min-Max Problems with PL Condition [52.08417569774822]
本稿では,深層学習(深層AUC)により注目度が高まっている,円滑な非凹部min-max問題の解法に焦点をあてる。
論文 参考訳(メタデータ) (2020-06-12T00:32:21Z) - On the Promise of the Stochastic Generalized Gauss-Newton Method for
Training DNNs [37.96456928567548]
一般化されたガウスニュートン法(SGN)を用いてDNNの訓練を行う。
SGNは2次最適化法であり、効率の良い反復法であり、標準のSGDよりもはるかに少ない繰り返しを必要とすることがよく示される。
我々は,SGNが反復回数の点でSGDよりも大幅に改善されているだけでなく,実行時の点でも改善されていることを示す。
これは、私たちがTheanoディープラーニングプラットフォームで提案するSGNの効率的で使いやすく柔軟な実装によって実現されている。
論文 参考訳(メタデータ) (2020-06-03T17:35:54Z) - Learning to Optimize Non-Rigid Tracking [54.94145312763044]
我々は、堅牢性を改善し、解法収束を高速化するために学習可能な最適化を採用する。
まず、CNNを通じてエンドツーエンドに学習された深い特徴にアライメントデータ項を統合することにより、追跡対象をアップグレードする。
次に,プレコンディショニング手法と学習手法のギャップを,プレコンディショナを生成するためにトレーニングされたConditionNetを導入することで埋める。
論文 参考訳(メタデータ) (2020-03-27T04:40:57Z) - Large Batch Training Does Not Need Warmup [111.07680619360528]
大きなバッチサイズを使用してディープニューラルネットワークをトレーニングすることは、有望な結果を示し、多くの現実世界のアプリケーションに利益をもたらしている。
本稿では,大規模バッチ学習のための全層適応レートスケーリング(CLARS)アルゴリズムを提案する。
分析に基づいて,このギャップを埋め,3つの一般的な大規模バッチトレーニング手法の理論的洞察を提示する。
論文 参考訳(メタデータ) (2020-02-04T23:03:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。