Fugu-MT 論文翻訳(概要): Accelerating LLM Pre-Training through Flat-Direction Dynamics Enhancement

論文の概要: Accelerating LLM Pre-Training through Flat-Direction Dynamics Enhancement

arxiv url: http://arxiv.org/abs/2602.22681v1
Date: Thu, 26 Feb 2026 06:54:57 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-27 18:41:22.564424
Title: Accelerating LLM Pre-Training through Flat-Direction Dynamics Enhancement
Title（参考訳）: フラット方向ダイナミクスの強化によるLDM前処理の高速化
Authors: Shuchen Zhu, Rizhen Hu, Mingze Wang, Mou Sun, Xue Wang, Kun Yuan, Zaiwen Wen,
Abstract要約: 事前訓練された大規模言語モデルは膨大な計算資源を必要とするため、効率性は不可欠である。本研究では,より大きいヘッセン減衰係数と平坦な軌道に沿った学習率を適用することで,トレーニングダイナミクスを向上する一般加速戦略LITEを提案する。
参考スコア（独自算出の注目度）: 20.47449050578067
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Pre-training Large Language Models requires immense computational resources, making optimizer efficiency essential. The optimization landscape is highly anisotropic, with loss reduction driven predominantly by progress along flat directions. While matrix-based optimizers such as Muon and SOAP leverage fine-grained curvature information to outperform AdamW, their updates tend toward isotropy -- relatively conservative along flat directions yet potentially aggressive along sharp ones. To address this limitation, we first establish a unified Riemannian Ordinary Differential Equation (ODE) framework that elucidates how common adaptive algorithms operate synergistically: the preconditioner induces a Riemannian geometry that mitigates ill-conditioning, while momentum serves as a Riemannian damping term that promotes convergence. Guided by these insights, we propose LITE, a generalized acceleration strategy that enhances training dynamics by applying larger Hessian damping coefficients and learning rates along flat trajectories. Extensive experiments demonstrate that LITE significantly accelerates both Muon and SOAP across diverse architectures (Dense, MoE), parameter scales (130M--1.3B), datasets (C4, Pile), and learning-rate schedules (cosine, warmup-stable-decay). Theoretical analysis confirms that LITE facilitates faster convergence along flat directions in anisotropic landscapes, providing a principled approach to efficient LLM pre-training. The code is available at https://github.com/SHUCHENZHU/LITE.
Abstract（参考訳）: 事前訓練された大規模言語モデルは膨大な計算資源を必要とするため、最適化効率が不可欠である。最適化ランドスケープは極めて異方性があり、損失の減少は主に平坦な方向に沿って進行によって引き起こされる。 MuonやSOAPのようなマトリックスベースのオプティマイザは、きめ細かい曲率情報を利用してAdamWを上回ります。この制限に対処するために、まず統一リーマン正規微分方程式 (ODE) フレームワークを構築し、共通適応アルゴリズムが相乗的にどのように機能するかを解明する: プレコンディショナーは不動条件を緩和するリーマン幾何学を誘導し、モーメントは収束を促進するリーマン減衰項として機能する。これらの知見に導かれたLITEは、より大きいヘッセン減衰係数と平らな軌道に沿った学習率を適用することにより、トレーニングダイナミクスを強化する一般化された加速戦略である。大規模な実験により、LITEはさまざまなアーキテクチャ(Dense, MoE)、パラメータスケール(130M--1.3B)、データセット(C4, Pile)、学習速度スケジュール(cosine, warmup-stable-decay)において、MuonとSOAPの両方を著しく加速することが示された。理論的解析により、LITEは異方性景観における平坦な方向に沿った高速な収束を促進することが確認され、効率的なLLM事前学習のための原則化されたアプローチを提供する。コードはhttps://github.com/SHUCHENZHU/LITEで公開されている。

関連論文リスト

Merging Beyond: Streaming LLM Updates via Activation-Guided Rotations [55.047454145941366]
Streaming Mergingは、反復最適化プロセスとしてマージを概念化する革新的なモデル更新パラダイムである。 ARMは勾配勾配勾配のダイナミクスを近似するために設計された戦略である。 ARMは初期のSFTチェックポイントしか必要とせず、反復的なマージによって完全に収束したSFTモデルを上回る。
論文参考訳（メタデータ） (2026-02-03T08:15:57Z)
Mano: Restriking Manifold Optimization for LLM Training [11.778746551502593]
大規模言語モデル(LLM)は人工知能の重要な進歩として現れている。 Manoは、多様体最適化とモダン性の間のパフォーマンスギャップを橋渡しした最初の人です。
論文参考訳（メタデータ） (2026-01-30T14:07:03Z)
Consolidation or Adaptation? PRISM: Disentangling SFT and RL Data via Gradient Concentration [56.074760766965085]
PRISMは、モデルの既存の知識との認知的対立度に基づいてデータを調停する動的認識フレームワークを実現する。この結果から,内部最適化方式に基づくデータ分離が,スケーラブルでロバストなエージェントアライメントに不可欠であることが示唆された。
論文参考訳（メタデータ） (2026-01-12T05:43:20Z)
How to Set the Learning Rate for Large-Scale Pre-training? [73.03133634525635]
我々はこの調査を2つの異なる研究パラダイムであるフィッティングとトランスファーに定式化する。フィッティングパラダイムでは,探索係数のスケーリング法則を導入し,O(n3) から O(n*C_D*C_) への探索複雑性を予測モデルにより効果的に低減する。我々は、$Transferの原則をMixture of Experts (MoE)アーキテクチャに拡張し、モデル深さ、重量減衰、トークン水平線を含む適用範囲を広げる。
論文参考訳（メタデータ） (2026-01-08T15:55:13Z)
Prior-Informed Zeroth-Order Optimization with Adaptive Direction Alignment for Memory-Efficient LLM Fine-Tuning [4.278794376089146]
本稿では,事前インフォームド摂動を組み込んだプラグアンドプレイ手法を提案する。本手法は標準ZO法と比較して収束を著しく加速する。勾配推定器が真の勾配方向とより強く一致することを証明する。
論文参考訳（メタデータ） (2026-01-08T08:27:15Z)
Beyond the Ideal: Analyzing the Inexact Muon Update [54.70108543057578]
本報告では,Muonコアにおける不正確な更新の初回解析について述べる。この不正確さと最適なステップサイズと運動量との基本的な結合を明らかにする。
論文参考訳（メタデータ） (2025-10-22T18:01:07Z)
ESSA: Evolutionary Strategies for Scalable Alignment [8.418036456622158]
我々は,前向き推論とブラックボックス最適化のみを用いて,Large Language Models (LLM) を整列する勾配のないフレームワークであるESSAを提案する。 ESSAはQwen2.5-Math-7Bのテスト精度をGSM8Kで12.6%、PRM800Kで14.8%改善し、IFEvalでLLaMA3.1-8Bの精度を22.5%向上させた。大規模な設定では、ESSAは勾配ベースの方法よりもスケーリングが強い。
論文参考訳（メタデータ） (2025-07-06T16:23:07Z)
SUMO: Subspace-Aware Moment-Orthogonalization for Accelerating Memory-Efficient LLM Training [25.244065166421517]
低ランク勾配に基づく最適化手法は、大規模言語モデル(LLM)の訓練において、メモリ効率を大幅に改善した。これらの手法は主にメモリの節約を強調し、しばしば収束の潜在的な加速を見落としている。本稿では,SUMO(Subspace-Aware Moment-Orthogonalization)を提案する。我々は,SUMOがコンバージェンスを加速し,安定性を向上し,性能を向上し,最先端手法と比較してメモリ要求を最大20%削減することを示した。
論文参考訳（メタデータ） (2025-05-30T16:08:40Z)
LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文参考訳（メタデータ） (2025-02-19T14:58:48Z)
Understanding Optimization in Deep Learning with Central Flows [95.5647720254338]
複雑な状態における最適化のダイナミクスを記述できる理論を開発する。この結果から,ディープラーニングの最適化を推論する上で,中央フローが重要な理論ツールとなる可能性が示唆された。
論文参考訳（メタデータ） (2024-10-31T17:58:13Z)
Memory-Efficient Optimization with Factorized Hamiltonian Descent [11.01832755213396]
本稿では,この課題に対処するためのメモリ効率因子化手法を取り入れた新しい適応型H-Facを提案する。運動量とスケーリングパラメータ推定器の両方にランク1パラメータ化を適用することで、H-Facはメモリコストをサブ線形レベルに削減する。我々はハミルトン力学から導かれる原理に基づいてアルゴリズムを開発し、最適化力学と収束保証において堅牢な理論的基盤を提供する。
論文参考訳（メタデータ） (2024-06-14T12:05:17Z)
Revisiting Zeroth-Order Optimization for Memory-Efficient LLM Fine-Tuning: A Benchmark [166.40879020706151]
本稿では、微調整時のメモリコスト低減のためのソリューションとして、BPフリーゼロオーダー最適化(ZO)への移行を提案する。従来のZO-SGD法とは異なり、我々の研究はより広い範囲のZO最適化手法に探索を広げる。本研究は,タスクアライメントの重要性,前方勾配法の役割,アルゴリズムの複雑さと微調整性能のバランスについて,これまで見過ごされてきた最適化原理を明らかにした。
論文参考訳（メタデータ） (2024-02-18T14:08:48Z)
Flatter, faster: scaling momentum for optimal speedup of SGD [0.0]
ニューラルネットワークのトレーニングにおいて、勾配降下(SGD)とラベルノイズと運動量との相互作用から生じるトレーニングダイナミクスについて検討した。運動量ハイパーパラメータ1-NISTbeta$を学習率で2/3$にスケーリングすると、一般化を犠牲にすることなく、最大で2/3$のトレーニングが加速することがわかった。
論文参考訳（メタデータ） (2022-10-28T20:41:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。