論文の概要: Conda: Column-Normalized Adam for Training Large Language Models Faster
- arxiv url: http://arxiv.org/abs/2509.24218v2
- Date: Tue, 30 Sep 2025 02:02:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 12:20:10.408273
- Title: Conda: Column-Normalized Adam for Training Large Language Models Faster
- Title(参考訳): Conda: 大規模言語モデルのトレーニングを高速化するためのカラム非正規化アダム
- Authors: Junjie Wang, Pan Zhou, Yiming Dong, Huan Li, Jia Li, Xun Zhou, Qicheng Lao, Cong Fang, Zhouchen Lin,
- Abstract要約: Column-Normalized Adam (Conda)は、大規模言語モデル(LLM)に対する新しいアプローチである。
Condaはサブスペースに更新を投影し、投影された勾配に基づいてカラムワイズ第2モーメント正規化を適用する。
LLaMAとGPT-2シリーズの実験では、コンダはトレーニング前のAdamW、Muon、その他のベースラインを一貫して上回っている。
- 参考スコア(独自算出の注目度): 70.66067959375748
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have demonstrated impressive generalization and emergent capabilities, yet their pre-training remains computationally expensive and sensitive to optimization dynamics. While Adam-based optimizers offer fast convergence by adapting learning rates coordinate-wise, recent studies reveal that their updates often suffer from poor spectral conditioning and low-rank structures, hindering efficiency. Muon addresses this issue via global spectral normalization but lacks the per-coordinate adaptivity of Adam. In this work, we propose Column-Normalized Adam (Conda), a novel optimizer that bridges the strengths of both approaches. Conda projects updates into an orthogonal subspace and applies column-wise second moment normalization based on the projected gradients, thereby achieving both improved spectral conditioning and maintaining coordinate-wise adaptivity. This design alleviates the spectral pathologies of Adam while preserving its fast convergence behavior. Extensive experiments on the LLaMA and GPT-2 series show that Conda consistently outperforms AdamW, Muon, and other baselines in pre-training. Remarkably, on the LLaMA series, Conda achieves 2-2.5 the convergence speed of AdamW, measured in both training steps and training time. Further ablations demonstrate its robustness under diverse training setups. These results collectively highlight Conda as an effective and broadly applicable optimizer for large-scale LLM training. The code is released on https://github.com/jie040109/Conda
- Abstract(参考訳): 大規模言語モデル(LLM)は、目覚ましい一般化と創発的能力を示しているが、事前学習は計算コストが高く、最適化のダイナミクスに敏感である。
アダムをベースとしたオプティマイザは、学習率を座標的に調整することで、高速な収束を提供するが、最近の研究では、その更新がスペクトル条件の低下と低ランク構造に悩まされ、効率を損なうことがしばしば示されている。
ムーンはこの問題を大域的なスペクトル正規化によって解決するが、アダムの座標ごとの適応性に欠ける。
本研究では,両アプローチの強みを橋渡しする新しい最適化手法であるコロン・ノルマライズド・アダム(コンダ)を提案する。
コンダは直交部分空間に更新を投影し、投影された勾配に基づいてカラムワイズ第2モーメント正規化を適用し、改良されたスペクトル条件付けと座標ワイズ適応性の両方を達成する。
この設計はアダムのスペクトル病理を緩和し、その高速収束挙動を保っている。
LLaMA と GPT-2 シリーズの広範な実験により、コンダは前訓練においてAdamW、Muon、その他のベースラインを一貫して上回っていることが示されている。
注目すべきは、LLaMAシリーズでは、トレーニングステップとトレーニング時間の両方で測定されたAdamWの収束速度が2-2.5に達することである。
さらに、多様なトレーニング設定の下で、その堅牢性を実証する。
これらの結果から,Conda は大規模 LLM トレーニングにおいて,効果的かつ広く適用可能な最適化手法として注目されている。
コードはhttps://github.com/jie040109/Condaでリリースされる
関連論文リスト
- AdamS: Momentum Itself Can Be A Normalizer for LLM Pretraining and Post-training [22.58304858379219]
我々は,大規模言語モデル(LLM)の事前学習とポストトレーニングのための,Adamの簡易かつ効果的な代替手段であるAdamSを紹介した。
新たな分母、すなわち運動量と現在の勾配の重み付き和の根を利用することにより、AdamSは第二モーメント推定の必要性を排除している。
AdamSは効率が良く、SGDのメモリと計算フットプリントと運動量とを一致させ、優れた最適化性能を提供する。
論文 参考訳(メタデータ) (2025-05-22T08:16:48Z) - Muon is Scalable for LLM Training [50.68746986439438]
MoE(Mixture-of-Expert)モデルであるMoonlightを紹介する。
我々のモデルは現在のフロンティアを改善し、以前のモデルに比べてトレーニングのFLOPをはるかに少なくして、より良いパフォーマンスを実現しています。
メモリ最適化と通信効率のよい分散 Muon 実装をオープンソースとして公開しています。
論文 参考訳(メタデータ) (2025-02-24T09:12:29Z) - MARS: Unleashing the Power of Variance Reduction for Training Large Models [56.67982828148859]
深層ニューラルネットワークのための統合トレーニングフレームワークを提案する。
我々は,事前条件付き勾配最適化を利用するMARSの3つの例を紹介する。
その結果,MARSの実装はAdamより一貫して優れていた。
論文 参考訳(メタデータ) (2024-11-15T18:57:39Z) - LDAdam: Adaptive Optimization from Low-Dimensional Gradient Statistics [37.21593513802284]
大規模なモデルをトレーニングするためのメモリ効率のよい勾配であるLDAdamを紹介する。
LDAdamは,言語モデルの精密かつ効率的な微調整と事前学習を可能にする。
論文 参考訳(メタデータ) (2024-10-21T15:31:06Z) - Promoting Exploration in Memory-Augmented Adam using Critical Momenta [33.62231951499847]
我々は、フラットなミニマへの探索を奨励するAdamのメモリ拡張版を提案する。
このバッファは、モデルを狭いミニマを越えてオーバーシュートし、探索を促進する。
我々は、画像NetとCIFAR10/100の画像分類、Penn Treebankの言語モデリング、TinyImageNetと5-datasetのオンライン学習タスクにおいて、モデル性能を向上させることを実証的に実証した。
論文 参考訳(メタデータ) (2023-07-18T20:59:52Z) - MaxVA: Fast Adaptation of Step Sizes by Maximizing Observed Variance of
Gradients [112.00379151834242]
本稿では,Adamにおける2乗勾配のランニング平均を重み付き平均に置き換える適応学習率の原理を提案する。
これにより、より高速な適応が可能となり、より望ましい経験的収束挙動がもたらされる。
論文 参考訳(メタデータ) (2020-06-21T21:47:43Z) - AdamP: Slowing Down the Slowdown for Momentum Optimizers on
Scale-invariant Weights [53.8489656709356]
正規化技術は現代の深層学習の恩恵である。
しかし、運動量を導入することで、スケール不変の重みに対する効果的なステップサイズが急速に小さくなることがしばしば見過ごされる。
本稿では,この2つの材料の組み合わせが,有効ステップサイズと準最適モデル性能の早期劣化につながることを検証した。
論文 参考訳(メタデータ) (2020-06-15T08:35:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。