論文の概要: Gluon: Making Muon & Scion Great Again! (Bridging Theory and Practice of LMO-based Optimizers for LLMs)
- arxiv url: http://arxiv.org/abs/2505.13416v1
- Date: Mon, 19 May 2025 17:50:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.787978
- Title: Gluon: Making Muon & Scion Great Again! (Bridging Theory and Practice of LMO-based Optimizers for LLMs)
- Title(参考訳): Gluon: Muon & Scion Great Again! (LMOによるLLM最適化のブリッジ理論と実践)
- Authors: Artem Riabinin, Egor Shulgin, Kaja Gruntkowska, Peter Richtárik,
- Abstract要約: ディープラーニング最適化の最近の進歩は、根本的に新しいアルゴリズムをもたらした。
これらのアルゴリズムはLinear Minimization Oracle (LMO)フレームワークに基づいている。
本稿では,従来の理論解析手法を特別なケースとして捉えた新しいLMO法である$sf Gluon$を提案する。
- 参考スコア(独自算出の注目度): 45.81187493164445
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent developments in deep learning optimization have brought about radically new algorithms based on the Linear Minimization Oracle (LMO) framework, such as $\sf Muon$ and $\sf Scion$. After over a decade of $\sf Adam$'s dominance, these LMO-based methods are emerging as viable replacements, offering several practical advantages such as improved memory efficiency, better hyperparameter transferability, and most importantly, superior empirical performance on large-scale tasks, including LLM training. However, a significant gap remains between their practical use and our current theoretical understanding: prior analyses (1) overlook the layer-wise LMO application of these optimizers in practice, and (2) rely on an unrealistic smoothness assumption, leading to impractically small stepsizes. To address both, we propose a new LMO-based method called $\sf Gluon$, capturing prior theoretically analyzed methods as special cases, and introduce a new refined generalized smoothness model that captures the layer-wise geometry of neural networks, matches the layer-wise practical implementation of $\sf Muon$ and $\sf Scion$, and leads to convergence guarantees with strong practical predictive power. Unlike prior results, our theoretical stepsizes closely match the fine-tuned values reported by Pethick et al. (2025). Our experiments with NanoGPT and CNN confirm that our assumption holds along the optimization trajectory, ultimately closing the gap between theory and practice.
- Abstract(参考訳): ディープラーニング最適化の最近の進歩は、Linear Minimization Oracle (LMO)フレームワークに基づいた、根本的に新しいアルゴリズムをもたらしている。
10年以上にわたる$\sf Adam$の支配の後、これらのLMOベースのメソッドは、メモリ効率の向上、ハイパーパラメータ転送性の向上、そして最も重要なのは、LLMトレーニングを含む大規模タスクにおける優れた経験的パフォーマンスなど、現実的な代替手段として現れている。
しかし、その実用性と現在の理論的理解との間には大きなギャップが残っており、(1)先行分析は、これらの最適化手法のレイヤーワイドなLMO適用を概観し、(2)非現実的な滑らかさの仮定を頼りにして、急激なステップサイズに繋がる。
そこで我々は,従来の理論解析手法を特別なケースとして捉え,ニューラルネットワークの階層的幾何を捉え,$\sf Muon$と$\sf Scion$の階層的実践的実装と一致させ,強力な実用的な予測力を持つ収束保証を実現する,LMOベースの新しい手法である$\sf Gluon$を提案する。
従来の結果と異なり、我々の理論はPethick et al (2025)によって報告された微調整値と密接に一致している。
NanoGPTとCNNによる実験により、我々の仮定が最適化軌道に沿って成り立つことが確認され、最終的に理論と実践のギャップを埋める。
関連論文リスト
- Improving LLM General Preference Alignment via Optimistic Online Mirror Descent [57.622821649679786]
人間からのフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)と人間の嗜好の整合において顕著な効果を示した。
本稿では,Bradley-Terry (BT) モデル仮定を廃止し,汎用ゲームとして定式化された LLM のアライメントについて検討する。
提案手法は双対性ギャップ上の$O(T-1)$バウンドを達成し、以前の$O(T-1/2)$の結果を改善することを示す。
論文 参考訳(メタデータ) (2025-02-24T05:24:52Z) - Determining Layer-wise Sparsity for Large Language Models Through a Theoretical Perspective [55.90119819642064]
本稿では,大規模言語モデル (LLM) の階層的疎度率を理論的観点から決定する上での課題に対処する。
これは、スペーサー化プロセス全体での再構成エラーの累積効果を指す。
この問題を緩和するレイヤワイド・スパシティ・アロケーションに対する、シンプルで効果的なアプローチを導出します。
論文 参考訳(メタデータ) (2025-02-20T17:51:10Z) - LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。
モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。
深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文 参考訳(メタデータ) (2025-02-19T14:58:48Z) - $f$-PO: Generalizing Preference Optimization with $f$-divergence Minimization [54.94545757220999]
$f$-POは、既存のアプローチを一般化し拡張する新しいフレームワークである。
ベンチマークデータセットを用いて最先端言語モデルの実験を行う。
論文 参考訳(メタデータ) (2024-10-29T02:11:45Z) - Value Augmented Sampling for Language Model Alignment and Personalization [39.070662999014836]
報酬最適化のための新しいフレームワーク、価値拡張サンプリング(VAS)を提案する。
VASは、ポリシーと値関数を併用することなく、最適報酬最大化ポリシーを解く。
我々のアルゴリズムは、いくつかの報酬を作曲し、展開期間中に各報酬の幅を制御できる新しい能力を解き放ちます。
論文 参考訳(メタデータ) (2024-05-10T17:59:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。