論文の概要: Leveraging Coordinate Momentum in SignSGD and Muon: Memory-Optimized Zero-Order
- arxiv url: http://arxiv.org/abs/2506.04430v2
- Date: Wed, 11 Jun 2025 17:05:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 02:07:43.259887
- Title: Leveraging Coordinate Momentum in SignSGD and Muon: Memory-Optimized Zero-Order
- Title(参考訳): SignSGD と Muon におけるコーディネートモーメントの活用:メモリ最適化ゼロ次数
- Authors: Egor Petrov, Grigoriy Evseev, Aleksey Antonov, Andrey Veprikov, Pavel Plyusnin, Nikolay Bushkov, Stanislav Moiseev, Aleksandr Beznosikov,
- Abstract要約: ダウンストリームタスクに事前訓練されたモデルを適用するには、微調整大型言語モデル(LLM)が不可欠である。
従来の一階述語アルゴリズムは、モデルサイズであまりスケールしない、禁止的なメモリと計算コストを発生させる。
メモリと計算効率の代替としてゼロオーダー(ZO)最適化法を提案する。
- 参考スコア(独自算出の注目度): 38.99428012275441
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fine-tuning Large Language Models (LLMs) is essential for adapting pre-trained models to downstream tasks. Yet traditional first-order optimizers such as Stochastic Gradient Descent (SGD) and Adam incur prohibitive memory and computational costs that scale poorly with model size. In this paper, we investigate zero-order (ZO) optimization methods as a memory- and compute-efficient alternative, particularly in the context of parameter-efficient fine-tuning techniques like LoRA. We propose $\texttt{JAGUAR SignSGD}$, a ZO momentum-based algorithm that extends ZO SignSGD, requiring the same number of parameters as the standard ZO SGD and only $\mathcal{O}(1)$ function evaluations per iteration. To the best of our knowledge, this is the first study to establish rigorous convergence guarantees for SignSGD in the stochastic ZO case. We further propose $\texttt{JAGUAR Muon}$, a novel ZO extension of the Muon optimizer that leverages the matrix structure of model parameters, and we provide its convergence rate under arbitrary stochastic noise. Through extensive experiments on challenging LLM fine-tuning benchmarks, we demonstrate that the proposed algorithms meet or exceed the convergence quality of standard first-order methods, achieving significant memory reduction. Our theoretical and empirical results establish new ZO optimization methods as a practical and theoretically grounded approach for resource-constrained LLM adaptation. Our code is available at https://github.com/brain-mmo-lab/ZO_LLM
- Abstract(参考訳): ダウンストリームタスクに事前訓練されたモデルを適用するには、微調整大型言語モデル(LLM)が不可欠である。
しかし、Stochastic Gradient Descent (SGD) やAdamのような従来の一階最適化器は、モデルサイズであまりスケールしない、禁止的なメモリと計算コストを発生させる。
本稿では、メモリと計算効率の代替手段としてのゼロオーダー最適化手法について、特にLoRAのようなパラメータ効率のよい微調整手法の文脈で検討する。
ZO SignSGD を拡張した ZO 運動量に基づくアルゴリズムである $\texttt{JAGUAR SignSGD}$ を提案する。
我々の知る限りでは、これは確率的ZOの場合においてSignSGDの厳密な収束保証を確立する最初の研究である。
さらに、モデルパラメータの行列構造を利用するMuonオプティマイザの新しいZO拡張である$\texttt{JAGUAR Muon}$を提案し、任意の確率雑音下で収束率を提供する。
LLM微調整ベンチマークの試行を通じて,提案アルゴリズムが標準1次法の収束品質を満たし,メモリの大幅な削減を実現することを実証した。
我々の理論的および実証的な結果は、資源制約付きLLM適応のための実用的で理論的に基礎付けられたアプローチとして、新しいZO最適化手法を確立する。
私たちのコードはhttps://github.com/brain-mmo-lab/ZO_LLMで利用可能です。
関連論文リスト
- Visualising Policy-Reward Interplay to Inform Zeroth-Order Preference Optimisation of Large Language Models [0.36326779753373206]
勾配の代わりに関数評価を用いたゼロ次最適化(ZO)は、メモリ使用量を減らすが、高次元モデルでは緩やかな収束に悩まされる。
LLMの優先度最適化のために設計された新しいZOアルゴリズムZOPrOを紹介する。
本手法は,一階法に匹敵する収束時間を実現しつつ,報酬信号の連続的な向上を実証する。
論文 参考訳(メタデータ) (2025-03-05T12:49:48Z) - Lean and Mean Adaptive Optimization via Subset-Norm and Subspace-Momentum with Convergence Guarantees [5.399838579600896]
本稿では,大規模ニューラルネットワークのトレーニングを高速化しながら,メモリ要求を低減し,効率的な最適化を実現するための2つの補完的補完手法を提案する。
最初のテクニックであるSubset-m Step sizeは、ステップサイズの共有を通じてAdaGrad-NormとAdaGrad(-Norm)を一般化する。
第2の手法であるSubspace-Momentumは、運動量状態のメモリフットプリントを低次元のサブスペースにモーメントすることで削減する。
論文 参考訳(メタデータ) (2024-11-11T16:48:07Z) - Zeroth-Order Fine-Tuning of LLMs in Random Subspaces [66.27334633749734]
言語モデルのサイズが大きくなるにつれて、バックプロパゲーションに対するメモリ要求が増加する。
Zeroth-order (ZOZO) 最適化手法はメモリ効率の代替手段を提供する。
本稿では,SubZeroがファインチューニングを強化し,通常のZOZO手法と比較して高速な結果が得られることを示す。
論文 参考訳(メタデータ) (2024-10-11T17:01:43Z) - Enhancing Zeroth-order Fine-tuning for Language Models with Low-rank Structures [21.18741772731095]
ゼロ階数(ZO)アルゴリズムは、関数値の有限差を用いて勾配を近似することで、有望な代替手段を提供する。
既存のZO法は、LLM微調整で一般的な低ランク勾配構造を捉えるのに苦労し、準最適性能をもたらす。
本稿では,LLMにおけるこの構造を効果的に捕捉する低ランクZOアルゴリズム(LOZO)を提案する。
論文 参考訳(メタデータ) (2024-10-10T08:10:53Z) - Revisiting Zeroth-Order Optimization for Memory-Efficient LLM Fine-Tuning: A Benchmark [166.40879020706151]
本稿では、微調整時のメモリコスト低減のためのソリューションとして、BPフリーゼロオーダー最適化(ZO)への移行を提案する。
従来のZO-SGD法とは異なり、我々の研究はより広い範囲のZO最適化手法に探索を広げる。
本研究は,タスクアライメントの重要性,前方勾配法の役割,アルゴリズムの複雑さと微調整性能のバランスについて,これまで見過ごされてきた最適化原理を明らかにした。
論文 参考訳(メタデータ) (2024-02-18T14:08:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。