論文の概要: Accelerating Zeroth-Order Spectral Optimization with Partial Orthogonalization from Power Iteration
- arxiv url: http://arxiv.org/abs/2605.09034v2
- Date: Fri, 15 May 2026 13:21:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 03:45:13.091071
- Title: Accelerating Zeroth-Order Spectral Optimization with Partial Orthogonalization from Power Iteration
- Title(参考訳): パワーイテレーションによる部分直交化によるゼロ階スペクトル最適化の高速化
- Authors: Jiahe Chen, Ziye Ma,
- Abstract要約: 我々は,MuonのようなスペクトルがAdamWより優れている隠蔽層トレーニング問題に焦点を当てた。
そのため、Muonの象徴的なNewton-Schulz手順を、より高速でより集中的なパワーイテレーション手法で置き換える。
本手法はZO-Muonの収束速度を1.5倍から4倍にすることができる。
- 参考スコア(独自算出の注目度): 6.574641780732972
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Zeroth-order (ZO) optimization has become increasingly popular and important in fine-tuning large language models (LLMs), especially on edge devices due to its ability to adjust the model to local data without the need for memory-intensive back-propagation. Recent works try to reduce ZO variance through low-dimensional subspace search, but subspace restriction alone leaves key optimization geometry under-exploited, motivating additional acceleration. In this work, we focus on the hidden layer training problem in which spectral optimizers like Muon outperform AdamW due to its ability to exploit weak spectral directions by orthogonalization. However, we have discovered that unlike in the first-order setting, full orthogonalization works poorly in the ZO setting since the gradient estimates are highly noisy and unreliable. To address this issue, we propose applying partial spectral orthogonalization to accelerate ZO optimization. To do so, we replace the iconic Newton-Schulz procedure in Muon with the faster, more concentrated power-iteration method so that it only amplifies dominant spectral directions. Furthermore, to improve the efficiency and generalization of the algorithm, we adopted a streaming variant of power-iteration that requires low variance in gradients, which was achieved through constraining our search inside a subspace obtained through the projection of momentum, echoing recent advances. Experiments on LLM fine-tuning show that our method can achieve from 1.5x to 4x the convergence speed of ZO-Muon, the current SOTA algorithm, across SuperGlue datasets in the OPT-13B model. Across different models, we also reach competitive final accuracies with less time in most cases compared with strong ZO baselines such as MeZO, LOZO and ZO-Muon. Code is available at https://github.com/MOFA-LAB/ZO-MOPI.git.
- Abstract(参考訳): ゼロオーダー(ZO)最適化は、特にメモリ集約的なバックプロパゲーションを必要とせずに、モデルをローカルデータに調整できるエッジデバイスにおいて、微調整された大規模言語モデル(LLM)において、ますます普及し、重要になっている。
近年の研究では、低次元部分空間探索によるZO分散の低減が試みられているが、部分空間制限だけでは、鍵最適化の幾何が未発見であり、さらなる加速を動機付けている。
本研究では,Muonのようなスペクトルオプティマイザが直交化によって弱いスペクトル方向を利用する能力によりAdamWより優れる隠蔽層トレーニング問題に焦点をあてる。
しかし、一階設定とは異なり、勾配推定は非常にノイズが多く信頼できないため、全直交化はZO設定ではうまく機能しないことがわかった。
この問題に対処するために、ZO最適化を高速化するために部分スペクトル直交化を適用することを提案する。
そのため、ムオンの象徴的なニュートン・シュルツ法をより高速でより集中的なパワーイテレーション法に置き換え、支配的なスペクトル方向のみを増幅する。
さらに,アルゴリズムの効率性と一般化を改善するため,近年の進歩を反映して,モーメントの投影によって得られる部分空間内での探索を制限し,勾配のばらつきを小さくする必要のある,ストリーミング型のパワーイテレーションを採用した。
LLMファインチューニング実験により,現在のSOTAアルゴリズムであるZO-Muonの収束速度を,OPT-13BモデルにおけるSuperGlueデータセットの1.5倍から4倍に向上できることが示された。
また,MZO,LOZO,ZO-Muonなどの強力なZOベースラインと比較して,ほとんどの場合,競合する最終精度が低い。
コードはhttps://github.com/MOFA-LAB/ZO-MOPI.gitで入手できる。
関連論文リスト
- Universally Empowering Zeroth-Order Optimization via Adaptive Layer-wise Sampling [43.822941944402544]
ゼロ階最適化は、微調整された大規模言語モデルのための有望なメモリ効率のパラダイムを提供する。
しかし,壁面収差の緩やかな収束と高い推定分散により,その実用化は厳しく制約されている。
本稿では,適応層型ZO最適化フレームワークであるAdaLeZOを提案する。
論文 参考訳(メタデータ) (2026-04-20T13:37:31Z) - Powering Up Zeroth-Order Training via Subspace Gradient Orthogonalization [40.95701844244596]
2つの相補的原理を統一することにより、ZO最適化を大幅に改善できることを示す。
我々は、ZO設定において、自然解釈を低ランクのミューオンとして認める新しい方法、ZO-ムオンをインスタンス化する。
論文 参考訳(メタデータ) (2026-02-19T08:08:33Z) - MuonBP: Faster Muon via Block-Periodic Orthogonalization [24.232069944820513]
ベースラインからMuonBPへの学習率の調整方法を示し、このアルゴリズムの保証を与える。
8方向テンソルテンソルとZeROによる8Bモデルのトレーニングでは、ムオンBPは8%のムオンを達成でき、性能は劣化しない。
論文 参考訳(メタデータ) (2025-10-19T19:56:05Z) - Second-order Optimization of Gaussian Splats with Importance Sampling [51.95046424364725]
3D Gaussian Splatting (3DGS) は、高品質で高速な推論時間のため、新しいビューレンダリングに広く用いられている。
本稿では,Levenberg-Marquardt (LM) と Conjugate Gradient (CG) に基づく新しい2階最適化手法を提案する。
提案手法は標準LMよりも3倍の高速化を実現し,ガウス数が少ない場合のAdamを6倍の6倍の速さで上回る。
論文 参考訳(メタデータ) (2025-04-17T12:52:08Z) - Harmony in Divergence: Towards Fast, Accurate, and Memory-efficient Zeroth-order LLM Fine-tuning [44.907586955452295]
大規模言語モデル(LLM)は様々なタスクにまたがるが、標準的な一階述語(FO)の微調整にはかなりのメモリを必要とする。
近年、ゼロオーダー(ZO)最適化はメモリ効率のよいトレーニングパラダイムとして注目されている。
本稿では,FOおよびZO最適化の異なる更新パターンを明らかにするレイヤワイズ分散分析を提案する。
以上の結果から,DiZOはスループットを犠牲にすることなく,コンバージェンスに必要なイテレーションを大幅に削減できることが示された。
論文 参考訳(メタデータ) (2025-02-05T16:03:17Z) - TeZO: Empowering the Low-Rankness on the Temporal Dimension in the Zeroth-Order Optimization for Fine-tuning LLMs [58.19080159470868]
モデルと時間次元の両方にわたって低ランク度をキャプチャする新しい低ランクZO推定器TeZOを提案する。
具体的には、時間次元に沿ったZO摂動を3次元テンソルとして表現し、Canonical Polyadic Decomposition (CPD)を用いて各低ランク2次元行列を抽出する。
論文 参考訳(メタデータ) (2025-01-31T11:34:03Z) - Zeroth-Order Fine-Tuning of LLMs in Random Subspaces [63.10833446782114]
言語モデルのサイズが大きくなるにつれて、バックプロパゲーションに対するメモリ要求が増加する。
Zeroth-order (ZO) 最適化手法はメモリ効率の良い代替手段を提供する。
本稿では,高次元摂動によって生じる課題に対処するために,部分空間ゼロ次最適化を提案する。
論文 参考訳(メタデータ) (2024-10-11T17:01:43Z) - ELRA: Exponential learning rate adaption gradient descent optimization
method [83.88591755871734]
我々は, 高速(指数率), ab initio(超自由)勾配に基づく適応法を提案する。
本手法の主な考え方は,状況認識による$alphaの適応である。
これは任意の次元 n の問題に適用でき、線型にしかスケールできない。
論文 参考訳(メタデータ) (2023-09-12T14:36:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。