論文の概要: Powering Up Zeroth-Order Training via Subspace Gradient Orthogonalization
- arxiv url: http://arxiv.org/abs/2602.17155v1
- Date: Thu, 19 Feb 2026 08:08:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:28.807616
- Title: Powering Up Zeroth-Order Training via Subspace Gradient Orthogonalization
- Title(参考訳): 部分空間勾配直交化によるゼロ階学習のパワーアップ
- Authors: Yicheng Lang, Changsheng Wang, Yihua Zhang, Mingyi Hong, Zheng Zhang, Wotao Yin, Sijia Liu,
- Abstract要約: 2つの相補的原理を統一することにより、ZO最適化を大幅に改善できることを示す。
我々は、ZO設定において、自然解釈を低ランクのミューオンとして認める新しい方法、ZO-ムオンをインスタンス化する。
- 参考スコア(独自算出の注目度): 40.95701844244596
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Zeroth-order (ZO) optimization provides a gradient-free alternative to first-order (FO) methods by estimating gradients via finite differences of function evaluations, and has recently emerged as a memory-efficient paradigm for fine-tuning large-scale models by avoiding backpropagation. However, ZO optimization has a fundamental tension between accuracy and query efficiency. In this work, we show that ZO optimization can be substantially improved by unifying two complementary principles: (i) a projection-based subspace view that reduces gradient estimation variance by exploiting the intrinsic low-rank structure of model updates, and (ii) Muon-style spectral optimization that applies gradient orthogonalization to extract informative spectral structure from noisy ZO gradients. These findings form a unified framework of subspace gradient orthogonalization, which we instantiate in a new method, ZO-Muon, admitting a natural interpretation as a low-rank Muon optimizer in the ZO setting. Extensive experiments on large language models (LLMs) and vision transformers (ViTs) demonstrate that ZO-Muon significantly accelerates convergence and achieves a win-win improvement in accuracy and query/runtime efficiency. Notably, compared to the popular MeZO baseline, ZO-Muon requires only 24.7% of the queries to reach the same SST-2 performance for LLM fine-tuning, and improves accuracy by 25.1% on ViT-B fine-tuning on CIFAR-100.
- Abstract(参考訳): Zeroth-order (ZO) 最適化は,関数評価の有限差による勾配推定による一階法(FO)法に対する勾配のない代替手段を提供する。
しかし、ZO最適化は精度とクエリ効率の間に根本的な緊張関係がある。
本研究では,2つの相補的原理を統一することにより,ZO最適化を大幅に改善できることを示す。
一 モデル更新の内在的低ランク構造を利用して勾配推定分散を低減するプロジェクションに基づく部分空間ビュー
(II)雑音ZO勾配から情報スペクトル構造を抽出するために勾配直交化を適用するミューオン型スペクトル最適化。
これらの発見は、ZO-Muonという新しい手法でインスタンス化する部分空間勾配直交化の統一的な枠組みを形成し、ZO設定において低ランクのMuonオプティマイザとして自然な解釈を認める。
大規模言語モデル (LLMs) と視覚変換器 (ViTs) に関する大規模な実験により、ZO-Muon は収束を著しく加速し、精度とクエリ/実行効率のウィンウィンアップを実現している。
特に、一般的なMeZOベースラインと比較して、ZO-Muonは、LLMの微調整で同じSST-2パフォーマンスに達するクエリの24.7%しか必要とせず、CIFAR-100上でのViT-B微調整で精度を25.1%向上させる。
関連論文リスト
- Prior-Informed Zeroth-Order Optimization with Adaptive Direction Alignment for Memory-Efficient LLM Fine-Tuning [4.278794376089146]
本稿では,事前インフォームド摂動を組み込んだプラグアンドプレイ手法を提案する。
本手法は標準ZO法と比較して収束を著しく加速する。
勾配推定器が真の勾配方向とより強く一致することを証明する。
論文 参考訳(メタデータ) (2026-01-08T08:27:15Z) - Low-Rank Curvature for Zeroth-Order Optimization in LLM Fine-Tuning [8.349781300731225]
LOREN (curvature-aware zeroth-order (ZO) optimization method for fine-tuning large language model (LLMs)) を紹介する。
乱摂動を用いた有限差分による勾配推定を行う既存のZO法は、しばしば高いばらつきと準最適探索方向に悩まされる。
i) 勾配推定のための異方性摂動分布を適応的に推定し, (ii) 低ランクブロック対角前処理器で曲率を計測し, (iii) ばらつきを抑えるためにREINFORCEスタンス・ワン・アウト(RLOO) 勾配推定器を適用することにより, これらの課題に対処する。
論文 参考訳(メタデータ) (2025-11-11T08:34:09Z) - Towards Fast LLM Fine-tuning through Zeroth-Order Optimization with Projected Gradient-Aligned Perturbations [23.409093103129706]
ゼロ階数最適化(ZO)を用いた細調整大型言語モデル(LLM)が,従来の勾配法に代わる有望な代替手段として登場した。
既存のZO法は勾配推定のばらつきに悩まされ、大規模なモデルでは収束が遅く、最適以下の性能が低下する。
本稿では,P-GAPを提案する。
論文 参考訳(メタデータ) (2025-10-21T02:19:11Z) - KerZOO: Kernel Function Informed Zeroth-Order Optimization for Accurate and Accelerated LLM Fine-Tuning [15.81250204481401]
本稿では,勾配推定バイアスの軽減を目的としたカーネル関数ベースのZOフレームワークを提案する。
KerZOOは既存のZOベースラインと同等または優れたパフォーマンスを実現している。
本稿では,カーネル関数がZO法における推定バイアスの低減に有効な方法であることを示す。
論文 参考訳(メタデータ) (2025-05-24T21:56:03Z) - Gradient Normalization Provably Benefits Nonconvex SGD under Heavy-Tailed Noise [60.92029979853314]
重み付き雑音下でのグラディエントDescence(SGD)の収束を確実にする上での勾配正規化とクリッピングの役割について検討する。
我々の研究は、重尾雑音下でのSGDの勾配正規化の利点を示す最初の理論的証拠を提供する。
我々は、勾配正規化とクリッピングを取り入れた加速SGD変種を導入し、さらに重み付き雑音下での収束率を高めた。
論文 参考訳(メタデータ) (2024-10-21T22:40:42Z) - Zeroth-Order Fine-Tuning of LLMs in Random Subspaces [63.10833446782114]
言語モデルのサイズが大きくなるにつれて、バックプロパゲーションに対するメモリ要求が増加する。
Zeroth-order (ZO) 最適化手法はメモリ効率の良い代替手段を提供する。
本稿では,高次元摂動によって生じる課題に対処するために,部分空間ゼロ次最適化を提案する。
論文 参考訳(メタデータ) (2024-10-11T17:01:43Z) - Zeroth-Order Hybrid Gradient Descent: Towards A Principled Black-Box
Optimization Framework [100.36569795440889]
この作業は、一階情報を必要としない零次最適化(ZO)の反復である。
座標重要度サンプリングにおける優雅な設計により,ZO最適化法は複雑度と関数クエリコストの両面において効率的であることを示す。
論文 参考訳(メタデータ) (2020-12-21T17:29:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。