論文の概要: AGZO: Activation-Guided Zeroth-Order Optimization for LLM Fine-Tuning
- arxiv url: http://arxiv.org/abs/2601.17261v1
- Date: Sat, 24 Jan 2026 02:28:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:07.44232
- Title: AGZO: Activation-Guided Zeroth-Order Optimization for LLM Fine-Tuning
- Title(参考訳): AGZO: LLMファインチューニングのためのアクティベーション誘導ゼロ階最適化
- Authors: Wei Lin, Yining Jiang, Qingyu Song, Qiao Xiang, Hong Xu,
- Abstract要約: アクティベーション誘導ゼロ階最適化(AGZO)を提案する。
従来の方法とは異なり、AGZOは前方通過中にフライ上のコンパクトな活性化インフォームド部分空間を抽出し、この低ランク部分空間に摂動を制限する。
AGZOは、最先端のZOベースラインを一貫して上回り、一階ファインチューニングによるパフォーマンスギャップを著しく狭めている。
- 参考スコア(独自算出の注目度): 8.698253005940503
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Zeroth-Order (ZO) optimization has emerged as a promising solution for fine-tuning LLMs under strict memory constraints, as it avoids the prohibitive memory cost of storing activations for backpropagation. However, existing ZO methods typically employ isotropic perturbations, neglecting the rich structural information available during the forward pass. In this paper, we identify a crucial link between gradient formation and activation structure: the gradient of a linear layer is confined to the subspace spanned by its input activations. Leveraging this insight, we propose Activation-Guided Zeroth-Order optimization (AGZO). Unlike prior methods, AGZO extracts a compact, activation-informed subspace on the fly during the forward pass and restricts perturbations to this low-rank subspace. We provide a theoretical framework showing that AGZO optimizes a subspace-smoothed objective and provably yields update directions with higher cosine similarity to the true gradient than isotropic baselines. Empirically, we evaluate AGZO on Qwen3 and Pangu models across various benchmarks. AGZO consistently outperforms state-of-the-art ZO baselines and significantly narrows the performance gap with first-order fine-tuning, while maintaining almost the same peak memory footprint as other ZO methods.
- Abstract(参考訳): Zeroth-Order (ZO) 最適化は、バックプロパゲーションのためのアクティベーションを格納する禁止メモリコストを回避するため、厳密なメモリ制約下での微調整 LLM のための有望なソリューションとして登場した。
しかし、既存のZO法は典型的には等方的摂動を用い、前方通過時に利用可能な豊富な構造情報を無視する。
本稿では, 線形層の勾配は, 入力活性化によって分散された部分空間に限られる, 勾配形成と活性化構造の間に重要な関係を同定する。
この知見を生かして、アクティベーション誘導ゼロ階最適化(AGZO)を提案する。
従来の方法とは異なり、AGZOは前方通過中にフライ上のコンパクトな活性化インフォームド部分空間を抽出し、この低ランク部分空間に摂動を制限する。
我々は、AGZOが部分空間平滑な目的を最適化し、真の勾配と等方的ベースラインよりもコサイン類似性の高い更新方向を確実に得ることを示す理論的枠組みを提供する。
実験的に、様々なベンチマークでQwen3およびPanguモデル上でAGZOを評価した。
AGZOは、最先端のZOベースラインを一貫して上回り、他のZOメソッドとほぼ同じピークメモリフットプリントを維持しながら、一階ファインチューニングによるパフォーマンスギャップを著しく狭めている。
関連論文リスト
- SUMO: Subspace-Aware Moment-Orthogonalization for Accelerating Memory-Efficient LLM Training [25.244065166421517]
低ランク勾配に基づく最適化手法は、大規模言語モデル(LLM)の訓練において、メモリ効率を大幅に改善した。
これらの手法は主にメモリの節約を強調し、しばしば収束の潜在的な加速を見落としている。
本稿では,SUMO(Subspace-Aware Moment-Orthogonalization)を提案する。
我々は,SUMOがコンバージェンスを加速し,安定性を向上し,性能を向上し,最先端手法と比較してメモリ要求を最大20%削減することを示した。
論文 参考訳(メタデータ) (2025-05-30T16:08:40Z) - Elucidating Subspace Perturbation in Zeroth-Order Optimization: Theory and Practice at Scale [33.38543010618118]
Zeroth-order (ZO) 最適化は、勾配ベースのバックプロパゲーション法に代わる有望な代替手段として登場した。
高次元性が主要なボトルネックであることを示し、サブスペースの摂動が勾配ノイズを減らし収束を加速させる方法について説明するために、テキストサブスペースアライメントの概念を導入する。
本稿では,ブロック座標降下法(MeZO-BCD)を用いた効率的なZO法を提案し,各ステップでパラメータのサブセットのみを摂動・更新する。
論文 参考訳(メタデータ) (2025-01-31T12:46:04Z) - Zeroth-Order Fine-Tuning of LLMs in Random Subspaces [63.10833446782114]
言語モデルのサイズが大きくなるにつれて、バックプロパゲーションに対するメモリ要求が増加する。
Zeroth-order (ZO) 最適化手法はメモリ効率の良い代替手段を提供する。
本稿では,高次元摂動によって生じる課題に対処するために,部分空間ゼロ次最適化を提案する。
論文 参考訳(メタデータ) (2024-10-11T17:01:43Z) - Enhancing Zeroth-order Fine-tuning for Language Models with Low-rank Structures [21.18741772731095]
ゼロ階数(ZO)アルゴリズムは、関数値の有限差を用いて勾配を近似することで、有望な代替手段を提供する。
既存のZO法は、LLM微調整で一般的な低ランク勾配構造を捉えるのに苦労し、準最適性能をもたらす。
本稿では,LLMにおけるこの構造を効果的に捕捉する低ランクZOアルゴリズム(LOZO)を提案する。
論文 参考訳(メタデータ) (2024-10-10T08:10:53Z) - Revisiting Zeroth-Order Optimization for Memory-Efficient LLM Fine-Tuning: A Benchmark [166.40879020706151]
本稿では、微調整時のメモリコスト低減のためのソリューションとして、BPフリーゼロオーダー最適化(ZO)への移行を提案する。
従来のZO-SGD法とは異なり、我々の研究はより広い範囲のZO最適化手法に探索を広げる。
本研究は,タスクアライメントの重要性,前方勾配法の役割,アルゴリズムの複雑さと微調整性能のバランスについて,これまで見過ごされてきた最適化原理を明らかにした。
論文 参考訳(メタデータ) (2024-02-18T14:08:48Z) - Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。
最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文 参考訳(メタデータ) (2023-10-20T12:45:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。