論文の概要: Prior-Informed Zeroth-Order Optimization with Adaptive Direction Alignment for Memory-Efficient LLM Fine-Tuning
- arxiv url: http://arxiv.org/abs/2601.04710v1
- Date: Thu, 08 Jan 2026 08:27:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:53.107988
- Title: Prior-Informed Zeroth-Order Optimization with Adaptive Direction Alignment for Memory-Efficient LLM Fine-Tuning
- Title(参考訳): メモリ効率の良いLLMファインチューニングのための適応方向アライメントを用いた事前インフォームドゼロ階最適化
- Authors: Feihu Jin, Shipeng Cen, Ying Tan,
- Abstract要約: 本稿では,事前インフォームド摂動を組み込んだプラグアンドプレイ手法を提案する。
本手法は標準ZO法と比較して収束を著しく加速する。
勾配推定器が真の勾配方向とより強く一致することを証明する。
- 参考スコア(独自算出の注目度): 4.278794376089146
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Fine-tuning large language models (LLMs) has achieved remarkable success across various NLP tasks, but the substantial memory overhead during backpropagation remains a critical bottleneck, especially as model scales grow. Zeroth-order (ZO) optimization alleviates this issue by estimating gradients through forward passes and Gaussian sampling, avoiding the need for backpropagation. However, conventional ZO methods suffer from high variance in gradient estimation due to their reliance on random perturbations, leading to slow convergence and suboptimal performance. We propose a simple plug-and-play method that incorporates prior-informed perturbations to refine gradient estimation. Our method dynamically computes a guiding vector from Gaussian samples, which directs perturbations toward more informative directions, significantly accelerating convergence compared to standard ZO approaches. We further investigate a greedy perturbation strategy to explore the impact of prior knowledge on gradient estimation. Theoretically, we prove that our gradient estimator achieves stronger alignment with the true gradient direction, enhancing optimization efficiency. Extensive experiments across LLMs of varying scales and architectures demonstrate that our proposed method could seamlessly integrate into existing optimization methods, delivering faster convergence and superior performance. Notably, on the OPT-13B model, our method outperforms traditional ZO optimization across all 11 benchmark tasks and surpasses gradient-based baselines on 9 out of 11 tasks, establishing a robust balance between efficiency and accuracy.
- Abstract(参考訳): 微調整された大規模言語モデル(LLM)は、様々なNLPタスクで顕著な成功を収めてきたが、バックプロパゲーション時のメモリオーバーヘッドは、特にモデルスケールが大きくなるにつれて重大なボトルネックとなっている。
Zeroth-order (ZO) 最適化は、前方通過とガウスサンプリングを通じて勾配を推定することでこの問題を軽減し、バックプロパゲーションの必要性を回避する。
しかし、従来のZO法は、ランダムな摂動に依存するため勾配推定のばらつきが高く、収束が遅く、準最適性能が低下する。
本稿では,事前インフォームド摂動を組み込んだ簡単なプラグアンドプレイ手法を提案する。
提案手法はガウスサンプルから誘導ベクトルを動的に計算し, 摂動をより情報的な方向へ誘導し, 標準ZO法と比較して収束を著しく加速する。
さらに,事前知識が勾配推定に与える影響を検討するため,強欲な摂動戦略について検討する。
理論的には、勾配推定器が真の勾配方向とより強く一致し、最適化効率が向上することを証明する。
提案手法が既存の最適化手法にシームレスに統合され,より高速な収束と優れた性能を実現することができることを示す。
特に,OPT-13Bモデルでは,従来のZO最適化を11のベンチマークタスクすべてで上回り,11のタスク中9の勾配ベースラインを超え,効率と精度のバランスが良好である。
関連論文リスト
- Low-Rank Curvature for Zeroth-Order Optimization in LLM Fine-Tuning [8.349781300731225]
LOREN (curvature-aware zeroth-order (ZO) optimization method for fine-tuning large language model (LLMs)) を紹介する。
乱摂動を用いた有限差分による勾配推定を行う既存のZO法は、しばしば高いばらつきと準最適探索方向に悩まされる。
i) 勾配推定のための異方性摂動分布を適応的に推定し, (ii) 低ランクブロック対角前処理器で曲率を計測し, (iii) ばらつきを抑えるためにREINFORCEスタンス・ワン・アウト(RLOO) 勾配推定器を適用することにより, これらの課題に対処する。
論文 参考訳(メタデータ) (2025-11-11T08:34:09Z) - On the Optimal Construction of Unbiased Gradient Estimators for Zeroth-Order Optimization [57.179679246370114]
既存の手法の潜在的な制限は、ステップサイズが提案されない限り、ほとんどの摂動推定器に固有のバイアスである。
本稿では, 良好な構成を維持しつつ, バイアスを排除した非バイアス勾配スケーリング推定器のファミリーを提案する。
論文 参考訳(メタデータ) (2025-10-22T18:25:43Z) - Revisiting the Initial Steps in Adaptive Gradient Descent Optimization [6.468625143772815]
Adamのような適応的な勾配最適化手法は、さまざまな機械学習タスクにわたるディープニューラルネットワークのトレーニングで広く使われている。
これらの手法は、降下勾配 (SGD) と比較して最適下一般化に苦しむことが多く、不安定性を示す。
非ゼロ値で2階モーメント推定を初期化する。
論文 参考訳(メタデータ) (2024-12-03T04:28:14Z) - Zeroth-Order Fine-Tuning of LLMs in Random Subspaces [63.10833446782114]
言語モデルのサイズが大きくなるにつれて、バックプロパゲーションに対するメモリ要求が増加する。
Zeroth-order (ZO) 最適化手法はメモリ効率の良い代替手段を提供する。
本稿では,高次元摂動によって生じる課題に対処するために,部分空間ゼロ次最適化を提案する。
論文 参考訳(メタデータ) (2024-10-11T17:01:43Z) - Signal Processing Meets SGD: From Momentum to Filter [6.751292200515355]
ディープラーニングでは、勾配降下(SGD)とその運動量に基づく変種が最適化に広く利用されている。
本稿では,信号処理レンズを用いて勾配挙動を解析し,更新に影響を与える重要な要因を分離する。
本稿では,ワイナーフィルタの原理に基づく新しいSGDF手法を提案する。
論文 参考訳(メタデータ) (2023-11-06T01:41:46Z) - Differentiable Annealed Importance Sampling and the Perils of Gradient
Noise [68.44523807580438]
Annealed importance sample (AIS) と関連するアルゴリズムは、限界推定のための非常に効果的なツールである。
差別性は、目的として限界確率を最適化する可能性を認めるため、望ましい性質である。
我々はメトロポリス・ハスティングスのステップを放棄して微分可能アルゴリズムを提案し、ミニバッチ計算をさらに解き放つ。
論文 参考訳(メタデータ) (2021-07-21T17:10:14Z) - Zeroth-Order Hybrid Gradient Descent: Towards A Principled Black-Box
Optimization Framework [100.36569795440889]
この作業は、一階情報を必要としない零次最適化(ZO)の反復である。
座標重要度サンプリングにおける優雅な設計により,ZO最適化法は複雑度と関数クエリコストの両面において効率的であることを示す。
論文 参考訳(メタデータ) (2020-12-21T17:29:58Z) - BAMSProd: A Step towards Generalizing the Adaptive Optimization Methods
to Deep Binary Model [34.093978443640616]
最近のBNN(Binary Neural Networks)の性能は大幅に低下している。
BNNの効果的かつ効率的なトレーニングを保証することは未解決の問題である。
そこで本研究では,BAMSProdアルゴリズムを用いて,深部二元モデルの収束特性が量子化誤差と強く関連していることを示す。
論文 参考訳(メタデータ) (2020-09-29T06:12:32Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。