論文の概要: Robust and Efficient Zeroth-Order LLM Fine-Tuning via Adaptive Bayesian Subspace Optimizer
- arxiv url: http://arxiv.org/abs/2601.01452v2
- Date: Mon, 12 Jan 2026 11:20:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 15:02:56.167107
- Title: Robust and Efficient Zeroth-Order LLM Fine-Tuning via Adaptive Bayesian Subspace Optimizer
- Title(参考訳): 適応ベイズ部分空間最適化器によるロバストかつ効率的なゼロ階LLMファインチューニング
- Authors: Jian Feng, Zhihong Huang,
- Abstract要約: ゼロオーダー (ZO) 最適化による微調整大型言語モデル (LLM) は,関数評価による勾配の近似によりメモリ削減を行う。
適応型textbfBayesian textbfSubspace textbfZeroth-Order textbfOptimizer について紹介する。
- 参考スコア(独自算出の注目度): 4.6561758107970395
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fine-tuning large language models (LLMs) with zeroth-order (ZO) optimization reduces memory by approximating gradients through function evaluations. However, existing methods essentially perform updates in a one-dimensional space, and suffer from collapse or substantial performance degradation under low-precision training. We introduce BSZO, an adaptive \textbf{B}ayesian \textbf{S}ubspace \textbf{Z}eroth-Order \textbf{O}ptimizer, which applies Kalman filtering to combine finite-difference information across multiple perturbation directions within a subspace. By treating each finite-difference measurement as a noisy observation, BSZO builds a posterior distribution over the subspace-projected gradient and updates it through Bayesian inference, with a residual-based adaptive mechanism to adapt to noise variations. Theoretical analysis shows that BSZO improves the convergence rate by a factor of $k/γ$ compared to standard ZO methods. Experiments on RoBERTa, Mistral, and OPT models show that BSZO outperforms the baselines across various tasks, achieving up to 6.67\% absolute average improvement on OPT-13B while remaining robust under fp16/bf16 precision and keeping memory usage close to inference-only baselines (1.00$\times$--1.08$\times$ of MeZO).
- Abstract(参考訳): ゼロオーダー (ZO) 最適化による微調整大型言語モデル (LLM) は,関数評価による勾配の近似によりメモリ削減を行う。
しかし、既存の手法は基本的に1次元空間で更新を行い、低精度の訓練で崩壊または実質的な性能劣化に悩まされる。
本稿では,適応型 \textbf{B}ayesian \textbf{S}ubspace \textbf{Z}eroth-Order \textbf{O}ptimizer を紹介する。
各有限差分測定をノイズの観測として扱うことにより、BSZOは部分空間投影勾配上の後方分布を構築し、ベイズ推論を通してそれを更新する。
理論的解析により、BSZOは標準ZO法と比較して、収束率を$k/γ$で改善することが示された。
RoBERTa、Mistral、OPTモデルの実験では、BSZOは様々なタスクでベースラインを上回り、最大6.67 % OPT-13Bで絶対平均改善を達成し、fp16/bf16の精度で頑健であり、推論のみのベースライン(1.00$\times$--1.08$\times$ of MeZO)に近いメモリ使用率を維持する。
関連論文リスト
- Low-Rank Curvature for Zeroth-Order Optimization in LLM Fine-Tuning [8.349781300731225]
LOREN (curvature-aware zeroth-order (ZO) optimization method for fine-tuning large language model (LLMs)) を紹介する。
乱摂動を用いた有限差分による勾配推定を行う既存のZO法は、しばしば高いばらつきと準最適探索方向に悩まされる。
i) 勾配推定のための異方性摂動分布を適応的に推定し, (ii) 低ランクブロック対角前処理器で曲率を計測し, (iii) ばらつきを抑えるためにREINFORCEスタンス・ワン・アウト(RLOO) 勾配推定器を適用することにより, これらの課題に対処する。
論文 参考訳(メタデータ) (2025-11-11T08:34:09Z) - Estimation of Toeplitz Covariance Matrices using Overparameterized Gradient Descent [1.7188280334580195]
単純降下レンズ(GD)によるToeplitz共分散推定の再検討
K = P$ のとき、GD は準最適解に収束する。
本稿では,振幅と周波数の学習率の異なる高速なGD変種を提案する。
論文 参考訳(メタデータ) (2025-11-03T14:07:53Z) - On the Optimal Construction of Unbiased Gradient Estimators for Zeroth-Order Optimization [57.179679246370114]
既存の手法の潜在的な制限は、ステップサイズが提案されない限り、ほとんどの摂動推定器に固有のバイアスである。
本稿では, 良好な構成を維持しつつ, バイアスを排除した非バイアス勾配スケーリング推定器のファミリーを提案する。
論文 参考訳(メタデータ) (2025-10-22T18:25:43Z) - Zeroth-Order Fine-Tuning of LLMs in Random Subspaces [63.10833446782114]
言語モデルのサイズが大きくなるにつれて、バックプロパゲーションに対するメモリ要求が増加する。
Zeroth-order (ZO) 最適化手法はメモリ効率の良い代替手段を提供する。
本稿では,高次元摂動によって生じる課題に対処するために,部分空間ゼロ次最適化を提案する。
論文 参考訳(メタデータ) (2024-10-11T17:01:43Z) - Differentiable Annealed Importance Sampling and the Perils of Gradient
Noise [68.44523807580438]
Annealed importance sample (AIS) と関連するアルゴリズムは、限界推定のための非常に効果的なツールである。
差別性は、目的として限界確率を最適化する可能性を認めるため、望ましい性質である。
我々はメトロポリス・ハスティングスのステップを放棄して微分可能アルゴリズムを提案し、ミニバッチ計算をさらに解き放つ。
論文 参考訳(メタデータ) (2021-07-21T17:10:14Z) - ROOT-SGD: Sharp Nonasymptotics and Near-Optimal Asymptotics in a Single Algorithm [71.13558000599839]
第一次アルゴリズムを用いて,厳密な凸と滑らかな非制約最適化問題の解法について検討する。
我々は,過去の勾配を平均化し,実装が容易な小説「Recursive One-Over-T SGD」を考案した。
有限サンプル, 漸近感覚, 感覚の両面において, 最先端の性能を同時に達成できることを実証する。
論文 参考訳(メタデータ) (2020-08-28T14:46:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。