論文の概要: Bayesian Subspace Gradient Estimation for Zeroth-Order Optimization of Large Language Models
- arxiv url: http://arxiv.org/abs/2601.01452v1
- Date: Sun, 04 Jan 2026 09:35:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.359856
- Title: Bayesian Subspace Gradient Estimation for Zeroth-Order Optimization of Large Language Models
- Title(参考訳): 大規模言語モデルのゼロ階最適化のためのベイズ部分空間勾配推定
- Authors: Jian Feng, Zhihong Huang,
- Abstract要約: 複数の摂動方向を横断する有限差分情報を組み合わせたZOを導入する。
BSZOは標準ZO法と比較して$k/$の係数で収束率を向上することを示す。
RoBERTa、Mistral、OPTモデルの実験では、BSZOはMeZO、MeZO-Adam、HiZOOより優れていた。
- 参考スコア(独自算出の注目度): 4.6561758107970395
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fine-tuning large language models (LLMs) with zeroth-order (ZO) optimization reduces memory by approximating gradients through function evaluations, but existing methods rely on one-step gradient estimates from random perturbations. We introduce Bayesian Subspace Zeroth-Order optimization (BSZO), a ZO optimizer that applies Kalman filtering to combine finite-difference information across multiple perturbation directions. By treating each finite-difference measurement as a noisy observation, BSZO builds a posterior distribution over the projected gradient and updates it through Bayesian inference, with a residual-based adaptive mechanism to adjust perturbation scales. Theoretical analysis shows that BSZO improves the convergence rate by a factor of $k/γ$ compared to standard ZO methods. Experiments on RoBERTa, Mistral, and OPT models show that BSZO outperforms MeZO, MeZO-Adam, and HiZOO across various tasks, achieving up to 6.67\% absolute average improvement on OPT-13B while keeping memory usage close to inference-only baselines (1.00$\times$--1.08$\times$ of MeZO).
- Abstract(参考訳): ゼロオーダー (ZO) 最適化による微調整大型言語モデル (LLM) は, 関数評価による勾配の近似によってメモリの削減を行うが, 既存の手法はランダムな摂動からの一段階の勾配推定に依存する。
複数の摂動方向の有限差情報を合成するためにカルマンフィルタを適用したZOオプティマイザであるBayesian Subspace Zeroth-Order Optimization (BSZO)を導入する。
各有限差分測定をノイズの観測として扱うことにより、BSZOは投影された勾配の後方分布を構築し、ベイズ推論を通してそれを更新する。
理論的解析により、BSZOは標準ZO法と比較して、収束率を$k/γ$で改善することが示された。
RoBERTa、Mistral、OPTモデルの実験では、BSZOはMeZO、MeZO-Adam、HiZOOよりも優れており、推論のみのベースライン(1.00$\times$--1.08$\times$ of MeZO)に近いメモリ使用率を維持しながら、OPT-13B上で6.67\%の平均的な改善を実現している。
関連論文リスト
- Low-Rank Curvature for Zeroth-Order Optimization in LLM Fine-Tuning [8.349781300731225]
LOREN (curvature-aware zeroth-order (ZO) optimization method for fine-tuning large language model (LLMs)) を紹介する。
乱摂動を用いた有限差分による勾配推定を行う既存のZO法は、しばしば高いばらつきと準最適探索方向に悩まされる。
i) 勾配推定のための異方性摂動分布を適応的に推定し, (ii) 低ランクブロック対角前処理器で曲率を計測し, (iii) ばらつきを抑えるためにREINFORCEスタンス・ワン・アウト(RLOO) 勾配推定器を適用することにより, これらの課題に対処する。
論文 参考訳(メタデータ) (2025-11-11T08:34:09Z) - Estimation of Toeplitz Covariance Matrices using Overparameterized Gradient Descent [1.7188280334580195]
単純降下レンズ(GD)によるToeplitz共分散推定の再検討
K = P$ のとき、GD は準最適解に収束する。
本稿では,振幅と周波数の学習率の異なる高速なGD変種を提案する。
論文 参考訳(メタデータ) (2025-11-03T14:07:53Z) - On the Optimal Construction of Unbiased Gradient Estimators for Zeroth-Order Optimization [57.179679246370114]
既存の手法の潜在的な制限は、ステップサイズが提案されない限り、ほとんどの摂動推定器に固有のバイアスである。
本稿では, 良好な構成を維持しつつ, バイアスを排除した非バイアス勾配スケーリング推定器のファミリーを提案する。
論文 参考訳(メタデータ) (2025-10-22T18:25:43Z) - Zeroth-Order Fine-Tuning of LLMs in Random Subspaces [63.10833446782114]
言語モデルのサイズが大きくなるにつれて、バックプロパゲーションに対するメモリ要求が増加する。
Zeroth-order (ZO) 最適化手法はメモリ効率の良い代替手段を提供する。
本稿では,高次元摂動によって生じる課題に対処するために,部分空間ゼロ次最適化を提案する。
論文 参考訳(メタデータ) (2024-10-11T17:01:43Z) - Differentiable Annealed Importance Sampling and the Perils of Gradient
Noise [68.44523807580438]
Annealed importance sample (AIS) と関連するアルゴリズムは、限界推定のための非常に効果的なツールである。
差別性は、目的として限界確率を最適化する可能性を認めるため、望ましい性質である。
我々はメトロポリス・ハスティングスのステップを放棄して微分可能アルゴリズムを提案し、ミニバッチ計算をさらに解き放つ。
論文 参考訳(メタデータ) (2021-07-21T17:10:14Z) - ROOT-SGD: Sharp Nonasymptotics and Near-Optimal Asymptotics in a Single Algorithm [71.13558000599839]
第一次アルゴリズムを用いて,厳密な凸と滑らかな非制約最適化問題の解法について検討する。
我々は,過去の勾配を平均化し,実装が容易な小説「Recursive One-Over-T SGD」を考案した。
有限サンプル, 漸近感覚, 感覚の両面において, 最先端の性能を同時に達成できることを実証する。
論文 参考訳(メタデータ) (2020-08-28T14:46:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。