論文の概要: ConMeZO: Adaptive Descent-Direction Sampling for Gradient-Free Finetuning of Large Language Models
- arxiv url: http://arxiv.org/abs/2511.02757v1
- Date: Tue, 04 Nov 2025 17:35:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 18:47:06.124593
- Title: ConMeZO: Adaptive Descent-Direction Sampling for Gradient-Free Finetuning of Large Language Models
- Title(参考訳): ConMeZO: 大規模言語モデルのグラディエントフリーファインタニングのための適応的Descent-Direction Smpling
- Authors: Lejs Deen Behric, Liang Zhang, Bingcong Li, Kiran Koshy Thekumparampil,
- Abstract要約: ゼロオーダーまたはデリバティブフリー最適化(MeZO)は、大規模言語モデルを微調整するための魅力的な戦略である。
本稿では,新しいゼロ階パラメータ収束戦略であるConMeZOを提案する。
我々は,ConMeZOがMeZOと同じ最悪の収束率を達成することを証明した。
- 参考スコア(独自算出の注目度): 15.938742690168914
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Zeroth-order or derivative-free optimization (MeZO) is an attractive strategy for finetuning large language models (LLMs) because it eliminates the memory overhead of backpropagation. However, it converges slowly due to the inherent curse of dimensionality when searching for descent directions in the high-dimensional parameter space of billion-scale LLMs. We propose ConMeZO, a novel zeroth-order optimizer that accelerates convergence by adaptive directional sampling. Instead of drawing the direction uniformly at random, ConMeZO restricts the sampling to a cone centered around a momentum estimate. This concentrates the search in directions where the true gradient is more likely to lie and thus reduces the effect of high dimensions. We prove that ConMeZO achieves the same worst-case convergence rate as MeZO. Empirically, when finetuning LLMs on natural language tasks, ConMeZO is up to 2X faster than MeZO while retaining the low-memory footprint of zeroth-order methods.
- Abstract(参考訳): ゼロオーダーまたはデリバティブフリー最適化(MeZO)は、バックプロパゲーションのメモリオーバーヘッドをなくすため、大規模言語モデル(LLM)を微調整するための魅力的な戦略である。
しかし、数十億のLLMの高次元パラメータ空間における降下方向を求めるとき、次元性の固有の呪いのためにゆっくりと収束する。
適応方向サンプリングにより収束を加速する新しいゼロ階最適化器であるConMeZOを提案する。
ランダムに方向を均一に描画する代わりに、ConMeZOはサンプリングを運動量推定を中心にした円錐に制限する。
これにより、真の勾配が転倒しやすい方向に探索を集中させ、したがって高次元の影響を減少させる。
我々は,ConMeZOがMeZOと同じ最悪の収束率を達成することを証明した。
経験的に、自然言語タスクでLLMを微調整する場合、ConMeZOは、ゼロ階法の低メモリフットプリントを維持しながら、MeZOの最大2倍高速である。
関連論文リスト
- TeZO: Empowering the Low-Rankness on the Temporal Dimension in the Zeroth-Order Optimization for Fine-tuning LLMs [58.19080159470868]
モデルと時間次元の両方にわたって低ランク度をキャプチャする新しい低ランクZO推定器TeZOを提案する。
具体的には、時間次元に沿ったZO摂動を3次元テンソルとして表現し、Canonical Polyadic Decomposition (CPD)を用いて各低ランク2次元行列を抽出する。
論文 参考訳(メタデータ) (2025-01-31T11:34:03Z) - HELENE: Hessian Layer-wise Clipping and Gradient Annealing for Accelerating Fine-tuning LLM with Zeroth-order Optimization [18.00873866263434]
微調整された大きな言語モデル(LLM)は、大きなメモリ問題を引き起こす。
最近の研究であるMeZOは、ゼロ階最適化法(ZO)を用いてこの問題に対処している。
HELENEは、スケーラブルでメモリ効率の良い新しいプレコンディショナーである。
論文 参考訳(メタデータ) (2024-11-16T04:27:22Z) - Zeroth-Order Fine-Tuning of LLMs in Random Subspaces [63.10833446782114]
言語モデルのサイズが大きくなるにつれて、バックプロパゲーションに対するメモリ要求が増加する。
Zeroth-order (ZO) 最適化手法はメモリ効率の良い代替手段を提供する。
本稿では,高次元摂動によって生じる課題に対処するために,部分空間ゼロ次最適化を提案する。
論文 参考訳(メタデータ) (2024-10-11T17:01:43Z) - Variance-reduced Zeroth-Order Methods for Fine-Tuning Language Models [17.027512781038617]
Zeroth-order (ZO) 最適化手法は、メモリ効率の高いフォワードパスを推定に利用することができる。
ZO-SGDの適応であるMeZOは、ゼロショット学習とインコンテキスト学習を一貫して上回ることが示されている。
MeZO-SVRGは1次SGDに比べてメモリフットプリントが大幅に削減される。
論文 参考訳(メタデータ) (2024-04-11T18:35:49Z) - Sparse MeZO: Less Parameters for Better Performance in Zeroth-Order LLM
Fine-Tuning [67.44661423463927]
本稿では,ZOをパラメータの慎重に選択したサブセットにのみ適用するメモリ効率のゼロ階最適化手法であるSparse MeZOを紹介する。
その結果,Sparse-MeZO はオーバーヘッドを伴わずに,MeZO 上での性能と収束速度を安定的に向上することを示した。
論文 参考訳(メタデータ) (2024-02-24T07:22:04Z) - Fine-Tuning Language Models with Just Forward Passes [92.04219196752007]
微調整言語モデル(LM)は、様々な下流タスクで成功したが、LMのサイズが大きくなるにつれて、バックプロパゲーションは大量のメモリを必要とする。
本稿では,メモリ効率の高いゼロソーダ(MeZO)を提案する。
論文 参考訳(メタデータ) (2023-05-27T02:28:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。