論文の概要: FZOO: Fast Zeroth-Order Optimizer for Fine-Tuning Large Language Models towards Adam-Scale Speed
- arxiv url: http://arxiv.org/abs/2506.09034v1
- Date: Tue, 10 Jun 2025 17:56:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:43.063668
- Title: FZOO: Fast Zeroth-Order Optimizer for Fine-Tuning Large Language Models towards Adam-Scale Speed
- Title(参考訳): FZOO: 大規模言語モデルのアダムスケール高速化に向けた高速ゼロ階最適化
- Authors: Sizhe Dang, Yangyang Guo, Yanjun Zhao, Haishan Ye, Xiaodong Zheng, Guang Dai, Ivor Tsang,
- Abstract要約: 我々はAdam-Scale Speedに向けたFast Zeroth-Orderを紹介する。
FZOOは、バッチ化された片側推定を用いて収束に必要な総前方通過を減らす。
また、RademacherランダムベクトルGPUと並列処理を使用することで、バッチ毎の計算を高速化する。
- 参考スコア(独自算出の注目度): 14.370468094916918
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fine-tuning large language models (LLMs) often faces GPU memory bottlenecks: the backward pass of first-order optimizers like Adam increases memory usage to more than 10 times the inference level (e.g., 633 GB for OPT-30B). Zeroth-order (ZO) optimizers avoid this cost by estimating gradients only from forward passes, yet existing methods like MeZO usually require many more steps to converge. Can this trade-off between speed and memory in ZO be fundamentally improved? Normalized-SGD demonstrates strong empirical performance with greater memory efficiency than Adam. In light of this, we introduce FZOO, a Fast Zeroth-Order Optimizer toward Adam-Scale Speed. FZOO reduces the total forward passes needed for convergence by employing batched one-sided estimates that adapt step sizes based on the standard deviation of batch losses. It also accelerates per-batch computation through the use of Rademacher random vector perturbations coupled with CUDA's parallel processing. Extensive experiments on diverse models, including RoBERTa-large, OPT (350M-66B), Phi-2, and Llama3, across 11 tasks validate FZOO's effectiveness. On average, FZOO outperforms MeZO by 3 percent in accuracy while requiring 3 times fewer forward passes. For RoBERTa-large, FZOO achieves average improvements of 5.6 percent in accuracy and an 18 times reduction in forward passes compared to MeZO, achieving convergence speeds comparable to Adam. We also provide theoretical analysis proving FZOO's formal equivalence to a normalized-SGD update rule and its convergence guarantees. FZOO integrates smoothly into PEFT techniques, enabling even larger memory savings. Overall, our results make single-GPU, high-speed, full-parameter fine-tuning practical and point toward future work on memory-efficient pre-training.
- Abstract(参考訳): Adamのようなファーストオーダーオプティマイザの後方通過は、推論レベル(OPT-30Bの633GBなど)の10倍以上のメモリ使用率に増加します。
ゼロオーダー最適化器(ZO)は、前方通過のみから勾配を推定することで、このコストを回避するが、MeZOのような既存の手法では、収束するために多くのステップを必要とする。
この速度とZOのメモリ間のトレードオフは、根本的に改善できるのだろうか?
正規化SGDはAdamよりもメモリ効率が高い経験的性能を示す。
これを踏まえて,Adam-Scale Speedに対するFZOO,Fast Zeroth-Order Optimizerを導入する。
FZOOは、バッチ化された一方的な見積もりを用いて、バッチ損失の標準偏差に基づいてステップサイズを調整することにより、収束に必要なトータルフォワードパスを削減する。
また、CUDAの並列処理とRadecherランダムベクトル摂動を用いてバッチ毎の計算を高速化する。
RoBERTa-large、OPT (350M-66B)、Phi-2、Llama3など、11のタスクにわたる多種多様なモデルに対する大規模な実験により、FZOOの有効性が検証された。
平均して、FZOOはMeZOの精度を3%上回り、3倍のフォワードパスを必要とする。
RoBERTa-largeでは、FZOOはMeZOと比較して平均5.6%の精度向上と18倍のフォワードパスを実現し、Adamに匹敵する収束速度を達成している。
また、FZOOの正規化されたSGD更新規則と収束保証との形式的等価性を証明する理論的解析も提供する。
FZOOはPEFT技術にスムーズに統合され、より大きなメモリ節約を可能にする。
全体として, 単GPU, 高速, フルパラメータ微調整の実用化と, メモリ効率向上に向けた今後の課題について述べる。
関連論文リスト
- APOLLO: SGD-like Memory, AdamW-level Performance [61.53444035835778]
大規模言語モデル(LLM)は、トレーニング中にメモリ集約的であることで知られている。
メモリ使用量を減らすために、様々なメモリ効率のScalが提案されている。
i)コストのかかるSVDオペレーション、(ii)AdamWと比較して大きなパフォーマンストレードオフ、(iii)競争性能を維持する上でのメモリオーバーヘッド、などです。
論文 参考訳(メタデータ) (2024-12-06T18:55:34Z) - Simultaneous Computation and Memory Efficient Zeroth-Order Optimizer for Fine-Tuning Large Language Models [33.911521719528686]
微調整は、大きな言語モデルを下流タスクに適応させるには強力だが、多くの場合、大きなメモリ使用量をもたらす。
有望なアプローチはゼロ階勾配 (ZO) を使うことであり、これは第一階勾配 (FO) を置き換えると見積もられている。
本稿では,レイヤワイドスパース計算とメモリ効率の高いZO,LeZOを提案する。
論文 参考訳(メタデータ) (2024-10-13T12:47:37Z) - Addax: Utilizing Zeroth-Order Gradients to Improve Memory Efficiency and Performance of SGD for Fine-Tuning Language Models [35.84667536915878]
本稿では,MeZOと統合することでIP-SGDのメモリ効率と性能を両立させる新しい手法であるAddaxを紹介する。
我々の実験では、メモリフットプリントに匹敵する精度と収束速度において、AddaxはMeZOを一貫して上回ります。
論文 参考訳(メタデータ) (2024-10-09T00:49:08Z) - AdaZeta: Adaptive Zeroth-Order Tensor-Train Adaption for Memory-Efficient Large Language Models Fine-Tuning [22.950914612765494]
微調整型大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて顕著なパフォーマンスを実現している。
メモリ効率のゼロ階数法(MeZO)は、前方通過のみを使用してLPMを微調整しようとするため、バックプロパゲーショングラフは不要である。
本稿では,ZO手法の性能と収束性を改善するために,AdaZeta(Adaptive Zeroth-order-Train Adaption)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-26T04:33:13Z) - Sparse MeZO: Less Parameters for Better Performance in Zeroth-Order LLM
Fine-Tuning [67.44661423463927]
本稿では,ZOをパラメータの慎重に選択したサブセットにのみ適用するメモリ効率のゼロ階最適化手法であるSparse MeZOを紹介する。
その結果,Sparse-MeZO はオーバーヘッドを伴わずに,MeZO 上での性能と収束速度を安定的に向上することを示した。
論文 参考訳(メタデータ) (2024-02-24T07:22:04Z) - Fine-Tuning Language Models with Just Forward Passes [92.04219196752007]
微調整言語モデル(LM)は、様々な下流タスクで成功したが、LMのサイズが大きくなるにつれて、バックプロパゲーションは大量のメモリを必要とする。
本稿では,メモリ効率の高いゼロソーダ(MeZO)を提案する。
論文 参考訳(メタデータ) (2023-05-27T02:28:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。