Fugu-MT 論文翻訳(概要): FZOO: Fast Zeroth-Order Optimizer for Fine-Tuning Large Language Models towards Adam-Scale Speed

論文の概要: FZOO: Fast Zeroth-Order Optimizer for Fine-Tuning Large Language Models towards Adam-Scale Speed

arxiv url: http://arxiv.org/abs/2506.09034v1
Date: Tue, 10 Jun 2025 17:56:53 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-11 15:11:43.063668
Title: FZOO: Fast Zeroth-Order Optimizer for Fine-Tuning Large Language Models towards Adam-Scale Speed
Title（参考訳）: FZOO: 大規模言語モデルのアダムスケール高速化に向けた高速ゼロ階最適化
Authors: Sizhe Dang, Yangyang Guo, Yanjun Zhao, Haishan Ye, Xiaodong Zheng, Guang Dai, Ivor Tsang,
Abstract要約: 我々はAdam-Scale Speedに向けたFast Zeroth-Orderを紹介する。 FZOOは、バッチ化された片側推定を用いて収束に必要な総前方通過を減らす。また、RademacherランダムベクトルGPUと並列処理を使用することで、バッチ毎の計算を高速化する。
参考スコア（独自算出の注目度）: 14.370468094916918
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Fine-tuning large language models (LLMs) often faces GPU memory bottlenecks: the backward pass of first-order optimizers like Adam increases memory usage to more than 10 times the inference level (e.g., 633 GB for OPT-30B). Zeroth-order (ZO) optimizers avoid this cost by estimating gradients only from forward passes, yet existing methods like MeZO usually require many more steps to converge. Can this trade-off between speed and memory in ZO be fundamentally improved? Normalized-SGD demonstrates strong empirical performance with greater memory efficiency than Adam. In light of this, we introduce FZOO, a Fast Zeroth-Order Optimizer toward Adam-Scale Speed. FZOO reduces the total forward passes needed for convergence by employing batched one-sided estimates that adapt step sizes based on the standard deviation of batch losses. It also accelerates per-batch computation through the use of Rademacher random vector perturbations coupled with CUDA's parallel processing. Extensive experiments on diverse models, including RoBERTa-large, OPT (350M-66B), Phi-2, and Llama3, across 11 tasks validate FZOO's effectiveness. On average, FZOO outperforms MeZO by 3 percent in accuracy while requiring 3 times fewer forward passes. For RoBERTa-large, FZOO achieves average improvements of 5.6 percent in accuracy and an 18 times reduction in forward passes compared to MeZO, achieving convergence speeds comparable to Adam. We also provide theoretical analysis proving FZOO's formal equivalence to a normalized-SGD update rule and its convergence guarantees. FZOO integrates smoothly into PEFT techniques, enabling even larger memory savings. Overall, our results make single-GPU, high-speed, full-parameter fine-tuning practical and point toward future work on memory-efficient pre-training.
Abstract（参考訳）: Adamのようなファーストオーダーオプティマイザの後方通過は、推論レベル(OPT-30Bの633GBなど)の10倍以上のメモリ使用率に増加します。ゼロオーダー最適化器(ZO)は、前方通過のみから勾配を推定することで、このコストを回避するが、MeZOのような既存の手法では、収束するために多くのステップを必要とする。この速度とZOのメモリ間のトレードオフは、根本的に改善できるのだろうか? 正規化SGDはAdamよりもメモリ効率が高い経験的性能を示す。これを踏まえて,Adam-Scale Speedに対するFZOO,Fast Zeroth-Order Optimizerを導入する。 FZOOは、バッチ化された一方的な見積もりを用いて、バッチ損失の標準偏差に基づいてステップサイズを調整することにより、収束に必要なトータルフォワードパスを削減する。また、CUDAの並列処理とRadecherランダムベクトル摂動を用いてバッチ毎の計算を高速化する。 RoBERTa-large、OPT (350M-66B)、Phi-2、Llama3など、11のタスクにわたる多種多様なモデルに対する大規模な実験により、FZOOの有効性が検証された。平均して、FZOOはMeZOの精度を3%上回り、3倍のフォワードパスを必要とする。 RoBERTa-largeでは、FZOOはMeZOと比較して平均5.6%の精度向上と18倍のフォワードパスを実現し、Adamに匹敵する収束速度を達成している。また、FZOOの正規化されたSGD更新規則と収束保証との形式的等価性を証明する理論的解析も提供する。 FZOOはPEFT技術にスムーズに統合され、より大きなメモリ節約を可能にする。全体として, 単GPU, 高速, フルパラメータ微調整の実用化と, メモリ効率向上に向けた今後の課題について述べる。

関連論文リスト

Harmony in Divergence: Towards Fast, Accurate, and Memory-efficient Zeroth-order LLM Fine-tuning [43.828532214581166]
大規模言語モデル(LLM)は様々なタスクにまたがるが、標準的な一階述語(FO)の微調整にはかなりのメモリを必要とする。近年、ゼロオーダー(ZO)最適化はメモリ効率のよいトレーニングパラダイムとして注目されている。本稿では,FOおよびZO最適化の異なる更新パターンを明らかにするレイヤワイズ分散分析を提案する。
論文参考訳（メタデータ） (2025-02-05T16:03:17Z)
APOLLO: SGD-like Memory, AdamW-level Performance [61.53444035835778]
大規模言語モデル(LLM)は、トレーニング中にメモリ集約的であることで知られている。メモリ使用量を減らすために、様々なメモリ効率のScalが提案されている。 i)コストのかかるSVDオペレーション、(ii)AdamWと比較して大きなパフォーマンストレードオフ、(iii)競争性能を維持する上でのメモリオーバーヘッド、などです。
論文参考訳（メタデータ） (2024-12-06T18:55:34Z)
Simultaneous Computation and Memory Efficient Zeroth-Order Optimizer for Fine-Tuning Large Language Models [33.911521719528686]
微調整は、大きな言語モデルを下流タスクに適応させるには強力だが、多くの場合、大きなメモリ使用量をもたらす。有望なアプローチはゼロ階勾配 (ZO) を使うことであり、これは第一階勾配 (FO) を置き換えると見積もられている。本稿では,レイヤワイドスパース計算とメモリ効率の高いZO,LeZOを提案する。
論文参考訳（メタデータ） (2024-10-13T12:47:37Z)
Addax: Utilizing Zeroth-Order Gradients to Improve Memory Efficiency and Performance of SGD for Fine-Tuning Language Models [35.84667536915878]
本稿では,MeZOと統合することでIP-SGDのメモリ効率と性能を両立させる新しい手法であるAddaxを紹介する。我々の実験では、メモリフットプリントに匹敵する精度と収束速度において、AddaxはMeZOを一貫して上回ります。
論文参考訳（メタデータ） (2024-10-09T00:49:08Z)
AdaZeta: Adaptive Zeroth-Order Tensor-Train Adaption for Memory-Efficient Large Language Models Fine-Tuning [22.950914612765494]
微調整型大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて顕著なパフォーマンスを実現している。メモリ効率のゼロ階数法(MeZO)は、前方通過のみを使用してLPMを微調整しようとするため、バックプロパゲーショングラフは不要である。本稿では,ZO手法の性能と収束性を改善するために,AdaZeta(Adaptive Zeroth-order-Train Adaption)フレームワークを提案する。
論文参考訳（メタデータ） (2024-06-26T04:33:13Z)
Sparse MeZO: Less Parameters for Better Performance in Zeroth-Order LLM Fine-Tuning [67.44661423463927]
本稿では,ZOをパラメータの慎重に選択したサブセットにのみ適用するメモリ効率のゼロ階最適化手法であるSparse MeZOを紹介する。その結果,Sparse-MeZO はオーバーヘッドを伴わずに,MeZO 上での性能と収束速度を安定的に向上することを示した。
論文参考訳（メタデータ） (2024-02-24T07:22:04Z)
Second-Order Fine-Tuning without Pain for LLMs:A Hessian Informed Zeroth-Order Optimizer [43.86938914517675]
古典的な1次メモリを備えた細調整の大型言語モデル(LLM)は、バックプロパゲーションプロセスによって禁止的なGPUを必要とする。最近の研究は微調整のためのゼロオーダーに変化しており、2つのフォワードパスを使用することでかなりのメモリを節約している。本研究では, 対角的ヘッセン情報に基づくゼロ階軌道であるHiZOOを提案する。
論文参考訳（メタデータ） (2024-02-23T08:11:55Z)
AdaLomo: Low-memory Optimization with Adaptive Learning Rate [59.64965955386855]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。 AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文参考訳（メタデータ） (2023-10-16T09:04:28Z)
Fine-Tuning Language Models with Just Forward Passes [92.04219196752007]
微調整言語モデル(LM)は、様々な下流タスクで成功したが、LMのサイズが大きくなるにつれて、バックプロパゲーションは大量のメモリを必要とする。本稿では,メモリ効率の高いゼロソーダ(MeZO)を提案する。
論文参考訳（メタデータ） (2023-05-27T02:28:10Z)
Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文参考訳（メタデータ） (2023-05-24T15:52:08Z)
VSAC: Efficient and Accurate Estimator for H and F [68.65610177368617]
VSACはRANSAC型頑健な推定器であり、多くの新奇性がある。従来のすべてのプロセッサよりも大幅に高速で、CPU上では平均1-2msで動作する。現在最も正確な2次元幾何学推定器である MAGSAC++ と同等の精度で2桁高速である。
論文参考訳（メタデータ） (2021-06-18T17:04:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。