論文の概要: Variance-reduced Zeroth-Order Methods for Fine-Tuning Language Models
- arxiv url: http://arxiv.org/abs/2404.08080v1
- Date: Thu, 11 Apr 2024 18:35:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-15 16:34:33.655962
- Title: Variance-reduced Zeroth-Order Methods for Fine-Tuning Language Models
- Title(参考訳): ファインチューニング言語モデルに対する変数再現ゼロ階法
- Authors: Tanmay Gautam, Youngsuk Park, Hao Zhou, Parameswaran Raman, Wooseok Ha,
- Abstract要約: Zeroth-order (ZO) 最適化手法は、メモリ効率の高いフォワードパスを推定に利用することができる。
ZO-SGDの適応であるMeZOは、ゼロショット学習とインコンテキスト学習を一貫して上回ることが示されている。
MeZO-SVRGは1次SGDに比べてメモリフットプリントが大幅に削減される。
- 参考スコア(独自算出の注目度): 17.027512781038617
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fine-tuning language models (LMs) has demonstrated success in a wide array of downstream tasks. However, as LMs are scaled up, the memory requirements for backpropagation become prohibitively high. Zeroth-order (ZO) optimization methods can leverage memory-efficient forward passes to estimate gradients. More recently, MeZO, an adaptation of ZO-SGD, has been shown to consistently outperform zero-shot and in-context learning when combined with suitable task prompts. In this work, we couple ZO methods with variance reduction techniques to enhance stability and convergence for inference-based LM fine-tuning. We introduce Memory-Efficient Zeroth-Order Stochastic Variance-Reduced Gradient (MeZO-SVRG) and demonstrate its efficacy across multiple LM fine-tuning tasks, eliminating the reliance on task-specific prompts. Evaluated across a range of both masked and autoregressive LMs on benchmark GLUE tasks, MeZO-SVRG outperforms MeZO with up to 20% increase in test accuracies in both full- and partial-parameter fine-tuning settings. MeZO-SVRG benefits from reduced computation time as it often surpasses MeZO's peak test accuracy with a $2\times$ reduction in GPU-hours. MeZO-SVRG significantly reduces the required memory footprint compared to first-order SGD, i.e. by $2\times$ for autoregressive models. Our experiments highlight that MeZO-SVRG's memory savings progressively improve compared to SGD with larger batch sizes.
- Abstract(参考訳): 微調整言語モデル(LM)は、幅広い下流タスクで成功している。
しかし、LMがスケールアップされるにつれて、バックプロパゲーションのメモリ要求は著しく高くなる。
Zeroth-order (ZO) 最適化手法はメモリ効率の高いフォワードパスを推定勾配に利用することができる。
最近では、ZO-SGDの適応であるMeZOが、適切なタスクプロンプトと組み合わせることで、ゼロショットとインコンテキスト学習を一貫して上回ることが示されている。
そこで本研究では,ZO法と分散低減手法を結合して,推論に基づくLM微調整の安定性と収束性を向上させる。
本稿では、メモリ効率の良いゼロ階確率変数生成勾配(MeZO-SVRG)を導入し、タスク固有のプロンプトへの依存をなくし、複数のLM微調整タスクに対してその有効性を実証する。
MeZO-SVRGは、GLUEタスクのベンチマーク上で、マスクと自動回帰の両方のLMを評価し、全パラメータと部分パラメータの微調整設定において、最大20%の精度でMeZOを上回っている。
MeZO-SVRGは、MeZOのピークテスト精度を2/times$で上回ることが多いため、計算時間を短縮するメリットがある。
MeZO-SVRGは1次SGDに比べてメモリフットプリントが大幅に削減される。
実験の結果,MeZO-SVRGのメモリ節約は,バッチサイズが大きいSGDに比べて徐々に改善されていることがわかった。
関連論文リスト
- HELENE: Hessian Layer-wise Clipping and Gradient Annealing for Accelerating Fine-tuning LLM with Zeroth-order Optimization [18.00873866263434]
微調整された大きな言語モデル(LLM)は、大きなメモリ問題を引き起こす。
最近の研究であるMeZOは、ゼロ階最適化法(ZO)を用いてこの問題に対処している。
HELENEは、スケーラブルでメモリ効率の良い新しいプレコンディショナーである。
論文 参考訳(メタデータ) (2024-11-16T04:27:22Z) - Progressive Mixed-Precision Decoding for Efficient LLM Inference [49.05448842542558]
我々は,デコーディングのメモリバウンドネスに対処するために,プログレッシブ・ミックス・プレシジョン・デコーディング(PMPD)を導入する。
PMPDはfp16モデルの行列ベクトル乗算において1.4$-$12.2$times$ Speedupを達成する。
我々の手法は、fp16モデルよりも3.8$-$8.0$times$、均一量子化アプローチよりも1.54$times$のスループット向上をもたらす。
論文 参考訳(メタデータ) (2024-10-17T11:46:33Z) - Simultaneous Computation and Memory Efficient Zeroth-Order Optimizer for Fine-Tuning Large Language Models [33.911521719528686]
微調整は、大きな言語モデルを下流タスクに適応させるには強力だが、多くの場合、大きなメモリ使用量をもたらす。
有望なアプローチはゼロ階勾配 (ZO) を使うことであり、これは第一階勾配 (FO) を置き換えると見積もられている。
本稿では,レイヤワイドスパース計算とメモリ効率の高いZO,LeZOを提案する。
論文 参考訳(メタデータ) (2024-10-13T12:47:37Z) - Zeroth-Order Fine-Tuning of LLMs in Random Subspaces [66.27334633749734]
言語モデルのサイズが大きくなるにつれて、バックプロパゲーションに対するメモリ要求が増加する。
Zeroth-order (ZOZO) 最適化手法はメモリ効率の代替手段を提供する。
本稿では,SubZeroがファインチューニングを強化し,通常のZOZO手法と比較して高速な結果が得られることを示す。
論文 参考訳(メタデータ) (2024-10-11T17:01:43Z) - Enhancing Zeroth-order Fine-tuning for Language Models with Low-rank Structures [21.18741772731095]
ゼロ階数(ZO)アルゴリズムは、関数値の有限差を用いて勾配を近似することで、有望な代替手段を提供する。
既存のZO法は、LLM微調整で一般的な低ランク勾配構造を捉えるのに苦労し、準最適性能をもたらす。
本稿では,LLMにおけるこの構造を効果的に捕捉する低ランクZOアルゴリズム(LOZO)を提案する。
論文 参考訳(メタデータ) (2024-10-10T08:10:53Z) - Mini-Sequence Transformer: Optimizing Intermediate Memory for Long Sequences Training [78.93900796545523]
ミニシーケンス変換器(Mini-Sequence Transformer, MsT)は、非常に長いシーケンスを持つ高速かつ高精度なLLMトレーニング手法である。
MsTは入力シーケンスを分割し、中間メモリ使用量を減らすためにミニシーケンスを反復的に処理する。
huggingfaceライブラリと統合され、MsTはQwen、Mistral、Gemma-2の最大コンテキスト長を12-24倍に拡張した。
論文 参考訳(メタデータ) (2024-07-22T01:52:30Z) - Sparse MeZO: Less Parameters for Better Performance in Zeroth-Order LLM
Fine-Tuning [67.44661423463927]
本稿では,ZOをパラメータの慎重に選択したサブセットにのみ適用するメモリ効率のゼロ階最適化手法であるSparse MeZOを紹介する。
その結果,Sparse-MeZO はオーバーヘッドを伴わずに,MeZO 上での性能と収束速度を安定的に向上することを示した。
論文 参考訳(メタデータ) (2024-02-24T07:22:04Z) - Revisiting Zeroth-Order Optimization for Memory-Efficient LLM Fine-Tuning: A Benchmark [166.40879020706151]
本稿では、微調整時のメモリコスト低減のためのソリューションとして、BPフリーゼロオーダー最適化(ZO)への移行を提案する。
従来のZO-SGD法とは異なり、我々の研究はより広い範囲のZO最適化手法に探索を広げる。
本研究は,タスクアライメントの重要性,前方勾配法の役割,アルゴリズムの複雑さと微調整性能のバランスについて,これまで見過ごされてきた最適化原理を明らかにした。
論文 参考訳(メタデータ) (2024-02-18T14:08:48Z) - Fine-Tuning Language Models with Just Forward Passes [92.04219196752007]
微調整言語モデル(LM)は、様々な下流タスクで成功したが、LMのサイズが大きくなるにつれて、バックプロパゲーションは大量のメモリを必要とする。
本稿では,メモリ効率の高いゼロソーダ(MeZO)を提案する。
論文 参考訳(メタデータ) (2023-05-27T02:28:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。