論文の概要: Sparse MeZO: Less Parameters for Better Performance in Zeroth-Order LLM
Fine-Tuning
- arxiv url: http://arxiv.org/abs/2402.15751v1
- Date: Sat, 24 Feb 2024 07:22:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-27 17:14:00.971988
- Title: Sparse MeZO: Less Parameters for Better Performance in Zeroth-Order LLM
Fine-Tuning
- Title(参考訳): Sparse MeZO: ゼロ次LDMファインチューニングにおける性能向上のための少ないパラメータ
- Authors: Yong Liu, Zirui Zhu, Chaoyu Gong, Minhao Cheng, Cho-Jui Hsieh and Yang
You
- Abstract要約: 本稿では,ZOをパラメータの慎重に選択したサブセットにのみ適用するメモリ効率のゼロ階最適化手法であるSparse MeZOを紹介する。
その結果,Sparse-MeZO はオーバーヘッドを伴わずに,MeZO 上での性能と収束速度を安定的に向上することを示した。
- 参考スコア(独自算出の注目度): 67.44661423463927
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While fine-tuning large language models (LLMs) for specific tasks often
yields impressive results, it comes at the cost of memory inefficiency due to
back-propagation in gradient-based training. Memory-efficient Zeroth-order
(MeZO) optimizers, recently proposed to address this issue, only require
forward passes during training, making them more memory-friendly. However, the
quality of gradient estimates in zeroth order optimization often depends on the
data dimensionality, potentially explaining why MeZO still exhibits significant
performance drops compared to standard fine-tuning across various tasks.
Inspired by the success of Parameter-Efficient Fine-Tuning (PEFT), this paper
introduces Sparse MeZO, a novel memory-efficient zeroth-order optimization
approach that applies ZO only to a carefully chosen subset of parameters. We
propose a simple yet effective parameter selection scheme that yields
significant performance gains with Sparse-MeZO. Additionally, we develop a
memory-optimized implementation for sparse masking, ensuring the algorithm
requires only inference-level memory consumption, allowing Sparse-MeZO to
fine-tune LLaMA-30b on a single A100 GPU. Experimental results illustrate that
Sparse-MeZO consistently improves both performance and convergence speed over
MeZO without any overhead. For example, it achieves a 9\% absolute accuracy
improvement and 3.5x speedup over MeZO on the RTE task.
- Abstract(参考訳): 特定のタスクのための微調整された大きな言語モデル(LLM)は、しばしば印象的な結果をもたらすが、勾配ベースのトレーニングのバックプロパゲーションによるメモリ非効率のコストが伴う。
メモリ効率のよいゼロthorder(mezo)オプティマイザは、この問題に対処するために最近提案されたもので、トレーニング中の前方パスのみを必要とするため、メモリフレンドリになる。
しかしながら、ゼロ階最適化における勾配推定の質は、データ次元に依存することが多く、MeZOが様々なタスクをまたいだ標準的な微調整に比べて大きな性能低下を示す理由を説明している。
本稿では,パラメータ効率の良いファインチューニング(PEFT)の成功に触発されて,ZOを慎重に選択したパラメータのサブセットにのみ適用する新しいメモリ効率ゼロ階最適化手法であるSparse MeZOを紹介する。
そこで本研究では,スパースメゾを用いた簡易かつ効果的なパラメータ選択スキームを提案する。
さらに,sparse-mezoが単一のa100 gpu上でllama-30bを微調整できるように,sparse maskingのメモリ最適化実装を開発した。
実験結果から,Sparse-MeZOはオーバーヘッドを伴わずにMeZO上での性能と収束速度を安定的に向上することが示された。
例えば、RTEタスクにおけるMeZOの9倍の精度向上と3.5倍のスピードアップを実現している。
関連論文リスト
- Simultaneous Computation and Memory Efficient Zeroth-Order Optimizer for Fine-Tuning Large Language Models [33.911521719528686]
微調整は、大きな言語モデルを下流タスクに適応させるには強力だが、多くの場合、大きなメモリ使用量をもたらす。
有望なアプローチはゼロ階勾配 (ZO) を使うことであり、これは第一階勾配 (FO) を置き換えると見積もられている。
本稿では,レイヤワイドスパース計算とメモリ効率の高いZO,LeZOを提案する。
論文 参考訳(メタデータ) (2024-10-13T12:47:37Z) - Zeroth-Order Fine-Tuning of LLMs in Random Subspaces [66.27334633749734]
言語モデルのサイズが大きくなるにつれて、バックプロパゲーションに対するメモリ要求が増加する。
Zeroth-order (ZOZO) 最適化手法はメモリ効率の代替手段を提供する。
本稿では,SubZeroがファインチューニングを強化し,通常のZOZO手法と比較して高速な結果が得られることを示す。
論文 参考訳(メタデータ) (2024-10-11T17:01:43Z) - Addax: Utilizing Zeroth-Order Gradients to Improve Memory Efficiency and Performance of SGD for Fine-Tuning Language Models [35.84667536915878]
本稿では,MeZOと統合することでIP-SGDのメモリ効率と性能を両立させる新しい手法であるAddaxを紹介する。
我々の実験では、メモリフットプリントに匹敵する精度と収束速度において、AddaxはMeZOを一貫して上回ります。
論文 参考訳(メタデータ) (2024-10-09T00:49:08Z) - Zeroth-Order Fine-Tuning of LLMs with Extreme Sparsity [66.67596152389591]
ゼロ階最適化(ZO)は、微調整された大規模言語モデルのためのメモリ効率の高い戦略である。
本研究では,ZO を用いた LLM パラメータの極小サブセットの微調整の実現可能性について検討した。
この結果から,ZO を用いた LLM の微調整パラメータ 0.1% は,ZO の微調整性能より優れることが示された。
論文 参考訳(メタデータ) (2024-06-05T04:07:35Z) - Variance-reduced Zeroth-Order Methods for Fine-Tuning Language Models [17.027512781038617]
Zeroth-order (ZO) 最適化手法は、メモリ効率の高いフォワードパスを推定に利用することができる。
ZO-SGDの適応であるMeZOは、ゼロショット学習とインコンテキスト学習を一貫して上回ることが示されている。
MeZO-SVRGは1次SGDに比べてメモリフットプリントが大幅に削減される。
論文 参考訳(メタデータ) (2024-04-11T18:35:49Z) - Revisiting Zeroth-Order Optimization for Memory-Efficient LLM Fine-Tuning: A Benchmark [166.40879020706151]
本稿では、微調整時のメモリコスト低減のためのソリューションとして、BPフリーゼロオーダー最適化(ZO)への移行を提案する。
従来のZO-SGD法とは異なり、我々の研究はより広い範囲のZO最適化手法に探索を広げる。
本研究は,タスクアライメントの重要性,前方勾配法の役割,アルゴリズムの複雑さと微調整性能のバランスについて,これまで見過ごされてきた最適化原理を明らかにした。
論文 参考訳(メタデータ) (2024-02-18T14:08:48Z) - AdaLomo: Low-memory Optimization with Adaptive Learning Rate [59.64965955386855]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。
AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文 参考訳(メタデータ) (2023-10-16T09:04:28Z) - Fine-Tuning Language Models with Just Forward Passes [92.04219196752007]
微調整言語モデル(LM)は、様々な下流タスクで成功したが、LMのサイズが大きくなるにつれて、バックプロパゲーションは大量のメモリを必要とする。
本稿では,メモリ効率の高いゼロソーダ(MeZO)を提案する。
論文 参考訳(メタデータ) (2023-05-27T02:28:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。