論文の概要: Sparse MeZO: Less Parameters for Better Performance in Zeroth-Order LLM
Fine-Tuning
- arxiv url: http://arxiv.org/abs/2402.15751v1
- Date: Sat, 24 Feb 2024 07:22:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-27 17:14:00.971988
- Title: Sparse MeZO: Less Parameters for Better Performance in Zeroth-Order LLM
Fine-Tuning
- Title(参考訳): Sparse MeZO: ゼロ次LDMファインチューニングにおける性能向上のための少ないパラメータ
- Authors: Yong Liu, Zirui Zhu, Chaoyu Gong, Minhao Cheng, Cho-Jui Hsieh and Yang
You
- Abstract要約: 本稿では,ZOをパラメータの慎重に選択したサブセットにのみ適用するメモリ効率のゼロ階最適化手法であるSparse MeZOを紹介する。
その結果,Sparse-MeZO はオーバーヘッドを伴わずに,MeZO 上での性能と収束速度を安定的に向上することを示した。
- 参考スコア(独自算出の注目度): 67.44661423463927
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While fine-tuning large language models (LLMs) for specific tasks often
yields impressive results, it comes at the cost of memory inefficiency due to
back-propagation in gradient-based training. Memory-efficient Zeroth-order
(MeZO) optimizers, recently proposed to address this issue, only require
forward passes during training, making them more memory-friendly. However, the
quality of gradient estimates in zeroth order optimization often depends on the
data dimensionality, potentially explaining why MeZO still exhibits significant
performance drops compared to standard fine-tuning across various tasks.
Inspired by the success of Parameter-Efficient Fine-Tuning (PEFT), this paper
introduces Sparse MeZO, a novel memory-efficient zeroth-order optimization
approach that applies ZO only to a carefully chosen subset of parameters. We
propose a simple yet effective parameter selection scheme that yields
significant performance gains with Sparse-MeZO. Additionally, we develop a
memory-optimized implementation for sparse masking, ensuring the algorithm
requires only inference-level memory consumption, allowing Sparse-MeZO to
fine-tune LLaMA-30b on a single A100 GPU. Experimental results illustrate that
Sparse-MeZO consistently improves both performance and convergence speed over
MeZO without any overhead. For example, it achieves a 9\% absolute accuracy
improvement and 3.5x speedup over MeZO on the RTE task.
- Abstract(参考訳): 特定のタスクのための微調整された大きな言語モデル(LLM)は、しばしば印象的な結果をもたらすが、勾配ベースのトレーニングのバックプロパゲーションによるメモリ非効率のコストが伴う。
メモリ効率のよいゼロthorder(mezo)オプティマイザは、この問題に対処するために最近提案されたもので、トレーニング中の前方パスのみを必要とするため、メモリフレンドリになる。
しかしながら、ゼロ階最適化における勾配推定の質は、データ次元に依存することが多く、MeZOが様々なタスクをまたいだ標準的な微調整に比べて大きな性能低下を示す理由を説明している。
本稿では,パラメータ効率の良いファインチューニング(PEFT)の成功に触発されて,ZOを慎重に選択したパラメータのサブセットにのみ適用する新しいメモリ効率ゼロ階最適化手法であるSparse MeZOを紹介する。
そこで本研究では,スパースメゾを用いた簡易かつ効果的なパラメータ選択スキームを提案する。
さらに,sparse-mezoが単一のa100 gpu上でllama-30bを微調整できるように,sparse maskingのメモリ最適化実装を開発した。
実験結果から,Sparse-MeZOはオーバーヘッドを伴わずにMeZO上での性能と収束速度を安定的に向上することが示された。
例えば、RTEタスクにおけるMeZOの9倍の精度向上と3.5倍のスピードアップを実現している。
関連論文リスト
- Second-Order Fine-Tuning without Pain for LLMs:A Hessian Informed
Zeroth-Order Optimizer [46.484698809881486]
古典的な1次メモリを備えた細調整の大型言語モデル(LLM)は、バックプロパゲーションプロセスによって禁止的なGPUを必要とする。
最近の研究は微調整のためのゼロオーダーに変化しており、2つのフォワードパスを使用することでかなりのメモリを節約している。
本研究では, 対角的ヘッセン情報に基づくゼロ階軌道であるHiZOOを提案する。
論文 参考訳(メタデータ) (2024-02-23T08:11:55Z) - Revisiting Zeroth-Order Optimization for Memory-Efficient LLM
Fine-Tuning: A Benchmark [170.47660885570463]
本稿では、微調整時のメモリコスト低減のためのソリューションとして、BPフリーゼロオーダー最適化(ZO)への移行を提案する。
従来のZO-SGD法とは異なり、我々の研究はより広い範囲のZO最適化手法に探索を広げる。
本研究は,タスクアライメントの重要性,前方勾配法の役割,アルゴリズムの複雑さと微調整性能のバランスについて,これまで見過ごされてきた最適化原理を明らかにした。
論文 参考訳(メタデータ) (2024-02-18T14:08:48Z) - Scaling Sparse Fine-Tuning to Large Language Models [67.59697720719672]
大きな言語モデル(LLM)は、パラメータの数が多いため、完全な微調整が難しい。
本研究では,パラメータの配列とパラメータのデルタを事前学習した値に対して保持する新しいスパース微調整法SpIELを提案する。
提案手法は,LoRAのようなパラメータ効率の高い微調整法よりも性能が優れ,実行時間も同等であることを示す。
論文 参考訳(メタデータ) (2024-01-29T18:43:49Z) - HiFT: A Hierarchical Full Parameter Fine-Tuning Strategy [28.381211159029405]
本稿では,各学習段階におけるパラメータのサブセットのみを更新する,新しい非独立なエンドツーエンドの階層的微調整戦略であるHiFTを提案する。
この結果から,HiFTはパラメータ効率の高いファインチューニングと標準のフルパラメータファインチューニングに匹敵する性能を達成できることが示された。
論文 参考訳(メタデータ) (2024-01-26T21:14:32Z) - AdaLomo: Low-memory Optimization with Adaptive Learning Rate [63.99489591661645]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。
AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文 参考訳(メタデータ) (2023-10-16T09:04:28Z) - Fine-Tuning Language Models with Just Forward Passes [92.04219196752007]
微調整言語モデル(LM)は、様々な下流タスクで成功したが、LMのサイズが大きくなるにつれて、バックプロパゲーションは大量のメモリを必要とする。
本稿では,メモリ効率の高いゼロソーダ(MeZO)を提案する。
論文 参考訳(メタデータ) (2023-05-27T02:28:10Z) - Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than
In-Context Learning [81.3514358542452]
ICL (Few-shot in-context Learning) は、予測を行うたびにトレーニング例を全て処理するので、かなりの計算、メモリ、ストレージコストを発生させる。
パラメータ効率の良い微調整は、モデルの新たなタスクの実行を可能にするために、小さなパラメータセットをトレーニングする、代替パラダイムを提供する。
本稿では,少数ショットICLとパラメータ効率の微調整を厳密に比較し,後者が計算コストを劇的に削減できることを示す。
論文 参考訳(メタデータ) (2022-05-11T17:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。