論文の概要: HiFT: A Hierarchical Full Parameter Fine-Tuning Strategy
- arxiv url: http://arxiv.org/abs/2401.15207v2
- Date: Sun, 25 Feb 2024 18:33:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-27 18:37:31.114321
- Title: HiFT: A Hierarchical Full Parameter Fine-Tuning Strategy
- Title(参考訳): HiFT:階層型フルパラメータ細調整戦略
- Authors: Yongkang Liu, Yiqun Zhang, Qian Li, Tong Liu, Shi Feng, Daling Wang,
Yifei Zhang and Hinrich Sch\"utze
- Abstract要約: 本稿では,各学習段階におけるパラメータのサブセットのみを更新する,新しい非独立なエンドツーエンドの階層的微調整戦略であるHiFTを提案する。
この結果から,HiFTはパラメータ効率の高いファインチューニングと標準のフルパラメータファインチューニングに匹敵する性能を達成できることが示された。
- 参考スコア(独自算出の注目度): 28.381211159029405
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Full-parameter fine-tuning has become the go-to choice for adapting language
models (LMs) to downstream tasks due to its excellent performance. As LMs grow
in size, fine-tuning the full parameters of LMs requires a prohibitively large
amount of GPU memory. Existing approaches utilize zeroth-order optimizer to
conserve GPU memory, which can potentially compromise the performance of LMs as
non-zero order optimizers tend to converge more readily on most downstream
tasks. In this paper, we propose a novel optimizer-independent end-to-end
hierarchical fine-tuning strategy, HiFT, which only updates a subset of
parameters at each training step. HiFT can significantly reduce the amount of
gradients and optimizer state parameters residing in GPU memory at the same
time, thereby reducing GPU memory usage. Our results demonstrate that: (1) HiFT
achieves comparable performance to parameter-efficient fine-tuning and standard
full parameter fine-tuning. (2) HiFT supports various optimizers including
AdamW, AdaGrad, SGD, etc. (3) HiFT can save more than 60\% GPU memory compared
with standard full-parameter fine-tuning for 7B model. (4) HiFT enables
full-parameter fine-tuning of a 7B model on single 48G A6000 with a precision
of 32 using the AdamW optimizer, without using any memory saving techniques.
- Abstract(参考訳): 言語モデル(LM)を下流タスクに適応させる手段として,フルパラメータの微調整が選択肢となっている。
LMのサイズが大きくなるにつれて、LMの完全なパラメータを微調整するには、非常に大量のGPUメモリが必要である。
既存のアプローチでは、ゼロオーダーオプティマイザを使用してGPUメモリを保存することで、非ゼロオーダーオプティマイザがほとんどのダウンストリームタスクに容易に収束する傾向があるため、LMのパフォーマンスを損なう可能性がある。
本稿では,各学習段階におけるパラメータのサブセットのみを更新する,最適化非依存のエンドツーエンド階層的微調整戦略であるHiFTを提案する。
HiFTは、GPUメモリに存在する勾配の量と最適化状態パラメータを同時に大幅に削減し、GPUメモリ使用量を減らすことができる。
その結果,(1) HiFT はパラメータ効率の高いファインチューニングと標準のフルパラメータファインチューニングに匹敵する性能を実現する。
(2) hiftは、adamw、adagrad、sgdなどを含む様々な最適化をサポートする。 (3) hiftは、7bモデルの標準フルパラメータの微調整と比較して、60\%以上のgpuメモリを節約できる。
(4) HiFTはメモリセーブ技術を用いることなく,AdamWオプティマイザを用いた精度32のシングル48G A6000上で7Bモデルのフルパラメータ微調整を可能にする。
関連論文リスト
- Simultaneous Computation and Memory Efficient Zeroth-Order Optimizer for Fine-Tuning Large Language Models [33.911521719528686]
微調整は、大きな言語モデルを下流タスクに適応させるには強力だが、多くの場合、大きなメモリ使用量をもたらす。
有望なアプローチはゼロ階勾配 (ZO) を使うことであり、これは第一階勾配 (FO) を置き換えると見積もられている。
本稿では,レイヤワイドスパース計算とメモリ効率の高いZO,LeZOを提案する。
論文 参考訳(メタデータ) (2024-10-13T12:47:37Z) - Zeroth-Order Fine-Tuning of LLMs with Extreme Sparsity [66.67596152389591]
ゼロ階最適化(ZO)は、微調整された大規模言語モデルのためのメモリ効率の高い戦略である。
本研究では,ZO を用いた LLM パラメータの極小サブセットの微調整の実現可能性について検討した。
この結果から,ZO を用いた LLM の微調整パラメータ 0.1% は,ZO の微調整性能より優れることが示された。
論文 参考訳(メタデータ) (2024-06-05T04:07:35Z) - Sparse MeZO: Less Parameters for Better Performance in Zeroth-Order LLM
Fine-Tuning [67.44661423463927]
本稿では,ZOをパラメータの慎重に選択したサブセットにのみ適用するメモリ効率のゼロ階最適化手法であるSparse MeZOを紹介する。
その結果,Sparse-MeZO はオーバーヘッドを伴わずに,MeZO 上での性能と収束速度を安定的に向上することを示した。
論文 参考訳(メタデータ) (2024-02-24T07:22:04Z) - QFT: Quantized Full-parameter Tuning of LLMs with Affordable Resources [37.265708531464746]
大規模言語モデル(LLM)は、さまざまな自然言語処理タスクに顕著な影響を与えている。
これらのトレーニング済みモデルを下流データセットに微調整することで、さらなる大幅なパフォーマンス向上が達成されるが、このプロセスは異常なリソース要求のために困難だった。
性能を損なうことなくメモリ効率のよい微調整を可能にするLLMのための新しい量子フルパラメータチューニングフレームワークQFTを提案する。
論文 参考訳(メタデータ) (2023-10-11T02:47:40Z) - Full Parameter Fine-tuning for Large Language Models with Limited Resources [55.794732214059806]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、トレーニングには大量のGPUリソースを必要としている。
我々は,メモリ使用量を削減するために,勾配とパラメータの更新を1ステップで融合する新しい計算,LOMO(LOw-Memory Optimization)を提案する。
論文 参考訳(メタデータ) (2023-06-16T11:37:15Z) - Fine-Tuning Language Models with Just Forward Passes [92.04219196752007]
微調整言語モデル(LM)は、様々な下流タスクで成功したが、LMのサイズが大きくなるにつれて、バックプロパゲーションは大量のメモリを必要とする。
本稿では,メモリ効率の高いゼロソーダ(MeZO)を提案する。
論文 参考訳(メタデータ) (2023-05-27T02:28:10Z) - Scaling & Shifting Your Features: A New Baseline for Efficient Model
Tuning [126.84770886628833]
既存の微調整法は、事前訓練されたモデルの全てのパラメータ(フル微調整)をチューニングするか、最後の線形層(線形プローブ)のみをチューニングする。
そこで本研究では,SSFと呼ばれるパラメータ効率の高いファインタニング手法を提案する。
論文 参考訳(メタデータ) (2022-10-17T08:14:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。