論文の概要: Scaling Sparse Fine-Tuning to Large Language Models
- arxiv url: http://arxiv.org/abs/2401.16405v2
- Date: Fri, 2 Feb 2024 14:53:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-05 18:43:51.437568
- Title: Scaling Sparse Fine-Tuning to Large Language Models
- Title(参考訳): スパースファインチューニングの大規模言語モデルへの拡張
- Authors: Alan Ansell and Ivan Vuli\'c and Hannah Sterz and Anna Korhonen and
Edoardo M. Ponti
- Abstract要約: 大きな言語モデル(LLM)は、パラメータの数が多いため、完全な微調整が難しい。
本研究では,パラメータの配列とパラメータのデルタを事前学習した値に対して保持する新しいスパース微調整法SpIELを提案する。
提案手法は,LoRAのようなパラメータ効率の高い微調整法よりも性能が優れ,実行時間も同等であることを示す。
- 参考スコア(独自算出の注目度): 67.59697720719672
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) are difficult to fully fine-tune (e.g., with
instructions or human feedback) due to their sheer number of parameters. A
family of parameter-efficient sparse fine-tuning methods have proven promising
in terms of performance but their memory requirements increase proportionally
to the size of the LLMs. In this work, we scale sparse fine-tuning to
state-of-the-art LLMs like LLaMA 2 7B and 13B. We propose SpIEL, a novel sparse
fine-tuning method which, for a desired density level, maintains an array of
parameter indices and the deltas of these parameters relative to their
pretrained values. It iterates over: (a) updating the active deltas, (b)
pruning indices (based on the change of magnitude of their deltas) and (c)
regrowth of indices. For regrowth, we explore two criteria based on either the
accumulated gradients of a few candidate parameters or their approximate
momenta estimated using the efficient SM3 optimizer. We experiment with
instruction-tuning of LLMs on standard dataset mixtures, finding that SpIEL is
often superior to popular parameter-efficient fine-tuning methods like LoRA
(low-rank adaptation) in terms of performance and comparable in terms of run
time. We additionally show that SpIEL is compatible with both quantization and
efficient optimizers, to facilitate scaling to ever-larger model sizes. We
release the code for SpIEL at https://github.com/AlanAnsell/peft and for the
instruction-tuning experiments at https://github.com/ducdauge/sft-llm.
- Abstract(参考訳): 大きな言語モデル(LLM)は、パラメータの数が多いため、完全な微調整(命令や人間のフィードバックなど)が難しい。
パラメータ効率の高いスパースファインチューニング手法のファミリーは性能面で有望であることが証明されているが、そのメモリ要求はLLMのサイズに比例して増加する。
本研究では, LLaMA 2 7B や 13B などの最先端 LLM に細粒度調整を施す。
本研究では,任意の密度レベルに対して,パラメータインデックスの配列とそれらのパラメータの差分を予め学習した値に対して保持する,新しいスパース微調整法であるspielを提案する。
繰り返します。
(a)アクティブデルタの更新。
(b)刈り込み指数(そのデルタの大きさの変化に基づく)と
(c)指標の再成長
再成長のために,数個の候補パラメータの累積勾配と,効率的なsm3オプティマイザを用いて推定した近似モーメントの2つの基準を検討した。
標準データセット混合物上でのLCMの命令チューニングを実験した結果、SpIELはLoRA(低ランク適応)のようなパラメータ効率のよい微調整法よりも性能が良く、実行時間も同等であることがわかった。
さらに,より大規模なモデルサイズへのスケーリングを容易にするため,SpIELは量子化と効率的なオプティマイザの両方と互換性があることも示す。
https://github.com/AlanAnsell/peftでSpIELのコードをリリースし、https://github.com/ducdauge/sft-llm.comで命令チューニングの実験を行います。
関連論文リスト
- LoLDU: Low-Rank Adaptation via Lower-Diag-Upper Decomposition for Parameter-Efficient Fine-Tuning [4.616740762629019]
Low-Rank Adaptation (LoRA) は、大規模な更新パラメータをフル微調整で処理する問題に対処しようと試みている。
トレーニング可能なパラメータを2600倍に削減する,PEFT(Suboptimal-Efficient Fine-Tuning)アプローチであるLoLDUを提案する。
論文 参考訳(メタデータ) (2024-10-17T14:51:17Z) - Simultaneous Computation and Memory Efficient Zeroth-Order Optimizer for Fine-Tuning Large Language Models [33.911521719528686]
微調整は、大きな言語モデルを下流タスクに適応させるには強力だが、多くの場合、大きなメモリ使用量をもたらす。
有望なアプローチはゼロ階勾配 (ZO) を使うことであり、これは第一階勾配 (FO) を置き換えると見積もられている。
本稿では,レイヤワイドスパース計算とメモリ効率の高いZO,LeZOを提案する。
論文 参考訳(メタデータ) (2024-10-13T12:47:37Z) - Zeroth-Order Fine-Tuning of LLMs in Random Subspaces [66.27334633749734]
言語モデルのサイズが大きくなるにつれて、バックプロパゲーションに対するメモリ要求が増加する。
Zeroth-order (ZOZO) 最適化手法はメモリ効率の代替手段を提供する。
本稿では,SubZeroがファインチューニングを強化し,通常のZOZO手法と比較して高速な結果が得られることを示す。
論文 参考訳(メタデータ) (2024-10-11T17:01:43Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。
我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。
A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - CLAQ: Pushing the Limits of Low-Bit Post-Training Quantization for LLMs [44.03692512352445]
カラムレベル適応量量子化(CLAQ)は、LLM(Large Language Models)量子化のための新しく効果的なフレームワークである。
本稿では,LLM量子化のための3種類の適応戦略を導入することで,新しい効果的なCLAQフレームワークを提案する。
LLaMA-1, LLaMA-2, Yi など,様々な主要なオープンソース LLM に関する実験により, 提案手法が様々なビット設定における最先端結果を達成することを示す。
論文 参考訳(メタデータ) (2024-05-27T14:49:39Z) - Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment [56.44025052765861]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算のボトルネックを生み出している。
そこで本研究では,高性能LLMの高精度かつ疎結合な基本バージョンを作成するための新しいアプローチを提案する。
スパース量子化LLaMAの最大8.6倍のCPU上での総高速化を示す。
論文 参考訳(メタデータ) (2024-05-06T16:03:32Z) - AdaLomo: Low-memory Optimization with Adaptive Learning Rate [59.64965955386855]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。
AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文 参考訳(メタデータ) (2023-10-16T09:04:28Z) - Fine-Tuning Language Models with Just Forward Passes [92.04219196752007]
微調整言語モデル(LM)は、様々な下流タスクで成功したが、LMのサイズが大きくなるにつれて、バックプロパゲーションは大量のメモリを必要とする。
本稿では,メモリ効率の高いゼロソーダ(MeZO)を提案する。
論文 参考訳(メタデータ) (2023-05-27T02:28:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。