論文の概要: Scaling Sparse Fine-Tuning to Large Language Models
- arxiv url: http://arxiv.org/abs/2401.16405v1
- Date: Mon, 29 Jan 2024 18:43:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-30 13:28:03.956406
- Title: Scaling Sparse Fine-Tuning to Large Language Models
- Title(参考訳): スパースファインチューニングの大規模言語モデルへの拡張
- Authors: Alan Ansell and Ivan Vuli\'c and Hannah Sterz and Anna Korhonen and
Edoardo M. Ponti
- Abstract要約: 大きな言語モデル(LLM)は、パラメータの数が多いため、完全な微調整が難しい。
パラメータ効率の高いスパースファインチューニング(SFT)手法のファミリーは、性能面で有望であることが証明されている。
LLaMA 2 7B や 13B のような最先端の LLM にスパース微調整を拡大する。
- 参考スコア(独自算出の注目度): 67.59697720719672
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) are difficult to fully fine-tune (e.g., with
instructions or human feedback) due to their sheer number of parameters. A
family of parameter-efficient sparse fine-tuning (SFT) methods have proven
promising in terms of performance but their memory requirements increase
proportionally to the size of the LLMs. In this work, we scale sparse
fine-tuning to state-of-the-art LLMs like LLaMA 2 7B and 13B. At any given
time, for a desired density level, we maintain an array of parameter indices
and the deltas of these parameters relative to their pretrained values. We
iterate among: (a) updating the active deltas, (b) pruning indices (based on
the change of magnitude of their deltas) and (c) regrowth of indices. For
regrowth, we explore two criteria based on either the accumulated gradients of
a few candidate parameters or their approximate momenta estimated using the
efficient SM3 optimizer. We experiment with instruction-tuning of LLMs on
standard dataset mixtures, finding that SFT is often superior to popular
parameter-efficient fine-tuning methods like LoRA (low-rank adaptation) in
terms of performance and comparable in terms of run time. We additionally show
that SFT is compatible with both quantization and efficient optimizers, to
facilitate scaling to ever-larger model sizes. We release the code for SFT at
https://github.com/AlanAnsell/peft and for the instruction-tuning experiments
at https://github.com/ducdauge/sft-llm.
- Abstract(参考訳): 大きな言語モデル(LLM)は、パラメータの数が多いため、完全な微調整(命令や人間のフィードバックなど)が難しい。
パラメータ効率の高いスパースファインチューニング(SFT)手法のファミリーは性能面で有望であることが証明されているが、そのメモリ要求はLLMのサイズに比例して増加する。
本研究では, LLaMA 2 7B や 13B などの最先端 LLM に細粒度調整を施す。
任意の時間において、所望の密度レベルでは、パラメータのインデックスとこれらのパラメータのデルタの配列を事前訓練された値に対して維持する。
私たちはこう繰り返します。
(a)アクティブデルタの更新。
(b)刈り込み指数(そのデルタの大きさの変化に基づく)と
(c)指標の再成長
再成長のために,数個の候補パラメータの累積勾配と,効率的なsm3オプティマイザを用いて推定した近似モーメントの2つの基準を検討した。
標準データセット混合物上でのLCMの命令チューニングを実験した結果、SFTはLoRA(低ランク適応)のようなパラメータ効率のよい微調整法よりも性能が優れ、実行時間も同等であることが判明した。
さらに、SFTは量子化と効率的なオプティマイザの両方と互換性があることを示す。
我々は https://github.com/AlanAnsell/peft で SFT のコードをリリースした。
関連論文リスト
- Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment [56.44025052765861]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算のボトルネックを生み出している。
そこで本研究では,高性能LLMの高精度かつ疎結合な基本バージョンを作成するための新しいアプローチを提案する。
スパース量子化LLaMAの最大8.6倍のCPU上での総高速化を示す。
論文 参考訳(メタデータ) (2024-05-06T16:03:32Z) - When Scaling Meets LLM Finetuning: The Effect of Data, Model and
Finetuning Method [56.571951345048355]
大規模言語モデル(LLM)は、ダウンストリームアプリケーションにその機能をアンロックするためにファインチューニングを採用することが多い。
LLMモデルのサイズ、事前学習データサイズ、新しい微調整パラメータサイズ、微調整データサイズなどの異なるスケーリング要因が微調整性能に与える影響について検討した。
論文 参考訳(メタデータ) (2024-02-27T04:18:49Z) - Improving generalization in large language models by learning prefix
subspaces [5.911540700785975]
本稿では、希少なデータ構造における大規模言語モデル(LLM)の微調整に焦点を当てる("few-shot"学習環境としても知られる)。
ニューラルネットワーク部分空間に基づくLLMの一般化能力を向上させる手法を提案する。
論文 参考訳(メタデータ) (2023-10-24T12:44:09Z) - AdaLomo: Low-memory Optimization with Adaptive Learning Rate [63.99489591661645]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。
AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文 参考訳(メタデータ) (2023-10-16T09:04:28Z) - Fine-Tuning Language Models with Just Forward Passes [92.04219196752007]
微調整言語モデル(LM)は、様々な下流タスクで成功したが、LMのサイズが大きくなるにつれて、バックプロパゲーションは大量のメモリを必要とする。
本稿では,メモリ効率の高いゼロソーダ(MeZO)を提案する。
論文 参考訳(メタデータ) (2023-05-27T02:28:10Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of
Language Model [92.55145016562867]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - Optimizing the optimizer for data driven deep neural networks and
physics informed neural networks [2.54325834280441]
ニューラルネットワークに適合するモデルの品質を,小~中程度のパラメータで決定する手法について検討する。
LMアルゴリズムは機械の精度に迅速に収束でき、他のアルゴリズムよりも大きな利点があることがわかった。
論文 参考訳(メタデータ) (2022-05-16T02:42:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。