論文の概要: Scaling Sparse Fine-Tuning to Large Language Models
- arxiv url: http://arxiv.org/abs/2401.16405v2
- Date: Fri, 2 Feb 2024 14:53:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-05 18:43:51.437568
- Title: Scaling Sparse Fine-Tuning to Large Language Models
- Title(参考訳): スパースファインチューニングの大規模言語モデルへの拡張
- Authors: Alan Ansell and Ivan Vuli\'c and Hannah Sterz and Anna Korhonen and
Edoardo M. Ponti
- Abstract要約: 大きな言語モデル(LLM)は、パラメータの数が多いため、完全な微調整が難しい。
本研究では,パラメータの配列とパラメータのデルタを事前学習した値に対して保持する新しいスパース微調整法SpIELを提案する。
提案手法は,LoRAのようなパラメータ効率の高い微調整法よりも性能が優れ,実行時間も同等であることを示す。
- 参考スコア(独自算出の注目度): 67.59697720719672
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) are difficult to fully fine-tune (e.g., with
instructions or human feedback) due to their sheer number of parameters. A
family of parameter-efficient sparse fine-tuning methods have proven promising
in terms of performance but their memory requirements increase proportionally
to the size of the LLMs. In this work, we scale sparse fine-tuning to
state-of-the-art LLMs like LLaMA 2 7B and 13B. We propose SpIEL, a novel sparse
fine-tuning method which, for a desired density level, maintains an array of
parameter indices and the deltas of these parameters relative to their
pretrained values. It iterates over: (a) updating the active deltas, (b)
pruning indices (based on the change of magnitude of their deltas) and (c)
regrowth of indices. For regrowth, we explore two criteria based on either the
accumulated gradients of a few candidate parameters or their approximate
momenta estimated using the efficient SM3 optimizer. We experiment with
instruction-tuning of LLMs on standard dataset mixtures, finding that SpIEL is
often superior to popular parameter-efficient fine-tuning methods like LoRA
(low-rank adaptation) in terms of performance and comparable in terms of run
time. We additionally show that SpIEL is compatible with both quantization and
efficient optimizers, to facilitate scaling to ever-larger model sizes. We
release the code for SpIEL at https://github.com/AlanAnsell/peft and for the
instruction-tuning experiments at https://github.com/ducdauge/sft-llm.
- Abstract(参考訳): 大きな言語モデル(LLM)は、パラメータの数が多いため、完全な微調整(命令や人間のフィードバックなど)が難しい。
パラメータ効率の高いスパースファインチューニング手法のファミリーは性能面で有望であることが証明されているが、そのメモリ要求はLLMのサイズに比例して増加する。
本研究では, LLaMA 2 7B や 13B などの最先端 LLM に細粒度調整を施す。
本研究では,任意の密度レベルに対して,パラメータインデックスの配列とそれらのパラメータの差分を予め学習した値に対して保持する,新しいスパース微調整法であるspielを提案する。
繰り返します。
(a)アクティブデルタの更新。
(b)刈り込み指数(そのデルタの大きさの変化に基づく)と
(c)指標の再成長
再成長のために,数個の候補パラメータの累積勾配と,効率的なsm3オプティマイザを用いて推定した近似モーメントの2つの基準を検討した。
標準データセット混合物上でのLCMの命令チューニングを実験した結果、SpIELはLoRA(低ランク適応)のようなパラメータ効率のよい微調整法よりも性能が良く、実行時間も同等であることがわかった。
さらに,より大規模なモデルサイズへのスケーリングを容易にするため,SpIELは量子化と効率的なオプティマイザの両方と互換性があることも示す。
https://github.com/AlanAnsell/peftでSpIELのコードをリリースし、https://github.com/ducdauge/sft-llm.comで命令チューニングの実験を行います。
関連論文リスト
- When Scaling Meets LLM Finetuning: The Effect of Data, Model and
Finetuning Method [56.571951345048355]
大規模言語モデル(LLM)は、ダウンストリームアプリケーションにその機能をアンロックするためにファインチューニングを採用することが多い。
LLMモデルのサイズ、事前学習データサイズ、新しい微調整パラメータサイズ、微調整データサイズなどの異なるスケーリング要因が微調整性能に与える影響について検討した。
論文 参考訳(メタデータ) (2024-02-27T04:18:49Z) - Improving generalization in large language models by learning prefix
subspaces [5.911540700785975]
本稿では、希少なデータ構造における大規模言語モデル(LLM)の微調整に焦点を当てる("few-shot"学習環境としても知られる)。
ニューラルネットワーク部分空間に基づくLLMの一般化能力を向上させる手法を提案する。
論文 参考訳(メタデータ) (2023-10-24T12:44:09Z) - AdaLomo: Low-memory Optimization with Adaptive Learning Rate [63.99489591661645]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。
AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文 参考訳(メタデータ) (2023-10-16T09:04:28Z) - NOLA: Networks as Linear Combination of Low Rank Random Basis [24.418919441014985]
我々は、ロラに存在するランク1の下界を克服するNOLAを導入する。
自然言語およびコンピュータビジョンタスクにおける GPT-2 と ViT を用いた適応結果を提案する。
論文 参考訳(メタデータ) (2023-10-04T03:30:24Z) - Fine-Tuning Language Models with Just Forward Passes [92.04219196752007]
微調整言語モデル(LM)は、様々な下流タスクで成功したが、LMのサイズが大きくなるにつれて、バックプロパゲーションは大量のメモリを必要とする。
本稿では,メモリ効率の高いゼロソーダ(MeZO)を提案する。
論文 参考訳(メタデータ) (2023-05-27T02:28:10Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of
Language Model [92.55145016562867]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - Optimizing the optimizer for data driven deep neural networks and
physics informed neural networks [2.54325834280441]
ニューラルネットワークに適合するモデルの品質を,小~中程度のパラメータで決定する手法について検討する。
LMアルゴリズムは機械の精度に迅速に収束でき、他のアルゴリズムよりも大きな利点があることがわかった。
論文 参考訳(メタデータ) (2022-05-16T02:42:22Z) - CPM-2: Large-scale Cost-effective Pre-trained Language Models [71.59893315671997]
本稿では, PLM を用いた事前学習, 微調整, 推論の効率性問題に対処するための費用対効果技術について述べる。
我々は,既存のPLMをスクラッチからトレーニングする代わりに活用することで,事前学習プロセスの促進を目的とした知識継承を導入する。
計算資源が限られている大規模PLMに対して,新しい推論ツールキット,すなわちInfMoEを実装した。
論文 参考訳(メタデータ) (2021-06-20T15:43:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。