論文の概要: Scaling Sparse Fine-Tuning to Large Language Models
- arxiv url: http://arxiv.org/abs/2401.16405v1
- Date: Mon, 29 Jan 2024 18:43:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-30 13:28:03.956406
- Title: Scaling Sparse Fine-Tuning to Large Language Models
- Title(参考訳): スパースファインチューニングの大規模言語モデルへの拡張
- Authors: Alan Ansell and Ivan Vuli\'c and Hannah Sterz and Anna Korhonen and
Edoardo M. Ponti
- Abstract要約: 大きな言語モデル(LLM)は、パラメータの数が多いため、完全な微調整が難しい。
パラメータ効率の高いスパースファインチューニング(SFT)手法のファミリーは、性能面で有望であることが証明されている。
LLaMA 2 7B や 13B のような最先端の LLM にスパース微調整を拡大する。
- 参考スコア(独自算出の注目度): 67.59697720719672
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) are difficult to fully fine-tune (e.g., with
instructions or human feedback) due to their sheer number of parameters. A
family of parameter-efficient sparse fine-tuning (SFT) methods have proven
promising in terms of performance but their memory requirements increase
proportionally to the size of the LLMs. In this work, we scale sparse
fine-tuning to state-of-the-art LLMs like LLaMA 2 7B and 13B. At any given
time, for a desired density level, we maintain an array of parameter indices
and the deltas of these parameters relative to their pretrained values. We
iterate among: (a) updating the active deltas, (b) pruning indices (based on
the change of magnitude of their deltas) and (c) regrowth of indices. For
regrowth, we explore two criteria based on either the accumulated gradients of
a few candidate parameters or their approximate momenta estimated using the
efficient SM3 optimizer. We experiment with instruction-tuning of LLMs on
standard dataset mixtures, finding that SFT is often superior to popular
parameter-efficient fine-tuning methods like LoRA (low-rank adaptation) in
terms of performance and comparable in terms of run time. We additionally show
that SFT is compatible with both quantization and efficient optimizers, to
facilitate scaling to ever-larger model sizes. We release the code for SFT at
https://github.com/AlanAnsell/peft and for the instruction-tuning experiments
at https://github.com/ducdauge/sft-llm.
- Abstract(参考訳): 大きな言語モデル(LLM)は、パラメータの数が多いため、完全な微調整(命令や人間のフィードバックなど)が難しい。
パラメータ効率の高いスパースファインチューニング(SFT)手法のファミリーは性能面で有望であることが証明されているが、そのメモリ要求はLLMのサイズに比例して増加する。
本研究では, LLaMA 2 7B や 13B などの最先端 LLM に細粒度調整を施す。
任意の時間において、所望の密度レベルでは、パラメータのインデックスとこれらのパラメータのデルタの配列を事前訓練された値に対して維持する。
私たちはこう繰り返します。
(a)アクティブデルタの更新。
(b)刈り込み指数(そのデルタの大きさの変化に基づく)と
(c)指標の再成長
再成長のために,数個の候補パラメータの累積勾配と,効率的なsm3オプティマイザを用いて推定した近似モーメントの2つの基準を検討した。
標準データセット混合物上でのLCMの命令チューニングを実験した結果、SFTはLoRA(低ランク適応)のようなパラメータ効率のよい微調整法よりも性能が優れ、実行時間も同等であることが判明した。
さらに、SFTは量子化と効率的なオプティマイザの両方と互換性があることを示す。
我々は https://github.com/AlanAnsell/peft で SFT のコードをリリースした。
関連論文リスト
- LoLDU: Low-Rank Adaptation via Lower-Diag-Upper Decomposition for Parameter-Efficient Fine-Tuning [4.616740762629019]
Low-Rank Adaptation (LoRA) は、大規模な更新パラメータをフル微調整で処理する問題に対処しようと試みている。
トレーニング可能なパラメータを2600倍に削減する,PEFT(Suboptimal-Efficient Fine-Tuning)アプローチであるLoLDUを提案する。
論文 参考訳(メタデータ) (2024-10-17T14:51:17Z) - Simultaneous Computation and Memory Efficient Zeroth-Order Optimizer for Fine-Tuning Large Language Models [33.911521719528686]
微調整は、大きな言語モデルを下流タスクに適応させるには強力だが、多くの場合、大きなメモリ使用量をもたらす。
有望なアプローチはゼロ階勾配 (ZO) を使うことであり、これは第一階勾配 (FO) を置き換えると見積もられている。
本稿では,レイヤワイドスパース計算とメモリ効率の高いZO,LeZOを提案する。
論文 参考訳(メタデータ) (2024-10-13T12:47:37Z) - Zeroth-Order Fine-Tuning of LLMs in Random Subspaces [66.27334633749734]
言語モデルのサイズが大きくなるにつれて、バックプロパゲーションに対するメモリ要求が増加する。
Zeroth-order (ZOZO) 最適化手法はメモリ効率の代替手段を提供する。
本稿では,SubZeroがファインチューニングを強化し,通常のZOZO手法と比較して高速な結果が得られることを示す。
論文 参考訳(メタデータ) (2024-10-11T17:01:43Z) - LoRTA: Low Rank Tensor Adaptation of Large Language Models [70.32218116940393]
Low Rank Adaptation (LoRA) は、PEFT (Efficient Fine Tuning) 法として人気がある。
よりコンパクトで柔軟な表現を可能にする高階Candecomp/Parafac(CP)分解を提案する。
本手法は,比較性能を維持しつつパラメータ数を削減できる。
論文 参考訳(メタデータ) (2024-10-05T06:59:50Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。
我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。
A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - CLAQ: Pushing the Limits of Low-Bit Post-Training Quantization for LLMs [44.03692512352445]
カラムレベル適応量量子化(CLAQ)は、LLM(Large Language Models)量子化のための新しく効果的なフレームワークである。
本稿では,LLM量子化のための3種類の適応戦略を導入することで,新しい効果的なCLAQフレームワークを提案する。
LLaMA-1, LLaMA-2, Yi など,様々な主要なオープンソース LLM に関する実験により, 提案手法が様々なビット設定における最先端結果を達成することを示す。
論文 参考訳(メタデータ) (2024-05-27T14:49:39Z) - Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment [56.44025052765861]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算のボトルネックを生み出している。
そこで本研究では,高性能LLMの高精度かつ疎結合な基本バージョンを作成するための新しいアプローチを提案する。
スパース量子化LLaMAの最大8.6倍のCPU上での総高速化を示す。
論文 参考訳(メタデータ) (2024-05-06T16:03:32Z) - AdaLomo: Low-memory Optimization with Adaptive Learning Rate [59.64965955386855]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。
AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文 参考訳(メタデータ) (2023-10-16T09:04:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。