Fugu-MT 論文翻訳(概要): Scaling Sparse Fine-Tuning to Large Language Models

論文の概要: Scaling Sparse Fine-Tuning to Large Language Models

arxiv url: http://arxiv.org/abs/2401.16405v2
Date: Fri, 2 Feb 2024 14:53:14 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-05 18:43:51.437568
Title: Scaling Sparse Fine-Tuning to Large Language Models
Title（参考訳）: スパースファインチューニングの大規模言語モデルへの拡張
Authors: Alan Ansell and Ivan Vuli\'c and Hannah Sterz and Anna Korhonen and Edoardo M. Ponti
Abstract要約: 大きな言語モデル(LLM)は、パラメータの数が多いため、完全な微調整が難しい。本研究では,パラメータの配列とパラメータのデルタを事前学習した値に対して保持する新しいスパース微調整法SpIELを提案する。提案手法は,LoRAのようなパラメータ効率の高い微調整法よりも性能が優れ,実行時間も同等であることを示す。
参考スコア（独自算出の注目度）: 67.59697720719672
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs) are difficult to fully fine-tune (e.g., with instructions or human feedback) due to their sheer number of parameters. A family of parameter-efficient sparse fine-tuning methods have proven promising in terms of performance but their memory requirements increase proportionally to the size of the LLMs. In this work, we scale sparse fine-tuning to state-of-the-art LLMs like LLaMA 2 7B and 13B. We propose SpIEL, a novel sparse fine-tuning method which, for a desired density level, maintains an array of parameter indices and the deltas of these parameters relative to their pretrained values. It iterates over: (a) updating the active deltas, (b) pruning indices (based on the change of magnitude of their deltas) and (c) regrowth of indices. For regrowth, we explore two criteria based on either the accumulated gradients of a few candidate parameters or their approximate momenta estimated using the efficient SM3 optimizer. We experiment with instruction-tuning of LLMs on standard dataset mixtures, finding that SpIEL is often superior to popular parameter-efficient fine-tuning methods like LoRA (low-rank adaptation) in terms of performance and comparable in terms of run time. We additionally show that SpIEL is compatible with both quantization and efficient optimizers, to facilitate scaling to ever-larger model sizes. We release the code for SpIEL at https://github.com/AlanAnsell/peft and for the instruction-tuning experiments at https://github.com/ducdauge/sft-llm.
Abstract（参考訳）: 大きな言語モデル(LLM)は、パラメータの数が多いため、完全な微調整(命令や人間のフィードバックなど)が難しい。パラメータ効率の高いスパースファインチューニング手法のファミリーは性能面で有望であることが証明されているが、そのメモリ要求はLLMのサイズに比例して増加する。本研究では, LLaMA 2 7B や 13B などの最先端 LLM に細粒度調整を施す。本研究では,任意の密度レベルに対して,パラメータインデックスの配列とそれらのパラメータの差分を予め学習した値に対して保持する,新しいスパース微調整法であるspielを提案する。繰り返します。 (a)アクティブデルタの更新。 (b)刈り込み指数(そのデルタの大きさの変化に基づく)と (c)指標の再成長再成長のために,数個の候補パラメータの累積勾配と,効率的なsm3オプティマイザを用いて推定した近似モーメントの2つの基準を検討した。標準データセット混合物上でのLCMの命令チューニングを実験した結果、SpIELはLoRA(低ランク適応)のようなパラメータ効率のよい微調整法よりも性能が良く、実行時間も同等であることがわかった。さらに,より大規模なモデルサイズへのスケーリングを容易にするため,SpIELは量子化と効率的なオプティマイザの両方と互換性があることも示す。 https://github.com/AlanAnsell/peftでSpIELのコードをリリースし、https://github.com/ducdauge/sft-llm.comで命令チューニングの実験を行います。

関連論文リスト

A Minimalist Optimizer Design for LLM Pretraining [31.996047271119156]
大規模言語モデルのトレーニングは通常、Adamのような適応型に依存します。 GaLore FiraやAPOLLOといった最近の研究は、メモリ消費を減らすために、状態圧縮型を提案した。本研究では,LLMプレトレーニングにおける最先端性能を維持するために本当に必要となる,最小限の状態量について検討する。
論文参考訳（メタデータ） (2025-06-20T00:10:35Z)
A Sensitivity-Driven Expert Allocation Method in LoRA-MoE for Efficient Fine-Tuning [0.6906005491572401]
パラメータ感度のLoRA-SMoEに基づいて専門家数を割当てる手法を提案する。実験の結果,LoRA-SMoE手法はトレーニング可能なパラメータの数を減らしながらモデル性能を向上させることができることがわかった。
論文参考訳（メタデータ） (2025-05-06T13:22:46Z)
Parameter-Efficient Fine-Tuning of Large Language Models via Deconvolution in Subspace [3.7049613588433497]
様々な下流タスクのための微調整大型言語モデル(LLM)が新しいパラダイムとなった。 Low-Rank Adaptation (LoRA)はそのパラメータ効率でよく知られている。我々は新しい方法を提案する。効率の良い分解はDCFTと呼ばれ、部分空間のデコンボリューションを介して行われる。
論文参考訳（メタデータ） (2025-03-03T11:15:50Z)
LoLDU: Low-Rank Adaptation via Lower-Diag-Upper Decomposition for Parameter-Efficient Fine-Tuning [4.616740762629019]
Low-Rank Adaptation (LoRA) は、大規模な更新パラメータをフル微調整で処理する問題に対処しようと試みている。トレーニング可能なパラメータを2600倍に削減する,PEFT(Suboptimal-Efficient Fine-Tuning)アプローチであるLoLDUを提案する。
論文参考訳（メタデータ） (2024-10-17T14:51:17Z)
Simultaneous Computation and Memory Efficient Zeroth-Order Optimizer for Fine-Tuning Large Language Models [33.911521719528686]
微調整は、大きな言語モデルを下流タスクに適応させるには強力だが、多くの場合、大きなメモリ使用量をもたらす。有望なアプローチはゼロ階勾配 (ZO) を使うことであり、これは第一階勾配 (FO) を置き換えると見積もられている。本稿では,レイヤワイドスパース計算とメモリ効率の高いZO,LeZOを提案する。
論文参考訳（メタデータ） (2024-10-13T12:47:37Z)
Zeroth-Order Fine-Tuning of LLMs in Random Subspaces [66.27334633749734]
言語モデルのサイズが大きくなるにつれて、バックプロパゲーションに対するメモリ要求が増加する。 Zeroth-order (ZOZO) 最適化手法はメモリ効率の代替手段を提供する。本稿では,SubZeroがファインチューニングを強化し,通常のZOZO手法と比較して高速な結果が得られることを示す。
論文参考訳（メタデータ） (2024-10-11T17:01:43Z)
LoRTA: Low Rank Tensor Adaptation of Large Language Models [70.32218116940393]
Low Rank Adaptation (LoRA) は、PEFT (Efficient Fine Tuning) 法として人気がある。よりコンパクトで柔軟な表現を可能にする高階Candecomp/Parafac(CP)分解を提案する。本手法は,比較性能を維持しつつパラメータ数を削減できる。
論文参考訳（メタデータ） (2024-10-05T06:59:50Z)
Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。 A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文参考訳（メタデータ） (2024-06-15T09:31:03Z)
CLAQ: Pushing the Limits of Low-Bit Post-Training Quantization for LLMs [44.03692512352445]
カラムレベル適応量量子化(CLAQ)は、LLM(Large Language Models)量子化のための新しく効果的なフレームワークである。本稿では,LLM量子化のための3種類の適応戦略を導入することで,新しい効果的なCLAQフレームワークを提案する。 LLaMA-1, LLaMA-2, Yi など,様々な主要なオープンソース LLM に関する実験により, 提案手法が様々なビット設定における最先端結果を達成することを示す。
論文参考訳（メタデータ） (2024-05-27T14:49:39Z)
Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment [56.44025052765861]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算のボトルネックを生み出している。そこで本研究では,高性能LLMの高精度かつ疎結合な基本バージョンを作成するための新しいアプローチを提案する。スパース量子化LLaMAの最大8.6倍のCPU上での総高速化を示す。
論文参考訳（メタデータ） (2024-05-06T16:03:32Z)
AdaLomo: Low-memory Optimization with Adaptive Learning Rate [59.64965955386855]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。 AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文参考訳（メタデータ） (2023-10-16T09:04:28Z)
Fine-Tuning Language Models with Just Forward Passes [92.04219196752007]
微調整言語モデル(LM)は、様々な下流タスクで成功したが、LMのサイズが大きくなるにつれて、バックプロパゲーションは大量のメモリを必要とする。本稿では,メモリ効率の高いゼロソーダ(MeZO)を提案する。
論文参考訳（メタデータ） (2023-05-27T02:28:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。