論文の概要: Sparse Gradient Compression for Fine-Tuning Large Language Models
- arxiv url: http://arxiv.org/abs/2502.00311v1
- Date: Sat, 01 Feb 2025 04:18:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 14:58:15.867062
- Title: Sparse Gradient Compression for Fine-Tuning Large Language Models
- Title(参考訳): 微調整大言語モデルに対するスパースグラディエント圧縮
- Authors: David H. Yang, Mohammad Mohammadi Amiri, Tejaswini Pedapati, Subhajit Chaudhury, Pin-Yu Chen,
- Abstract要約: ダウンストリームタスクのための微調整された大型言語モデル(LLM)は、広く利用されていることと、オープンソースモデルの利用が増加しているために、ますます重要になっている。
微調整に伴う高メモリコストは、特にモデルのサイズが大きくなるにつれて大きな課題である。
これらの制約に対処するためにスパース圧縮勾配(SGC)を提案する。
- 参考スコア(独自算出の注目度): 58.44973963468691
- License:
- Abstract: Fine-tuning large language models (LLMs) for downstream tasks has become increasingly crucial due to their widespread use and the growing availability of open-source models. However, the high memory costs associated with fine-tuning remain a significant challenge, especially as models increase in size. To address this, parameter efficient fine-tuning (PEFT) methods have been proposed to minimize the number of parameters required for fine-tuning LLMs. However, these approaches often tie the number of optimizer states to dimensions of model parameters, limiting flexibility and control during fine-tuning. In this paper, we propose sparse gradient compression (SGC), a training regime designed to address these limitations. Our approach leverages inherent sparsity in gradients to compress optimizer states by projecting them onto a low-dimensonal subspace, with dimensionality independent of the original model's parameters. By enabling optimizer state updates in an arbitrary low-dimensional subspace, SGC offers a flexible tradeoff between memory efficiency and performance. We demonstrate through experiments that SGC can decrease memory usage in optimizer states more effectively than existing PEFT methods. Furthermore, by fine-tuning LLMs on various downstream tasks, we show that SGC can deliver superior performance while substantially lowering optimizer state memory requirements, particularly in both data-limited and memory-limited settings.
- Abstract(参考訳): ダウンストリームタスクのための微調整された大型言語モデル(LLM)がますます重要になっている。
しかし、特にモデルのサイズが大きくなるにつれて、微調整に伴う高メモリコストが大きな課題となっている。
これを解決するために,パラメータ効率のよい細調整法 (PEFT) が提案されている。
しかしながら、これらのアプローチはモデルパラメータの次元にオプティマイザ状態の数を結び付け、微調整時の柔軟性と制御を制限する。
本稿では,これらの制約に対処する訓練システムであるスパース勾配圧縮(SGC)を提案する。
我々のアプローチは勾配の固有空間を利用して最適化状態を低次元部分空間に投影することで圧縮し、次元は元のモデルのパラメータに依存しない。
任意の低次元部分空間におけるオプティマイザ状態の更新を有効にすることで、SGCはメモリ効率と性能の間の柔軟なトレードオフを提供する。
我々は、SGCが既存のPEFT法よりも効率的に最適化状態のメモリ使用量を削減できることを示す。
さらに、各種下流タスクのLLMを微調整することにより、SGCは、特にデータ制限とメモリ制限の両方の設定において、最適化されたメモリ要求を大幅に低減しつつ、優れた性能を提供できることを示す。
関連論文リスト
- A Memory Efficient Randomized Subspace Optimization Method for Training Large Language Models [22.725326215887435]
本稿では,事前学習および微調整を行う大規模言語モデルのためのランダム化部分空間最適化フレームワークを提案する。
提案手法は,高次元学習問題を一連の低次元サブプロブレムに分解する。
この構造的次元減少により,アクティベーションと状態の両方のメモリ使用量を同時に削減できる。
論文 参考訳(メタデータ) (2025-02-11T03:32:10Z) - ULPT: Prompt Tuning with Ultra-Low-Dimensional Optimization [26.16200284965289]
大規模言語モデルは最先端のパフォーマンスを実現するが、そのサイズのため微調整にはコストがかかる。
低次元空間におけるプロンプトを最適化する超低次元プロンプトチューニング(ULPT)を提案する。
提案する理論解析により, ランダム・プロジェクションは高階構造を効果的に捉えることができ, 実験結果から既存のパラメータ効率の手法に比べてUの競合性能が示された。
論文 参考訳(メタデータ) (2025-02-06T21:00:29Z) - Zeroth-Order Fine-Tuning of LLMs in Random Subspaces [66.27334633749734]
言語モデルのサイズが大きくなるにつれて、バックプロパゲーションに対するメモリ要求が増加する。
Zeroth-order (ZOZO) 最適化手法はメモリ効率の代替手段を提供する。
本稿では,SubZeroがファインチューニングを強化し,通常のZOZO手法と比較して高速な結果が得られることを示す。
論文 参考訳(メタデータ) (2024-10-11T17:01:43Z) - Enhancing Zeroth-order Fine-tuning for Language Models with Low-rank Structures [21.18741772731095]
ゼロ階数(ZO)アルゴリズムは、関数値の有限差を用いて勾配を近似することで、有望な代替手段を提供する。
既存のZO法は、LLM微調整で一般的な低ランク勾配構造を捉えるのに苦労し、準最適性能をもたらす。
本稿では,LLMにおけるこの構造を効果的に捕捉する低ランクZOアルゴリズム(LOZO)を提案する。
論文 参考訳(メタデータ) (2024-10-10T08:10:53Z) - LoRTA: Low Rank Tensor Adaptation of Large Language Models [70.32218116940393]
Low Rank Adaptation (LoRA) は、PEFT (Efficient Fine Tuning) 法として人気がある。
よりコンパクトで柔軟な表現を可能にする高階Candecomp/Parafac(CP)分解を提案する。
本手法は,比較性能を維持しつつパラメータ数を削減できる。
論文 参考訳(メタデータ) (2024-10-05T06:59:50Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - Zeroth-Order Fine-Tuning of LLMs with Extreme Sparsity [66.67596152389591]
ゼロ階最適化(ZO)は、微調整された大規模言語モデルのためのメモリ効率の高い戦略である。
本研究では,ZO を用いた LLM パラメータの極小サブセットの微調整の実現可能性について検討した。
この結果から,ZO を用いた LLM の微調整パラメータ 0.1% は,ZO の微調整性能より優れることが示された。
論文 参考訳(メタデータ) (2024-06-05T04:07:35Z) - HiFT: A Hierarchical Full Parameter Fine-Tuning Strategy [55.17502828915191]
本稿では,各学習段階におけるパラメータのサブセットのみを更新する,新しい非独立なエンドツーエンドの階層的微調整戦略であるHiFTを提案する。
この結果から,HiFTはパラメータ効率の高いファインチューニングと標準のフルパラメータファインチューニングに匹敵する性能を達成できることが示された。
論文 参考訳(メタデータ) (2024-01-26T21:14:32Z) - QFT: Quantized Full-parameter Tuning of LLMs with Affordable Resources [37.265708531464746]
大規模言語モデル(LLM)は、さまざまな自然言語処理タスクに顕著な影響を与えている。
これらのトレーニング済みモデルを下流データセットに微調整することで、さらなる大幅なパフォーマンス向上が達成されるが、このプロセスは異常なリソース要求のために困難だった。
性能を損なうことなくメモリ効率のよい微調整を可能にするLLMのための新しい量子フルパラメータチューニングフレームワークQFTを提案する。
論文 参考訳(メタデータ) (2023-10-11T02:47:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。