論文の概要: QFT: Quantized Full-parameter Tuning of LLMs with Affordable Resources
- arxiv url: http://arxiv.org/abs/2310.07147v1
- Date: Wed, 11 Oct 2023 02:47:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 00:45:55.463570
- Title: QFT: Quantized Full-parameter Tuning of LLMs with Affordable Resources
- Title(参考訳): QFT:付加資源を用いたLLMの量子フルパラメータチューニング
- Authors: Zhikai Li, Xiaoxuan Liu, Banghua Zhu, Zhen Dong, Qingyi Gu, Kurt
Keutzer
- Abstract要約: 大規模言語モデル(LLM)は、さまざまな自然言語処理タスクに顕著な影響を与えている。
これらのトレーニング済みモデルを下流データセットに微調整することで、さらなる大幅なパフォーマンス向上が達成されるが、このプロセスは異常なリソース要求のために困難だった。
性能を損なうことなくメモリ効率のよい微調整を可能にするLLMのための新しい量子フルパラメータチューニングフレームワークQFTを提案する。
- 参考スコア(独自算出の注目度): 37.265708531464746
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have showcased remarkable impacts across a wide
spectrum of natural language processing tasks. Fine-tuning these pre-trained
models on downstream datasets provides further significant performance gains,
but this process has been challenging due to its extraordinary resource
requirements. To this end, existing efforts focus on parameter-efficient
fine-tuning, which, unfortunately, fail to capitalize on the powerful potential
of full-parameter fine-tuning. In this work, we propose QFT, a novel Quantized
Full-parameter Tuning framework for LLMs that enables memory-efficient
fine-tuning without harming performance. Our framework incorporates two novel
ideas: (i) we adopt the efficient Lion optimizer, which only keeps track of the
momentum and has consistent update magnitudes for each parameter, an inherent
advantage for robust quantization; and (ii) we quantize all model states and
store them as integer values, and present a gradient flow and parameter update
scheme for the quantized weights. As a result, QFT reduces the model state
memory to 21% of the standard solution while achieving comparable performance,
e.g., tuning a LLaMA-7B model requires only <30GB of memory, satisfied by a
single A6000 GPU.
- Abstract(参考訳): 大規模言語モデル(LLM)は、さまざまな自然言語処理タスクに顕著な影響を与えている。
これらのトレーニング済みモデルを下流データセットに微調整することで、さらなる大幅なパフォーマンス向上が達成されるが、このプロセスは異常なリソース要求のために困難だった。
この目的のために、既存の取り組みはパラメータ効率のよい微調整に重点を置いているが、残念ながらフルパラメータ微調整の強力なポテンシャルを生かしてはいない。
本研究では,LLMのための量子フルパラメータチューニングフレームワークであるQFTを提案し,性能を損なうことなくメモリ効率の良い微調整を実現する。
私たちの枠組みには2つの新しいアイデアが組み込まれています
(i)効率の良いライオンオプティマイザを採用する。これは運動量だけを追跡し、各パラメータに対して一貫した更新等級を持ち、ロバストな量子化に固有の利点である。
(ii)全てのモデル状態を量子化し整数値として保存し,その量化重みに対する勾配流とパラメータ更新スキームを示す。
その結果、QFTはモデル状態メモリを標準ソリューションの21%に減らし、LLaMA-7Bモデルのチューニングに必要なメモリはわずか30GBで、1つのA6000 GPUで満たされる。
関連論文リスト
- QEFT: Quantization for Efficient Fine-Tuning of LLMs [9.446971590056945]
我々はQEFT(Quantization for Effient Fine-Tuning)と呼ばれる新しい手法を提案する。
QEFTは推論と微調整の両方を加速し、堅牢な理論的基盤によってサポートされ、優れたハードウェア互換性を維持している。
実験の結果,QEFTは完全精度パラメータ効率の良い微調整の品質と汎用性に一致していることがわかった。
論文 参考訳(メタデータ) (2024-10-11T09:39:33Z) - LoRTA: Low Rank Tensor Adaptation of Large Language Models [70.32218116940393]
Low Rank Adaptation (LoRA) は、下流タスクのための大規模な事前学習モデルに効果的に適応する、PEFT (Efficient Fine Tuning) 手法として人気がある。
モデル更新に低階テンソルパラメトリゼーションを用いる新しい手法を提案する。
提案手法は,大規模言語モデルの微調整に有効であり,比較性能を維持しつつ,パラメータ数の大幅な削減を実現している。
論文 参考訳(メタデータ) (2024-10-05T06:59:50Z) - Propulsion: Steering LLM with Tiny Fine-Tuning [0.0]
本稿では,タスク固有性能を最適化するために,新しいパラメータ最適化手法であるPropulsionを提案する。
物理運動の制御調整の概念にインスパイアされた推進は、事前訓練されたモデルの特定の次元を選択的に再スケールする。
我々の理論解析はニューラル・タンジェント・カーネル(NTK)理論によって支えられ、推進は訓練可能なパラメータがはるかに少ない完全な微調整の性能を近似することを示している。
論文 参考訳(メタデータ) (2024-09-17T06:51:59Z) - Accurate and Efficient Fine-Tuning of Quantized Large Language Models Through Optimal Balance [20.659750151408186]
大規模言語モデル(LLM)は、様々な領域で素晴らしいパフォーマンスを示している。
パラメータ量子化とローランド適応(LoRA)を組み合わせた既存ソリューション
平衡ランク適応(Q-BaRA)と高ランク適応(QA-HiRA)を考慮した量子化微調整(QA-HiRA)を提案する。
論文 参考訳(メタデータ) (2024-07-24T06:16:37Z) - EfficientQAT: Efficient Quantization-Aware Training for Large Language Models [50.525259103219256]
量子化対応トレーニング(QAT)は、低ビット表現によるメモリ消費を最小限の精度で削減することで、ソリューションを提供する。
より有効なQATアルゴリズムであるEfficient QAT(Efficient Quantization-Aware Training)を提案する。
効率的なQATは、全てのパラメータのブロックワイドトレーニング(Block-AP)と量子化パラメータのエンドツーエンドトレーニング(E2E-QP)の2つのフェーズを含む。
論文 参考訳(メタデータ) (2024-07-10T17:53:30Z) - Zeroth-Order Fine-Tuning of LLMs with Extreme Sparsity [66.67596152389591]
ゼロ階最適化(ZO)は、微調整された大規模言語モデルのためのメモリ効率の高い戦略である。
本研究では,ZO を用いた LLM パラメータの極小サブセットの微調整の実現可能性について検討した。
この結果から,ZO を用いた LLM の微調整パラメータ 0.1% は,ZO の微調整性能より優れることが示された。
論文 参考訳(メタデータ) (2024-06-05T04:07:35Z) - OmniQuant: Omnidirectionally Calibrated Quantization for Large Language Models [57.27101446992148]
大規模言語モデル(LLM)は自然言語処理タスクに革命をもたらした。
近年のPTQ法はメモリフットプリントの削減とLLMの計算効率の向上に有効である。
多様な量子化設定において優れた性能を実現するLLMのOmnidirectly calibrated Quantization手法を提案する。
論文 参考訳(メタデータ) (2023-08-25T02:28:35Z) - FineQuant: Unlocking Efficiency with Fine-Grained Weight-Only
Quantization for LLMs [9.072821427818557]
大規模言語モデル(LLM)は、様々な言語タスクで最先端のパフォーマンスを達成しているが、実用的なデプロイメントには課題がある。
メモリ消費を削減し,LLMの推論を高速化する,効率的な重みのみの量子化法を提案する。
我々は,OPT-175Bや内部MoEモデルのような大規模オープンソースモデルに対するアプローチを評価し,スループットを最大3.65倍に向上しながら,最小限の精度の損失を示す。
論文 参考訳(メタデータ) (2023-08-16T23:57:41Z) - Memory-Efficient Fine-Tuning of Compressed Large Language Models via
sub-4-bit Integer Quantization [27.79783067245817]
大規模言語モデル(LLM)は、高いメモリ要求と計算コストのため、微調整とデプロイメントの課題に直面している。
本稿では,PEFT と量子化 LLM の利点を組み合わせた簡易かつ効果的な手法である PEQA (Efficient Adaptation and Quantization-aware) を提案する。
論文 参考訳(メタデータ) (2023-05-23T15:20:01Z) - Scaling & Shifting Your Features: A New Baseline for Efficient Model
Tuning [126.84770886628833]
既存の微調整法は、事前訓練されたモデルの全てのパラメータ(フル微調整)をチューニングするか、最後の線形層(線形プローブ)のみをチューニングする。
そこで本研究では,SSFと呼ばれるパラメータ効率の高いファインタニング手法を提案する。
論文 参考訳(メタデータ) (2022-10-17T08:14:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。