論文の概要: Accurate LoRA-Finetuning Quantization of LLMs via Information Retention
- arxiv url: http://arxiv.org/abs/2402.05445v1
- Date: Thu, 8 Feb 2024 06:53:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-09 16:05:29.282932
- Title: Accurate LoRA-Finetuning Quantization of LLMs via Information Retention
- Title(参考訳): 情報保持によるLLMの高精度LORA-Finetuning量子化
- Authors: Haotong Qin, Xudong Ma, Xingyu Zheng, Xiaoyang Li, Yang Zhang, Shouda
Liu, Jie Luo, Xianglong Liu and Michele Magno
- Abstract要約: 本稿では,LoRAを用いて量子化LLMを情報保持により高精度にプッシュする新しいIR-QLoRAを提案する。
実験の結果、IR-QLoRA は LLaMA と LLaMA2 の2-4ビット幅での精度を大幅に向上できることがわかった。
- 参考スコア(独自算出の注目度): 22.75020602528579
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The LoRA-finetuning quantization of LLMs has been extensively studied to
obtain accurate yet compact LLMs for deployment on resource-constrained
hardware. However, existing methods cause the quantized LLM to severely degrade
and even fail to benefit from the finetuning of LoRA. This paper proposes a
novel IR-QLoRA for pushing quantized LLMs with LoRA to be highly accurate
through information retention. The proposed IR-QLoRA mainly relies on two
technologies derived from the perspective of unified information: (1)
statistics-based Information Calibration Quantization allows the quantized
parameters of LLM to retain original information accurately; (2)
finetuning-based Information Elastic Connection makes LoRA utilizes elastic
representation transformation with diverse information. Comprehensive
experiments show that IR-QLoRA can significantly improve accuracy across LLaMA
and LLaMA2 families under 2-4 bit-widths, e.g., 4- bit LLaMA-7B achieves 1.4%
improvement on MMLU compared with the state-of-the-art methods. The significant
performance gain requires only a tiny 0.31% additional time consumption,
revealing the satisfactory efficiency of our IRQLoRA. We highlight that
IR-QLoRA enjoys excellent versatility, compatible with various frameworks
(e.g., NormalFloat and Integer quantization) and brings general accuracy gains.
The code is available at https://github.com/htqin/ir-qlora.
- Abstract(参考訳): LLMの LoRA-finetuning 量子化は、リソース制約のあるハードウェアに展開するための正確かつコンパクトな LLM を得るために広く研究されている。
しかし、既存の手法は量子化LDMを著しく劣化させ、LoRAの微調整の恩恵を受けられなかった。
本稿では,LoRAを用いた量子化LLMを情報保持により高精度にプッシュするIR-QLoRAを提案する。
提案するir-qloraは,(1)統計に基づく情報キャリブレーション量子化により,llmの量子化パラメータが元の情報を正確に保持できる,(2)微調整に基づく情報弾性接続によりloraは多様な情報を用いた弾性表現変換を利用する,という2つの技術に主に依存している。
包括的な実験により、IR-QLoRAは2-4ビット幅のLLaMAとLLaMA2ファミリ間での精度を著しく向上させることができることが示されている。
パフォーマンスの大幅な向上には、わずか0.31%の追加時間しか必要とせず、IRQLoRAの良好な効率が明らかになりました。
IR-QLoRAには優れた汎用性があり、さまざまなフレームワーク(NormalFloatやIntegerの量子化など)と互換性があり、一般的な精度向上を実現しています。
コードはhttps://github.com/htqin/ir-qloraで入手できる。
関連論文リスト
- Dynamic Low-Rank Sparse Adaptation for Large Language Models [54.1231638555233]
Low-rank Sparse Adaptation (LoSA)は、低ランク適応をsparse LLM sparsityにシームレスに統合する新しい手法である。
LoSAは、微調整中に対応するスパース重みに基づいてLoRA結果を動的に分散する。
LoSAは、追加の推論負荷を伴わずに、スパースLSMの有効性を数時間で効果的に向上させることができる。
論文 参考訳(メタデータ) (2025-02-20T18:37:32Z) - LLM-Lasso: A Robust Framework for Domain-Informed Feature Selection and Regularization [59.75242204923353]
LLM-Lassoは大規模言語モデル(LLM)を利用してラッソ回帰における特徴選択を導くフレームワークである。
LLMは各特徴に対してペナルティ因子を生成し、単純でチューニング可能なモデルを用いてラスソペナルティの重みに変換される。
LLMによりより関連づけられた特徴は、より低い罰を受け、最終モデルに保持される可能性を高める。
論文 参考訳(メタデータ) (2025-02-15T02:55:22Z) - RepLoRA: Reparameterizing Low-Rank Adaptation via the Perspective of Mixture of Experts [37.43961020113692]
低ランク適応 (LoRA) は、大規模基盤モデルを微調整するための強力な手法として登場した。
本稿では,LoRAモデルとMixture of Expertsモデルとの関連性を検討することによって,ロラの理論解析を行う。
論文 参考訳(メタデータ) (2025-02-05T10:03:09Z) - CLoQ: Enhancing Fine-Tuning of Quantized LLMs via Calibrated LoRA Initialization [2.975939846457057]
低ランク適応 (LoRA) を用いた細調整型大規模言語モデル (LLM) は, 下流タスクにおいて極めて効率的なアプローチとなっている。
量子化LLMにLoRA技術を適用すると、量子化重みの表現精度が低下するため、ユニークな課題が生じる。
CLoQは、これらの課題を克服するために設計された、単純化された初期化戦略である。
論文 参考訳(メタデータ) (2025-01-30T16:48:15Z) - LLM2: Let Large Language Models Harness System 2 Reasoning [65.89293674479907]
大規模言語モデル(LLM)は、無数のタスクにまたがって印象的な機能を示してきたが、時には望ましくない出力が得られる。
本稿では LLM とプロセスベースの検証器を組み合わせた新しいフレームワーク LLM2 を紹介する。
LLMs2は妥当な候補を生成するのに責任を持ち、検証者は望ましい出力と望ましくない出力を区別するためにタイムリーなプロセスベースのフィードバックを提供する。
論文 参考訳(メタデータ) (2024-12-29T06:32:36Z) - RILQ: Rank-Insensitive LoRA-based Quantization Error Compensation for Boosting 2-bit Large Language Model Accuracy [5.767260383077013]
低ランク適応(LoRA)がパラメータ効率のLLM微調整の主流となっている。
LoRAベースの量子化誤差補償(LQEC)は圧縮LDMの精度を回復するための強力なツールである。
RILQ(Rank-Insensitive LoRA-based Quantization Error Compensation)を提案する。
論文 参考訳(メタデータ) (2024-12-02T05:09:56Z) - LoRA Done RITE: Robust Invariant Transformation Equilibration for LoRA Optimization [78.93425154518705]
低ランク適応 (LoRA) は、メモリ要求を低減し、LLMのパラメータ効率の高い微調整法である。
本稿では,LoRA最適化のための適応行列プレコンディショニング手法であるLoRA-RITEを紹介する。
論文 参考訳(メタデータ) (2024-10-27T22:57:12Z) - SliM-LLM: Salience-Driven Mixed-Precision Quantization for Large Language Models [67.67135738642547]
後学習量子化(PTQ)は、大規模言語モデル(LLM)において研究される強力な圧縮手法である。
既存のPTQ法は、特に4ビット幅以下では、精度と効率の点で理想的ではない。
本稿では,LSM,すなわちSliM-LLMに対するSalience-Driven Mixed-Precision Quantizationスキームを提案する。
論文 参考訳(メタデータ) (2024-05-23T16:21:48Z) - BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [53.31402059062365]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。
LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
論文 参考訳(メタデータ) (2024-02-06T09:26:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。