論文の概要: Accurate LoRA-Finetuning Quantization of LLMs via Information Retention
- arxiv url: http://arxiv.org/abs/2402.05445v1
- Date: Thu, 8 Feb 2024 06:53:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-09 16:05:29.282932
- Title: Accurate LoRA-Finetuning Quantization of LLMs via Information Retention
- Title(参考訳): 情報保持によるLLMの高精度LORA-Finetuning量子化
- Authors: Haotong Qin, Xudong Ma, Xingyu Zheng, Xiaoyang Li, Yang Zhang, Shouda
Liu, Jie Luo, Xianglong Liu and Michele Magno
- Abstract要約: 本稿では,LoRAを用いて量子化LLMを情報保持により高精度にプッシュする新しいIR-QLoRAを提案する。
実験の結果、IR-QLoRA は LLaMA と LLaMA2 の2-4ビット幅での精度を大幅に向上できることがわかった。
- 参考スコア(独自算出の注目度): 22.75020602528579
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The LoRA-finetuning quantization of LLMs has been extensively studied to
obtain accurate yet compact LLMs for deployment on resource-constrained
hardware. However, existing methods cause the quantized LLM to severely degrade
and even fail to benefit from the finetuning of LoRA. This paper proposes a
novel IR-QLoRA for pushing quantized LLMs with LoRA to be highly accurate
through information retention. The proposed IR-QLoRA mainly relies on two
technologies derived from the perspective of unified information: (1)
statistics-based Information Calibration Quantization allows the quantized
parameters of LLM to retain original information accurately; (2)
finetuning-based Information Elastic Connection makes LoRA utilizes elastic
representation transformation with diverse information. Comprehensive
experiments show that IR-QLoRA can significantly improve accuracy across LLaMA
and LLaMA2 families under 2-4 bit-widths, e.g., 4- bit LLaMA-7B achieves 1.4%
improvement on MMLU compared with the state-of-the-art methods. The significant
performance gain requires only a tiny 0.31% additional time consumption,
revealing the satisfactory efficiency of our IRQLoRA. We highlight that
IR-QLoRA enjoys excellent versatility, compatible with various frameworks
(e.g., NormalFloat and Integer quantization) and brings general accuracy gains.
The code is available at https://github.com/htqin/ir-qlora.
- Abstract(参考訳): LLMの LoRA-finetuning 量子化は、リソース制約のあるハードウェアに展開するための正確かつコンパクトな LLM を得るために広く研究されている。
しかし、既存の手法は量子化LDMを著しく劣化させ、LoRAの微調整の恩恵を受けられなかった。
本稿では,LoRAを用いた量子化LLMを情報保持により高精度にプッシュするIR-QLoRAを提案する。
提案するir-qloraは,(1)統計に基づく情報キャリブレーション量子化により,llmの量子化パラメータが元の情報を正確に保持できる,(2)微調整に基づく情報弾性接続によりloraは多様な情報を用いた弾性表現変換を利用する,という2つの技術に主に依存している。
包括的な実験により、IR-QLoRAは2-4ビット幅のLLaMAとLLaMA2ファミリ間での精度を著しく向上させることができることが示されている。
パフォーマンスの大幅な向上には、わずか0.31%の追加時間しか必要とせず、IRQLoRAの良好な効率が明らかになりました。
IR-QLoRAには優れた汎用性があり、さまざまなフレームワーク(NormalFloatやIntegerの量子化など)と互換性があり、一般的な精度向上を実現しています。
コードはhttps://github.com/htqin/ir-qloraで入手できる。
関連論文リスト
- LoRA Land: 310 Fine-tuned LLMs that Rival GPT-4, A Technical Report [3.304521604464247]
ローランク適応(ローランク適応、LoRA)は、最も広く採用されている手法の一つである。
大規模言語モデル(LLM)の効率的な微細チューニング(PEFT)
本研究の目的は,LoRAで微調整されたLLMを実世界の応用に適用し,学習の可能性を評価することである。
論文 参考訳(メタデータ) (2024-04-29T04:01:45Z) - Improving LoRA in Privacy-preserving Federated Learning [44.47315926976059]
ローランク適応(ローランク適応、LoRA)は、事前訓練された言語モデルにおける最も一般的なタスク固有パラメータ効率細調整(PEFT)手法の1つである。
本稿では,これらの課題を緩和するために,LoRAの効率的かつ効果的なフェデレートフリーズA LoRA(FFA-LoRA)を提案する。
論文 参考訳(メタデータ) (2024-03-18T23:20:08Z) - ARL2: Aligning Retrievers for Black-box Large Language Models via
Self-guided Adaptive Relevance Labeling [21.872959514817985]
ARL2は、大規模な言語モデルをラベル付けとして活用するレトリバー学習技術である。
ARL2は適応的な自己学習戦略を用いて、高品質で多様な関連データをキュレートする。
実験はARL2の有効性を示し、NQでは5.4%、MMLUでは4.6%の精度向上を実現した。
論文 参考訳(メタデータ) (2024-02-21T05:41:34Z) - Identifying Factual Inconsistency in Summaries: Towards Effective
Utilization of Large Language Model [50.71344457241456]
この研究は2つの重要な疑問に焦点をあてる: 現実の不整合検出に大規模言語モデル(LLM)を利用する最善の方法は何か、そして、どのようにしてより小さなLCMを高い効率と有効性で蒸留できるのか?
実験の結果、LLM自体が適切なパラダイム設計の下でこのタスクを無断で解決でき、訓練されたベースラインが平均2.8%を超えることが示唆された。
実用性をさらに向上するため,我々はより小型のオープンソースLCMを蒸留し,要約全体を高精度にまとめることを目指す訓練戦略を提案する。
論文 参考訳(メタデータ) (2024-02-20T08:41:23Z) - LoraRetriever: Input-Aware LoRA Retrieval and Composition for Mixed
Tasks in the Wild [76.67343971195267]
Low-Rank Adaptation (LoRA)は、大規模言語モデル(LLM)を微調整するための効率的なソリューションを提供する。
LoraRetrieverは、入力プロンプトに従って複数のLoRAを適応的に検索して構成する検索テーマ構成フレームワークである。
実験結果から、LoraRetrieverは一貫してベースラインを上回っていることが示唆された。
論文 参考訳(メタデータ) (2024-02-15T15:02:46Z) - An Embarrassingly Simple Approach for LLM with Strong ASR Capacity [56.30595787061546]
我々は,音声基礎エンコーダと大規模言語モデル(LLM)を用いて,音声処理の分野で最も重要な課題の1つを解決することに注力する。
最近の研究は、音声エンコーダの出力を時間的に圧縮したり、プロジェクタのモーダルアライメントに対処したり、LLMのパラメータ効率の良い微調整を利用するといった複雑な設計をしている。
そこで本研究では,市販の音声エンコーダLLMと,トレーニング可能な唯一の線形プロジェクタの単純な構成がASRタスクに適しているのに対して,繊細な設計は必要ないことを発見した。
論文 参考訳(メタデータ) (2024-02-13T23:25:04Z) - BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [55.61026644837707]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。
LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
これにより、1つのGPU上で0.5時間以内に70億重量のLLMをバイナライズし、良好な時間効率を示すことができる。
論文 参考訳(メタデータ) (2024-02-06T09:26:34Z) - Survey on Factuality in Large Language Models: Knowledge, Retrieval and
Domain-Specificity [61.54815512469125]
本調査は,大規模言語モデル(LLM)における事実性の重要課題に対処する。
LLMが様々な領域にまたがる応用を見出すにつれ、その出力の信頼性と正確性は重要となる。
論文 参考訳(メタデータ) (2023-10-11T14:18:03Z) - LoRA ensembles for large language model fine-tuning [35.78186948630364]
Low-Rank Adapters (LoRA) はパラメータ効率の良い微調整技術である。
LoRAは非常に少数のパラメータを表しており、基礎となる事前訓練モデルよりも桁違いに少ない。
LoRAアンサンブルは,既存の正則化技術上にのみ適用され,予測精度と不確実性の定量化に一貫した改善をもたらすことが判明した。
論文 参考訳(メタデータ) (2023-09-29T16:38:38Z) - QA-LoRA: Quantization-Aware Low-Rank Adaptation of Large Language Models [85.02796681773447]
量子化対応低ランク適応(QA-LoRA)アルゴリズムを提案する。
その動機は量子化と適応の自由の不均衡度にある。
QA-LoRAは数行のコードで簡単に実装できる。
論文 参考訳(メタデータ) (2023-09-26T07:22:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。