Fugu-MT 論文翻訳(概要): Accurate LoRA-Finetuning Quantization of LLMs via Information Retention

論文の概要: Accurate LoRA-Finetuning Quantization of LLMs via Information Retention

arxiv url: http://arxiv.org/abs/2402.05445v1
Date: Thu, 8 Feb 2024 06:53:31 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-09 16:05:29.282932
Title: Accurate LoRA-Finetuning Quantization of LLMs via Information Retention
Title（参考訳）: 情報保持によるLLMの高精度LORA-Finetuning量子化
Authors: Haotong Qin, Xudong Ma, Xingyu Zheng, Xiaoyang Li, Yang Zhang, Shouda Liu, Jie Luo, Xianglong Liu and Michele Magno
Abstract要約: 本稿では,LoRAを用いて量子化LLMを情報保持により高精度にプッシュする新しいIR-QLoRAを提案する。実験の結果、IR-QLoRA は LLaMA と LLaMA2 の2-4ビット幅での精度を大幅に向上できることがわかった。
参考スコア（独自算出の注目度）: 22.75020602528579
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The LoRA-finetuning quantization of LLMs has been extensively studied to obtain accurate yet compact LLMs for deployment on resource-constrained hardware. However, existing methods cause the quantized LLM to severely degrade and even fail to benefit from the finetuning of LoRA. This paper proposes a novel IR-QLoRA for pushing quantized LLMs with LoRA to be highly accurate through information retention. The proposed IR-QLoRA mainly relies on two technologies derived from the perspective of unified information: (1) statistics-based Information Calibration Quantization allows the quantized parameters of LLM to retain original information accurately; (2) finetuning-based Information Elastic Connection makes LoRA utilizes elastic representation transformation with diverse information. Comprehensive experiments show that IR-QLoRA can significantly improve accuracy across LLaMA and LLaMA2 families under 2-4 bit-widths, e.g., 4- bit LLaMA-7B achieves 1.4% improvement on MMLU compared with the state-of-the-art methods. The significant performance gain requires only a tiny 0.31% additional time consumption, revealing the satisfactory efficiency of our IRQLoRA. We highlight that IR-QLoRA enjoys excellent versatility, compatible with various frameworks (e.g., NormalFloat and Integer quantization) and brings general accuracy gains. The code is available at https://github.com/htqin/ir-qlora.
Abstract（参考訳）: LLMの LoRA-finetuning 量子化は、リソース制約のあるハードウェアに展開するための正確かつコンパクトな LLM を得るために広く研究されている。しかし、既存の手法は量子化LDMを著しく劣化させ、LoRAの微調整の恩恵を受けられなかった。本稿では,LoRAを用いた量子化LLMを情報保持により高精度にプッシュするIR-QLoRAを提案する。提案するir-qloraは,(1)統計に基づく情報キャリブレーション量子化により,llmの量子化パラメータが元の情報を正確に保持できる,(2)微調整に基づく情報弾性接続によりloraは多様な情報を用いた弾性表現変換を利用する,という2つの技術に主に依存している。包括的な実験により、IR-QLoRAは2-4ビット幅のLLaMAとLLaMA2ファミリ間での精度を著しく向上させることができることが示されている。パフォーマンスの大幅な向上には、わずか0.31%の追加時間しか必要とせず、IRQLoRAの良好な効率が明らかになりました。 IR-QLoRAには優れた汎用性があり、さまざまなフレームワーク(NormalFloatやIntegerの量子化など)と互換性があり、一般的な精度向上を実現しています。コードはhttps://github.com/htqin/ir-qloraで入手できる。

関連論文リスト

LightPROF: A Lightweight Reasoning Framework for Large Language Model on Knowledge Graph [57.382255728234064]
大きな言語モデル(LLM)は、テキスト理解とゼロショット推論において素晴らしい能力を持っている。知識グラフ(KG)は、LLMの推論プロセスに対して、リッチで信頼性の高いコンテキスト情報を提供する。我々は、KGQA(LightPROF)のための新しい軽量で効率的なPrompt Learning-ReasOning Frameworkを提案する。
論文参考訳（メタデータ） (2025-04-04T03:03:47Z)
Dynamic Low-Rank Sparse Adaptation for Large Language Models [54.1231638555233]
Low-rank Sparse Adaptation (LoSA)は、低ランク適応をsparse LLM sparsityにシームレスに統合する新しい手法である。 LoSAは、微調整中に対応するスパース重みに基づいてLoRA結果を動的に分散する。 LoSAは、追加の推論負荷を伴わずに、スパースLSMの有効性を数時間で効果的に向上させることができる。
論文参考訳（メタデータ） (2025-02-20T18:37:32Z)
LLM-Lasso: A Robust Framework for Domain-Informed Feature Selection and Regularization [59.75242204923353]
LLM-Lassoは大規模言語モデル(LLM)を利用してラッソ回帰における特徴選択を導くフレームワークである。 LLMは各特徴に対してペナルティ因子を生成し、単純でチューニング可能なモデルを用いてラスソペナルティの重みに変換される。 LLMによりより関連づけられた特徴は、より低い罰を受け、最終モデルに保持される可能性を高める。
論文参考訳（メタデータ） (2025-02-15T02:55:22Z)
RepLoRA: Reparameterizing Low-Rank Adaptation via the Perspective of Mixture of Experts [37.43961020113692]
低ランク適応 (LoRA) は、大規模基盤モデルを微調整するための強力な手法として登場した。本稿では,LoRAモデルとMixture of Expertsモデルとの関連性を検討することによって,ロラの理論解析を行う。
論文参考訳（メタデータ） (2025-02-05T10:03:09Z)
CLoQ: Enhancing Fine-Tuning of Quantized LLMs via Calibrated LoRA Initialization [2.975939846457057]
低ランク適応 (LoRA) を用いた細調整型大規模言語モデル (LLM) は, 下流タスクにおいて極めて効率的なアプローチとなっている。量子化LLMにLoRA技術を適用すると、量子化重みの表現精度が低下するため、ユニークな課題が生じる。 CLoQは、これらの課題を克服するために設計された、単純化された初期化戦略である。
論文参考訳（メタデータ） (2025-01-30T16:48:15Z)
LLM2: Let Large Language Models Harness System 2 Reasoning [65.89293674479907]
大規模言語モデル(LLM)は、無数のタスクにまたがって印象的な機能を示してきたが、時には望ましくない出力が得られる。本稿では LLM とプロセスベースの検証器を組み合わせた新しいフレームワーク LLM2 を紹介する。 LLMs2は妥当な候補を生成するのに責任を持ち、検証者は望ましい出力と望ましくない出力を区別するためにタイムリーなプロセスベースのフィードバックを提供する。
論文参考訳（メタデータ） (2024-12-29T06:32:36Z)
RILQ: Rank-Insensitive LoRA-based Quantization Error Compensation for Boosting 2-bit Large Language Model Accuracy [5.767260383077013]
低ランク適応(LoRA)がパラメータ効率のLLM微調整の主流となっている。 LoRAベースの量子化誤差補償(LQEC)は圧縮LDMの精度を回復するための強力なツールである。 RILQ(Rank-Insensitive LoRA-based Quantization Error Compensation)を提案する。
論文参考訳（メタデータ） (2024-12-02T05:09:56Z)
V-LoRA: An Efficient and Flexible System Boosts Vision Applications with LoRA LMM [32.37720746437661]
低ランク適応(LoRA)は、外部知識を大規模言語モデル(LMM)に統合する有望な方法を提供する既存のLoRAモデルは計算コストが大きすぎるため、非常にレイテンシが高い。多様なビジョンタスクの強化とLoRA LMMによるビジョンアプリケーション強化を目的としたエンドツーエンドソリューションを提案する。
論文参考訳（メタデータ） (2024-11-01T13:43:33Z)
LoRA Done RITE: Robust Invariant Transformation Equilibration for LoRA Optimization [78.93425154518705]
低ランク適応 (LoRA) は、メモリ要求を低減し、LLMのパラメータ効率の高い微調整法である。本稿では,LoRA最適化のための適応行列プレコンディショニング手法であるLoRA-RITEを紹介する。
論文参考訳（メタデータ） (2024-10-27T22:57:12Z)
RoLoRA: Fine-tuning Rotated Outlier-free LLMs for Effective Weight-Activation Quantization [38.23587031169402]
有効重量活性化量子化のための最初のLoRA方式であるRoLoRAを提案する。我々は,LLaMA2-7B/13B,LLaMA3-8Bモデルにおけるロロラの評価を行い,最大29.5%の精度で4ビットの重量活性化量子化LLaMA2-13Bを実現した。
論文参考訳（メタデータ） (2024-07-10T20:52:18Z)
SliM-LLM: Salience-Driven Mixed-Precision Quantization for Large Language Models [67.67135738642547]
後学習量子化(PTQ)は、大規模言語モデル(LLM)において研究される強力な圧縮手法である。既存のPTQ法は、特に4ビット幅以下では、精度と効率の点で理想的ではない。本稿では,LSM,すなわちSliM-LLMに対するSalience-Driven Mixed-Precision Quantizationスキームを提案する。
論文参考訳（メタデータ） (2024-05-23T16:21:48Z)
Enabling Weak LLMs to Judge Response Reliability via Meta Ranking [38.63721941742435]
我々は、$textitMeta Ranking$ (MR) と呼ばれるクロスクエリベースの新しい手法を提案する。 MRは、ターゲットクエリ-レスポンスペアを複数の参照クエリ-レスポンスペアにペアでランク付けすることで、信頼性を評価する。 MRはモデルカスケーディングとインストラクションチューニングの2つの実用的応用において、強力なLLMの性能を向上させることができることを示す。
論文参考訳（メタデータ） (2024-02-19T13:57:55Z)
BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [53.31402059062365]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。 LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
論文参考訳（メタデータ） (2024-02-06T09:26:34Z)
QA-LoRA: Quantization-Aware Low-Rank Adaptation of Large Language Models [85.02796681773447]
量子化対応低ランク適応(QA-LoRA)アルゴリズムを提案する。その動機は量子化と適応の自由の不均衡度にある。 QA-LoRAは数行のコードで簡単に実装できる。
論文参考訳（メタデータ） (2023-09-26T07:22:23Z)
CA-LoRA: Adapting Existing LoRA for Compressed LLMs to Enable Efficient Multi-Tasking on Personal Devices [78.16679232748196]
本稿では,Large Language Models (LLM) を他のタスクに転送するための圧縮対応 LoRA (CA-LoRA) フレームワークを提案する。実験の結果,CA-LoRAは圧縮LDMに適用したバニラロラ法よりも優れていた。 CA-LoRAのソースコードはhttps://github.com/thunlp/CA-LoRAで公開されている。
論文参考訳（メタデータ） (2023-07-15T04:37:11Z)
LoRAPrune: Structured Pruning Meets Low-Rank Parameter-Efficient Fine-Tuning [56.88751562302793]
低ランク適応 (LoRA) が大型言語モデル (LLM) に登場した。 LoRAPruneは、高度にメモリ効率の良い正確な構造化プルーンドモデルを提供する新しいフレームワークである。 LoRAPruneはWikiText2では4.81、TBでは3.46、メモリ使用量は52.6%減少している。
論文参考訳（メタデータ） (2023-05-28T15:15:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。