論文の概要: LoRAQuant: Mixed-Precision Quantization of LoRA to Ultra-Low Bits
- arxiv url: http://arxiv.org/abs/2510.26690v1
- Date: Thu, 30 Oct 2025 16:59:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 16:05:09.91236
- Title: LoRAQuant: Mixed-Precision Quantization of LoRA to Ultra-Low Bits
- Title(参考訳): LoRAQuant:LoRAの超低ビットへの混合精度量子化
- Authors: Amir Reza Mirzaei, Yuqiao Wen, Yanshuai Cao, Lili Mou,
- Abstract要約: Low-Rank Adaptation (LoRA) は,大規模言語モデル (LLM) のパラメータ効率の高い微調整技術として普及している。
本稿では,LoRAに合わせた混合精度のポストトレーニング量子化法であるLoRAQuantを提案する。
LLaMA 2-7B, LLaMA 2-13B, Mistral 7B モデルを用いて, 数学的推論, コーディング, 要約タスクに関する総合実験を行った。
- 参考スコア(独自算出の注目度): 29.33772670201354
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Low-Rank Adaptation (LoRA) has become a popular technique for parameter-efficient fine-tuning of large language models (LLMs). In many real-world scenarios, multiple adapters are loaded simultaneously to enable LLM customization for personalized user experiences or to support a diverse range of tasks. Although each adapter is lightweight in isolation, their aggregate cost becomes substantial at scale. To address this, we propose LoRAQuant, a mixed-precision post-training quantization method tailored to LoRA. Specifically, LoRAQuant reparameterizes each adapter by singular value decomposition (SVD) to concentrate the most important information into specific rows and columns. This makes it possible to quantize the important components to higher precision, while quantizing the rest to ultra-low bitwidth. We conduct comprehensive experiments with LLaMA 2-7B, LLaMA 2-13B, and Mistral 7B models on mathematical reasoning, coding, and summarization tasks. Results show that our LoRAQuant uses significantly lower bits than other quantization methods, but achieves comparable or even higher performance.
- Abstract(参考訳): Low-Rank Adaptation (LoRA)は、大規模言語モデル(LLM)のパラメータ効率の高い微調整技術として人気がある。
多くの現実のシナリオでは、複数のアダプタを同時にロードして、パーソナライズされたユーザエクスペリエンスのLLMカスタマイズを可能にしたり、さまざまなタスクをサポートする。
それぞれのアダプタは独立して軽量であるが、集約コストは大規模に大きくなっている。
そこで本研究では,LoRAに合わせた混合精度のポストトレーニング量子化法であるLoRAQuantを提案する。
具体的には、LoRAQuantは各アダプタを特異値分解(SVD)で再パラメータ化して、最も重要な情報を特定の行や列に集中させる。
これにより、重要な成分をより高精度に定量化し、残りの成分を超低ビット幅に定量化することができる。
LLaMA 2-7B, LLaMA 2-13B, Mistral 7B モデルを用いて, 数学的推論, コーディング, 要約タスクに関する総合実験を行った。
その結果、我々のLoRAQuantは他の量子化手法よりもかなり低いビットを使用するが、同等またはそれ以上の性能を達成することがわかった。
関連論文リスト
- Faster Than SVD, Smarter Than SGD: The OPLoRA Alternating Update [50.36542772932594]
Low-Rank Adaptation (LoRA) は、凍結重量の上の低ランク更新を学習することで、大きなモデルを微調整する。
ローランクプロジェクションによる完全なトレーニング(SVDLoRA)とLoRAファインチューニングの間にはまだギャップがあり、LoRAのステップをさらに改善できることを示している。
論文 参考訳(メタデータ) (2025-09-24T10:32:50Z) - In-Context Meta LoRA Generation [61.690065588534296]
Low-rank Adaptation (LoRA) はタスク固有の微調整機能を示す。
In-Context Meta LoRA (ICM-LoRA) は,大規模言語モデルのタスク固有のカスタマイズを効率的に行う新しい手法である。
ICM-LoRAは、現在のパラメータ再構成法よりも正確なLoRAパラメータ再構成を可能にする。
論文 参考訳(メタデータ) (2025-01-29T13:12:01Z) - Retrieval-Augmented Mixture of LoRA Experts for Uploadable Machine Learning [57.36978335727009]
Low-Rank Adaptation (LoRA)は、大規模言語モデル(LLM)を微調整する効率的な方法を提供する。
本稿では,入力プロンプトに基づいて複数のLoRAを適応的に検索・構成するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-24T05:24:41Z) - LoRA-XS: Low-Rank Adaptation with Extremely Small Number of Parameters [11.23006032094776]
理論的導出に基づく新しい微調整法であるLoRA-XSを紹介する。
LoRA-XSは、小さくてトレーニング可能な重量行列を組み込むことで、トレーニング可能なパラメータを劇的に削減する。
モジュールごとにひとつのパラメータから任意の大きな値にスケールでき、任意のストレージや計算の制約に適応できる。
論文 参考訳(メタデータ) (2024-05-27T19:07:13Z) - LoRA-Flow: Dynamic LoRA Fusion for Large Language Models in Generative
Tasks [72.88244322513039]
LoRAは、ダウンストリームタスクやドメイン毎に大きな言語モデル(LLM)をカスタマイズするために軽量モジュールを使用している。
動的重みを利用して異なるLoRAの影響を調整するLoRA-Flowを提案する。
6つの生成タスクに対する実験により、我々の手法はタスクレベルの融合重みでベースラインを一貫して上回ることを示した。
論文 参考訳(メタデータ) (2024-02-18T04:41:25Z) - MultiLoRA: Democratizing LoRA for Better Multi-Task Learning [20.750808913757396]
LoRAは、特定のタスクにLLMを適用する際に、顕著なリソース効率と同等のパフォーマンスを達成する。
LoRAは少数のトップ特異ベクトルに支配され、微調整はより重要でないユニタリ変換の集合に分解される。
我々は,LoRAで観測されるトップ特異ベクトルの優位性を低減し,マルチタスク適応性を向上するMultiLoRAを提案する。
論文 参考訳(メタデータ) (2023-11-20T02:59:18Z) - LoRA ensembles for large language model fine-tuning [35.78186948630364]
Low-Rank Adapters (LoRA) はパラメータ効率の良い微調整技術である。
LoRAは非常に少数のパラメータを表しており、基礎となる事前訓練モデルよりも桁違いに少ない。
LoRAアンサンブルは,既存の正則化技術上にのみ適用され,予測精度と不確実性の定量化に一貫した改善をもたらすことが判明した。
論文 参考訳(メタデータ) (2023-09-29T16:38:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。