論文の概要: Efficient Fine-Tuning of Quantized Models via Adaptive Rank and Bitwidth
- arxiv url: http://arxiv.org/abs/2505.03802v2
- Date: Tue, 20 May 2025 03:31:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:52.158329
- Title: Efficient Fine-Tuning of Quantized Models via Adaptive Rank and Bitwidth
- Title(参考訳): 適応ランクとビット幅による量子モデルの効率的な微調整
- Authors: Changhai Zhou, Yuhua Zhou, Qian Qiao, Weizhong Zhang, Cheng Jin,
- Abstract要約: QLoRAは、低ビット量子化とLoRAを効果的に組み合わせて、大規模言語モデル(LLM)のためのメモリフレンドリーな微調整を実現する。
部分キャリブレーションデータを用いて、各層に対する量子化成分と低ランク空間のランクを共同で探索する、統一的かつ勾配のない戦略である textbfQR-Adaptor を提案する。
提案手法はGSM8Kに対して4.89%の精度向上を実現し、4ビット設定のメモリフットプリントを維持しつつ、16ビットの微調整モデルよりも優れるケースもある。
- 参考スコア(独自算出の注目度): 11.520831999001697
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: QLoRA effectively combines low-bit quantization and LoRA to achieve memory-friendly fine-tuning for large language models (LLM). Recently, methods based on SVD for continuous update iterations to initialize LoRA matrices to accommodate quantization errors have generally failed to consistently improve performance. Dynamic mixed precision is a natural idea for continuously improving the fine-tuning performance of quantized models, but previous methods often optimize low-rank subspaces or quantization components separately, without considering their synergy. To address this, we propose \textbf{QR-Adaptor}, a unified, gradient-free strategy that uses partial calibration data to jointly search the quantization components and the rank of low-rank spaces for each layer, thereby continuously improving model performance. QR-Adaptor does not minimize quantization error but treats precision and rank allocation as a discrete optimization problem guided by actual downstream performance and memory usage. Compared to state-of-the-art (SOTA) quantized LoRA fine-tuning methods, our approach achieves a 4.89\% accuracy improvement on GSM8K, and in some cases even outperforms the 16-bit fine-tuned model while maintaining the memory footprint of the 4-bit setting.
- Abstract(参考訳): QLoRAは、低ビット量子化とLoRAを効果的に組み合わせて、大規模言語モデル(LLM)のメモリフレンドリーな微調整を実現する。
近年,数値化誤差に対応するためにLoRA行列を初期化するために,SVDをベースとした継続的更新繰り返し手法が一般的には性能改善に失敗している。
動的混合精度は、量子化モデルの微調整性能を継続的に改善する自然なアイデアであるが、従来の手法では、相乗効果を考慮せずに、低ランク部分空間や量子化成分を別々に最適化することが多かった。
そこで本研究では,各層に対する量子化成分と低ランク空間のランクを共同で探索し,モデル性能を継続的に向上する,統一的かつ勾配のない戦略である \textbf{QR-Adaptor} を提案する。
QR-Adaptorは量子化誤差を最小化しないが、実際のダウンストリーム性能とメモリ使用量によって導かれる離散最適化問題として精度とランク割り当てを扱う。
最先端(SOTA)量子化LoRAファインチューニング法と比較して,GSM8Kの精度は4.89倍に向上し,場合によっては4ビット設定のメモリフットプリントを維持しながら16ビットファインチューニングモデルよりも優れていた。
関連論文リスト
- Pushing the Limits of Low-Bit Optimizers: A Focus on EMA Dynamics [65.37942405146232]
超低精度量子化により達成された,超軽量な状態要素を持つ新しいタイプのオーバーロードを提案する。
提案したSOLOは,精度の低下を最小限に抑え,メモリの大幅な節約(7Bモデルのトレーニング時に約45GB)を実現する。
論文 参考訳(メタデータ) (2025-05-01T06:47:45Z) - FineQ: Software-Hardware Co-Design for Low-Bit Fine-Grained Mixed-Precision Quantization of LLMs [13.951330786310262]
FineQは、ソフトウェアとハードウェアの共同設計であり、大規模言語モデルの低ビット細粒度混合精度量子化のための設計である。
重みをよりきめ細かいクラスタに分割し、これらのクラスタ内の外れ値の分布を考慮する。
近似平均ビット幅でのSOTA混合精度量子化アルゴリズムと比較してモデル精度が向上する。
論文 参考訳(メタデータ) (2025-04-28T12:47:23Z) - GANQ: GPU-Adaptive Non-Uniform Quantization for Large Language Models [2.1388885579612804]
GANQは、ハードウェア効率の良いルックアップテーブルベースのmpGEMMに最適化されたレイヤーワイズ後の非一様量子化フレームワークである。
広汎な実験は、3ビットおよび4ビット量子化の最先端手法と比較して、GANQのFP16ベースラインからのパープレキシティギャップを低減する能力を示している。
論文 参考訳(メタデータ) (2025-01-22T15:29:09Z) - QPruner: Probabilistic Decision Quantization for Structured Pruning in Large Language Models [3.093903491123962]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクを大幅に進歩させた。
構造化プルーニングはモデルサイズの削減に有効な手法であるが、しばしば精度を著しく低下させる。
我々は、微調整と推論の両方でメモリ消費を減らすために、構造化プルーニングフレームワークに量子化を導入する。
モデルサイズの削減に構造化プルーニングを用いた新しいフレームワークQPrunerを提案する。
論文 参考訳(メタデータ) (2024-12-16T10:14:01Z) - GAQAT: gradient-adaptive quantization-aware training for domain generalization [54.31450550793485]
そこで本研究では,DGのためのGAQAT(Gradient-Adaptive Quantization-Aware Training)フレームワークを提案する。
我々のアプローチは、低精度量子化におけるスケール・グラディエント・コンフリクト問題を特定することから始まる。
GAQATフレームワークの有効性を実験により検証した。
論文 参考訳(メタデータ) (2024-12-07T06:07:21Z) - SLiM: One-shot Quantization and Sparsity with Low-rank Approximation for LLM Weight Compression [7.6131620435684875]
SLIMは新しいワンショット圧縮フレームワークで、ハードウェアフレンドリーな量子化、スパーシティ、低ランク近似を統合する。
SLIMはモデル精度を最大5.66%(LLaMA-2-7B)に改善し、4ビットの重み量子化で2:4の間隔で計算し、従来の手法より優れている。
また,小調整なしでSLIMと比較して,最大1.66%(LLaMA-2-13B)の精度向上を図ったPEFTレシピを提案する。
論文 参考訳(メタデータ) (2024-10-12T18:36:07Z) - LQ-LoRA: Low-rank Plus Quantized Matrix Decomposition for Efficient Language Model Finetuning [66.85589263870702]
提案手法では,事前学習した行列を高精度の低ランク成分とメモリ効率の量子化成分に分解するために反復アルゴリズムを用いる。
微調整されたRoBERTaとLLaMA-2の実験は、我々の低ランク+量子化行列分解法(LQ-LoRA)が強いQLoRAおよびGPTQ-LoRAベースラインより優れていることを示した。
論文 参考訳(メタデータ) (2023-11-20T18:57:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。