論文の概要: LoTA-QAF: Lossless Ternary Adaptation for Quantization-Aware Fine-Tuning
- arxiv url: http://arxiv.org/abs/2505.18724v1
- Date: Sat, 24 May 2025 14:47:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.618095
- Title: LoTA-QAF: Lossless Ternary Adaptation for Quantization-Aware Fine-Tuning
- Title(参考訳): LoTA-QAF:量子化対応ファインチューニングのためのロスレス第三次適応
- Authors: Junyu Chen, Junzhuo Li, Zhen Peng, Wenjie Wang, Yuxiang Ren, Long Shi, Xuming Hu,
- Abstract要約: リソース制約のあるエッジデバイスに大規模言語モデル(LLM)をデプロイするには、量子化と微調整が不可欠である。
微調整量子化モデルは、主に低精度量子化重みと高精度適応重みの間のデータ型におけるミスマッチから生じる重要な課題を示す。
LoTA-QAFは量子化LDM用に特別に設計された新しい微調整法である。
- 参考スコア(独自算出の注目度): 27.07694377337617
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Quantization and fine-tuning are crucial for deploying large language models (LLMs) on resource-constrained edge devices. However, fine-tuning quantized models presents significant challenges, primarily stemming from: First, the mismatch in data types between the low-precision quantized weights (e.g., 4-bit) and the high-precision adaptation weights (e.g., 16-bit). This mismatch limits the computational efficiency advantage offered by quantized weights during inference. Second, potential accuracy degradation when merging these high-precision adaptation weights into the low-precision quantized weights, as the adaptation weights often necessitate approximation or truncation. Third, as far as we know, no existing methods support the lossless merging of adaptation while adjusting all quantized weights. To address these challenges, we introduce lossless ternary adaptation for quantization-aware fine-tuning (LoTA-QAF). This is a novel fine-tuning method specifically designed for quantized LLMs, enabling the lossless merging of ternary adaptation weights into quantized weights and the adjustment of all quantized weights. LoTA-QAF operates through a combination of: i) A custom-designed ternary adaptation (TA) that aligns ternary weights with the quantization grid and uses these ternary weights to adjust quantized weights. ii) A TA-based mechanism that enables the lossless merging of adaptation weights. iii) Ternary signed gradient descent (t-SignSGD) for updating the TA weights. We apply LoTA-QAF to Llama-3.1/3.3 and Qwen-2.5 model families and validate its effectiveness on several downstream tasks. On the MMLU benchmark, our method effectively recovers performance for quantized models, surpassing 16-bit LoRA by up to 5.14\%. For task-specific fine-tuning, 16-bit LoRA achieves superior results, but LoTA-QAF still outperforms other methods.
- Abstract(参考訳): リソース制約のあるエッジデバイスに大規模言語モデル(LLM)をデプロイするには、量子化と微調整が不可欠である。
第一に、低精度の量子化重み(eg, 4-bit)と高精度の適応重み(eg, 16-bit)の間のデータ型のミスマッチ。
このミスマッチは、推論中に量子化された重みによって提供される計算効率の優位性を制限する。
第二に、これらの高精度適応重みを低精度量子化重みにマージする際の潜在的な精度劣化は、適応重みが近似や切り離しを必要とすることが多いためである。
第3に、私たちが知る限りでは、すべての量子化重量を調整しながら、適応の無意味なマージをサポートする方法はない。
これらの課題に対処するために、量子化対応微調整(LoTA-QAF)のためのロスレス3次適応を導入する。
これは、量子化LLM向けに特別に設計された新しい微調整法であり、3次適応重みを量子化重みに無作為にマージし、全ての量子化重みを調整できるようにする。
LoTA-QAFは以下の組み合わせで運用する。
一 第三級重みを量子化格子と整合させ、これらの第三級重みを用いて定量化重量を調整した特注第三級適応(TA)
二 適応重量のロスレスマージを可能にするTA系機構
三 TA重量を更新するための第三次符号勾配降下(t-SignSGD)
Llama-3.1/3.3 と Qwen-2.5 モデルファミリに LoTA-QAF を適用し,その有効性を検証する。
MMLUベンチマークでは,16ビットLORAを最大5.14倍に越え,量子化モデルの性能を効果的に回復する。
タスク固有の微調整では、16ビットのLoRAの方が優れた結果が得られるが、LoTA-QAFは他の手法よりも優れている。
関連論文リスト
- Task-Circuit Quantization: Leveraging Knowledge Localization and Interpretability for Compression [55.323397702682506]
後トレーニング量子化(PTQ)は、コストのかかる再トレーニングなしに全精度重みを低ビット重みにマッピングすることで、モデルのメモリフットプリントを削減する。
我々は,自動回路発見に並列性を持つ新しい混合精度PTQ手法であるTask-Circuit Quantization (TaCQ)を開発した。
論文 参考訳(メタデータ) (2025-04-10T02:19:03Z) - IntLoRA: Integral Low-rank Adaptation of Quantized Diffusion Models [68.55148272295916]
IntLoRAは、整数型低ランクパラメータを持つ量子化拡散モデルを適用し、チューニング中に推論効率を含める。
推論中、IntLoRA重みはPTQなしで直接量子化された下流重みを得るために、シームレスに事前訓練された重みにマージすることができる。
論文 参考訳(メタデータ) (2024-10-29T05:50:17Z) - Compensate Quantization Errors+: Quantized Models Are Inquisitive Learners [51.32182730502002]
重み分布を改良し、量子化アライメントを改善するために、特異値対角展開を導入する。
我々のプラグアンドプレイウェイト量子化法は、最先端のアプローチよりも大幅に性能が向上したことを示す。
論文 参考訳(メタデータ) (2024-07-22T09:45:16Z) - Towards Accurate Post-Training Quantization of Vision Transformers via Error Reduction [48.740630807085566]
ビジョントランスフォーマー(ViT)のPTQ(Post-training Quantization)は,学術的,産業的にも注目されている。
現在の方法は、量子化された重みとアクティベーションの間の複雑な相互作用を考慮できないため、量子化エラーと準最適性能をもたらす。
本稿では,活性化と重み量子化による量子化誤差を逐次低減する2段階PTQ法であるERQを提案する。
論文 参考訳(メタデータ) (2024-07-09T12:06:03Z) - OAC: Output-adaptive Calibration for Accurate Post-training Quantization [28.67781845829386]
大規模言語モデル(LLM)を圧縮するPTQ(Post-training Quantization)技術が開発されている。
ほとんどのPTQは、モデル出力を無視した層ワイドユークリッド損失に基づいて量子化誤差を定式化する。
キャリブレーションプロセスにモデル出力を組み込むために,出力適応量子化(OAC)を提案する。
論文 参考訳(メタデータ) (2024-05-23T20:01:17Z) - L4Q: Parameter Efficient Quantization-Aware Fine-Tuning on Large Language Models [5.304907804008533]
量子化学習(QAT)とローランド適応(LoRA)を統合したL4Qを提案する。
メモリ最適化レイヤ設計を採用することで、L4QはQATのメモリオーバーヘッドを大幅に削減し、トレーニングコストはLoRAに匹敵する。
この量子化法と微調整法の組み合わせにより精度が向上することを示した。
論文 参考訳(メタデータ) (2024-02-07T14:35:05Z) - Norm Tweaking: High-performance Low-bit Quantization of Large Language
Models [21.855106896725598]
そこで本研究では,現在のPTQ手法のプラグインとして利用できるノルム調整手法を提案する。
本手法は,重量のみの量子化と重みとアクティベーションの連成量子化の両面で有意な改善を示す。
私たちのシンプルで効果的なアプローチは、現実世界のアプリケーションにとってより実用的です。
論文 参考訳(メタデータ) (2023-09-06T06:51:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。