論文の概要: Enhancing Ultra-Low-Bit Quantization of Large Language Models Through Saliency-Aware Partial Retraining
- arxiv url: http://arxiv.org/abs/2504.13932v1
- Date: Mon, 14 Apr 2025 19:31:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-30 08:36:11.588519
- Title: Enhancing Ultra-Low-Bit Quantization of Large Language Models Through Saliency-Aware Partial Retraining
- Title(参考訳): 親和性を考慮した部分的リトレーニングによる大規模言語モデルの超低ビット量子化の促進
- Authors: Deyu Cao, Samin Aref,
- Abstract要約: トレーニング後の量子化は、精度の低下を犠牲にして、モデルサイズを効率的に削減する。
量子化学習(quantization-aware training)は、精度を向上するが、リソース集約である。
本稿では,ApiQ上に構築した超低ビット量子化手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models offer remarkable capabilities, but their size and computational demands pose practical challenges. Quantization methods compress their size through replacing their high-precision parameters by quantized values of lower precision. Post-training quantization reduces model size efficiently at the cost of decreased accuracy, while quantization-aware training better preserves accuracy but is resource-intensive. Among existing post-training quantization algorithms, the ApiQ method achieves superior accuracy preservation at minimal memory and time overhead. We investigate two ideas to extend performance in ultra-low-bit quantization beyond ApiQ's level. First, we look into combining existing quantization-aware training techniques with ApiQ's partial training. We show that this does not outperform the baseline ApiQ method with limited training data and frozen weights. This leads to two key insights: (1) The substantial representational capacity that is gained through full retraining may not be feasible through partial training. (2) This gain seems to depend on using a large and diverse dataset in quantization-aware training. Second, through a novel approach informed by the two insights, we propose an ultra-low-bit quantization method that builds upon ApiQ and extends its performance without the need for full retraining. It relies on a saliency-aware regularization term that prioritizes preserving the most impactful parameters during quantization. Our experiments on benchmark language models from the LLaMA family show that our proposed approach boosts accuracy and tightens the gap between the quantized model and the full-precision model, with minimal overhead. Our method will be made publicly available to facilitate future developments in ultra-low-bit quantization of large language models.
- Abstract(参考訳): 大規模言語モデルは優れた能力を提供するが、そのサイズと計算上の要求は実用的な課題をもたらす。
量子化法は、それらの高精度パラメータを低い精度の量子化値で置き換えることで、そのサイズを圧縮する。
トレーニング後の量子化は、精度を低下させるコストで、モデルサイズを効率的に削減する一方、量子化対応のトレーニングは精度を向上するが、リソース集約である。
既存のトレーニング後の量子化アルゴリズムの中で、ApiQ法は最小メモリと時間オーバーヘッドで精度の高い保存を実現する。
我々は,超低ビット量子化の性能をApiQレベルを超えて拡張する2つのアイデアについて検討する。
まず、既存の量子化対応トレーニング技術とApiQの部分的トレーニングを組み合わせることを検討する。
トレーニングデータと凍結重量が制限されたベースラインApiQ法よりも優れていることを示す。
1) 完全な再トレーニングによって得られる実質的な表現能力は、部分的なトレーニングでは実現できないかもしれない。
2)この利得は,量子化対応トレーニングにおいて,大規模で多様なデータセットを使用することに依存していると考えられる。
次に,ApiQをベースとした超低ビット量子化手法を提案する。
これは、量子化中に最も影響のあるパラメータを保存することを優先する、正当性を考慮した正規化項に依存している。
LLaMAファミリーによるベンチマーク言語モデル実験により,提案手法は精度を高め,量子化モデルと完全精度モデルとのギャップを最小限のオーバーヘッドで縮めることを示した。
提案手法は,大規模言語モデルの超低ビット量子化における今後の発展を促進するために,一般公開される。
関連論文リスト
- DL-QAT: Weight-Decomposed Low-Rank Quantization-Aware Training for Large Language Models [11.216745641229917]
ポストトレーニング量子化(PTQ)は一般的な手法であるが、しばしば低ビットレベルの課題に直面している。
量子化対応トレーニング(QAT)はこの問題を軽減することができるが、計算資源が大幅に必要である。
そこで本研究では,QATの利点をマージし,総パラメータの1%未満のトレーニングを行ないながら,低域量子化意識トレーニング(DL-QAT)を導入する。
論文 参考訳(メタデータ) (2025-04-12T13:57:02Z) - Binary Neural Networks for Large Language Model: A Survey [6.8834621543726815]
低ビット量子化は、鍵となる手法として、モデルパラメータのビット幅を小さくすることで、メモリ使用量と計算要求を減らす。
BitNetチームは、低精度バイナリウェイトを使用して、モデルトレーニングの開始から量子化を行うという、根本的に異なるアプローチを提案した。
本稿では,これらのバイナリ量子化手法について概観する。
論文 参考訳(メタデータ) (2025-02-26T10:14:19Z) - RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [53.571195477043496]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。
RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。
その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文 参考訳(メタデータ) (2025-02-13T06:44:33Z) - Scaling Laws for Mixed quantization in Large Language Models [10.912306313183972]
大規模言語モデル(LLM)の学習後の量子化は、これらのモデルで推論を実行する際の計算量の削減に有効であることが証明されている。
本研究では,低精度量子化のための特定の精度やパープレキシティターゲットを目指している場合,LLMを大規模化する際に,高い精度の数値や計算がいくつ必要か,という簡単な問題に焦点をあてる。
論文 参考訳(メタデータ) (2024-10-09T09:45:01Z) - Advancing Multimodal Large Language Models with Quantization-Aware Scale Learning for Efficient Adaptation [70.22782550540714]
QSLAWと呼ばれるマルチモーダルワームアップに基づく量子化対応スケールルアーニング法
本稿では、QSLAWと呼ばれるマルチモーダルワームアップに基づく量子化対応スケールLeArning手法を提案する。
論文 参考訳(メタデータ) (2024-08-07T12:42:09Z) - EfficientQAT: Efficient Quantization-Aware Training for Large Language Models [50.525259103219256]
量子化対応トレーニング(QAT)は、低ビット表現によるメモリ消費を最小限の精度で削減することで、ソリューションを提供する。
より有効なQATアルゴリズムであるEfficient QAT(Efficient Quantization-Aware Training)を提案する。
効率的なQATは、全てのパラメータのブロックワイドトレーニング(Block-AP)と量子化パラメータのエンドツーエンドトレーニング(E2E-QP)の2つのフェーズを含む。
論文 参考訳(メタデータ) (2024-07-10T17:53:30Z) - LLMC: Benchmarking Large Language Model Quantization with a Versatile Compression Toolkit [55.73370804397226]
鍵圧縮技術である量子化は、大きな言語モデルを圧縮し、加速することにより、これらの要求を効果的に軽減することができる。
本稿では,プラグアンドプレイ圧縮ツールキットであるLLMCについて,量子化の影響を公平かつ体系的に検討する。
この汎用ツールキットによって、我々のベンチマークはキャリブレーションデータ、アルゴリズム(3つの戦略)、データフォーマットの3つの重要な側面をカバーしています。
論文 参考訳(メタデータ) (2024-05-09T11:49:05Z) - Zero-Shot Sharpness-Aware Quantization for Pre-trained Language Models [88.80146574509195]
量子化は、メモリオーバーヘッドを減らし、推論を加速するための有望なアプローチである。
種々のPLMのゼロショット量子化のための新しい量子化(ZSAQ)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-20T07:09:56Z) - PreQuant: A Task-agnostic Quantization Approach for Pre-trained Language
Models [52.09865918265002]
ファインチューニングのフレームワークPreQuantに先立って,新しい量子化を提案する。
PreQuantは様々な量子化戦略と互換性があり、インダクションされた量子化誤差を修正するために、アウタリア対応の微調整が組み込まれている。
BERT,RoBERTa,T5を用いたGLUEベンチマークにおけるPreQuantの有効性を示す。
論文 参考訳(メタデータ) (2023-05-30T08:41:33Z) - LLM-QAT: Data-Free Quantization Aware Training for Large Language Models [38.76165207636793]
本研究では,事前学習モデルにより生成した世代を利用したデータフリー蒸留法を提案する。
重みとアクティベーションの定量化に加えて、スループット向上に重要なKVキャッシュの定量化も行います。
我々は7B,13B,30BのLLaMAモデルを4ビット以下の量子化レベルで実験した。
論文 参考訳(メタデータ) (2023-05-29T05:22:11Z) - Towards Efficient Post-training Quantization of Pre-trained Language
Models [85.68317334241287]
PLMのポストトレーニング量子化(PTQ)について検討し,モジュール単位の量子化誤差最小化(MREM)を提案する。
GLUEとSQuADベンチマークの実験により、提案したPTQソリューションはQATに近く動作するだけでなく、トレーニング時間、メモリオーバーヘッド、データ消費を大幅に削減できることがわかった。
論文 参考訳(メタデータ) (2021-09-30T12:50:06Z) - Zero-shot Adversarial Quantization [11.722728148523366]
ゼロショット逆量子化(ZAQ: Zero-shot adversarial quantization)フレームワークを提案し,効果的な不一致推定と知識伝達を容易にする。
これは、情報的で多様なデータ例を合成するためにジェネレータを駆動する、新しい2レベル不一致モデリングによって達成される。
強力なゼロショットベースラインに対してZAQの優位性を示す3つの基本的なビジョンタスクについて広範な実験を行います。
論文 参考訳(メタデータ) (2021-03-29T01:33:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。