論文の概要: NeUQI: Near-Optimal Uniform Quantization Parameter Initialization
- arxiv url: http://arxiv.org/abs/2505.17595v1
- Date: Fri, 23 May 2025 07:59:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.91126
- Title: NeUQI: Near-Optimal Uniform Quantization Parameter Initialization
- Title(参考訳): NeUQI: 準最適均一量子化パラメータ初期化
- Authors: Li Lin, Xinyu Hu, Xiaojun Wan,
- Abstract要約: 大規模言語モデル(LLM)のトレーニング後の量子化は、メモリフットプリントを削減し、遅延をデコードする有望なソリューションを提供する。
最近の$geq 2$-bit均一量子化の研究は、ポスト量子化モデルの性能に顕著な改善をもたらした。
均一量子化のための近似初期パラメータを効率的に決定する手法NeUQIを提案する。
- 参考スコア(独自算出の注目度): 41.08779476737888
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) achieve impressive performance across domains but face significant challenges when deployed on consumer-grade GPUs or personal devices such as laptops, due to high memory consumption and inference costs. Post-training quantization (PTQ) of LLMs offers a promising solution that reduces their memory footprint and decoding latency. In practice, PTQ with uniform quantization representation is favored for its efficiency and ease of deployment since uniform quantization is widely supported by mainstream hardware and software libraries. Recent studies on $\geq 2$-bit uniform quantization have led to noticeable improvements in post-quantization model performance; however, they primarily focus on quantization methodologies, while the initialization of quantization parameters is underexplored and still relies on the suboptimal Min-Max strategies. In this work, we propose NeUQI, a method devoted to efficiently determining near-optimal initial parameters for uniform quantization. NeUQI is orthogonal to prior quantization methodologies and can seamlessly integrate with them. The experiments with the LLaMA and Qwen families on various tasks demonstrate that our NeUQI consistently outperforms existing methods. Furthermore, when combined with a lightweight distillation strategy, NeUQI can achieve superior performance to PV-tuning, a much more resource-intensive approach.
- Abstract(参考訳): 大規模言語モデル(LLM)は、ドメイン間で印象的なパフォーマンスを実現するが、高メモリ消費と推論コストのため、コンシューマグレードのGPUやラップトップなどのパーソナルデバイスにデプロイする場合、重大な課題に直面している。
LLMのポストトレーニング量子化(PTQ)は、メモリフットプリントを削減し、遅延をデコードする有望なソリューションを提供する。
実際、一様量子化表現を持つPTQは、一様量子化が主流のハードウェアやソフトウェアライブラリによって広くサポートされているため、その効率性と展開の容易さに好まれる。
最近の$\geq 2$-bitの一様量子化の研究は、後量子化モデルの性能において顕著な改善をもたらしたが、それらは主に量子化手法に焦点をあてる一方で、量子化パラメータの初期化は過小評価されており、依然として準最適Min-Max戦略に依存している。
本研究では,一様量子化のための近似初期パラメータを効率的に決定する手法NeUQIを提案する。
NeUQIは先行量子化法に直交しており、それらをシームレスに統合することができる。
LLaMAとQwenファミリーによる様々なタスクの実験は、我々のNeUQIが既存の手法を一貫して上回っていることを示している。
さらに, 軽量蒸留法と組み合わせることで, NeUQIはより資源集約的なPVチューニングよりも優れた性能が得られる。
関連論文リスト
- GANQ: GPU-Adaptive Non-Uniform Quantization for Large Language Models [2.1388885579612804]
GANQは、ハードウェア効率の良いルックアップテーブルベースのmpGEMMに最適化されたレイヤーワイズ後の非一様量子化フレームワークである。
広汎な実験は、3ビットおよび4ビット量子化の最先端手法と比較して、GANQのFP16ベースラインからのパープレキシティギャップを低減する能力を示している。
論文 参考訳(メタデータ) (2025-01-22T15:29:09Z) - Channel-Wise Mixed-Precision Quantization for Large Language Models [47.00361921910259]
大規模言語モデル(LLM)は、幅広い言語タスクで顕著な成功を収めている。
重みのみの量子化は、LCMのメモリフットプリントを削減するための有望な解決策である。
本稿では,CMPQ(Channel-Wise Mixed-Precision Quantization)を提案する。
論文 参考訳(メタデータ) (2024-10-16T21:34:41Z) - EfficientQAT: Efficient Quantization-Aware Training for Large Language Models [50.525259103219256]
量子化対応トレーニング(QAT)は、低ビット表現によるメモリ消費を最小限の精度で削減することで、ソリューションを提供する。
より有効なQATアルゴリズムであるEfficient QAT(Efficient Quantization-Aware Training)を提案する。
効率的なQATは、全てのパラメータのブロックワイドトレーニング(Block-AP)と量子化パラメータのエンドツーエンドトレーニング(E2E-QP)の2つのフェーズを含む。
論文 参考訳(メタデータ) (2024-07-10T17:53:30Z) - LLMC: Benchmarking Large Language Model Quantization with a Versatile Compression Toolkit [55.73370804397226]
鍵圧縮技術である量子化は、大きな言語モデルを圧縮し、加速することにより、これらの要求を効果的に軽減することができる。
本稿では,プラグアンドプレイ圧縮ツールキットであるLLMCについて,量子化の影響を公平かつ体系的に検討する。
この汎用ツールキットによって、我々のベンチマークはキャリブレーションデータ、アルゴリズム(3つの戦略)、データフォーマットの3つの重要な側面をカバーしています。
論文 参考訳(メタデータ) (2024-05-09T11:49:05Z) - Zero-Shot Sharpness-Aware Quantization for Pre-trained Language Models [88.80146574509195]
量子化は、メモリオーバーヘッドを減らし、推論を加速するための有望なアプローチである。
種々のPLMのゼロショット量子化のための新しい量子化(ZSAQ)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-20T07:09:56Z) - QuantEase: Optimization-based Quantization for Language Models [17.333778751252392]
本研究は,近年のLarge Language Models (LLMs) の進歩から,様々な量子化層の量子化(PTQ)を導入する。
当社のCDベースのアプローチは、ベクター操作にのみ依存して、簡単にアップデートできる。
我々はまた、完全な精度で重要な重量(外積)を維持することができるような、外れ値のアプローチも検討している。
論文 参考訳(メタデータ) (2023-09-05T01:39:09Z) - PreQuant: A Task-agnostic Quantization Approach for Pre-trained Language
Models [52.09865918265002]
ファインチューニングのフレームワークPreQuantに先立って,新しい量子化を提案する。
PreQuantは様々な量子化戦略と互換性があり、インダクションされた量子化誤差を修正するために、アウタリア対応の微調整が組み込まれている。
BERT,RoBERTa,T5を用いたGLUEベンチマークにおけるPreQuantの有効性を示す。
論文 参考訳(メタデータ) (2023-05-30T08:41:33Z) - NIPQ: Noise proxy-based Integrated Pseudo-Quantization [9.207644534257543]
量子化対応トレーニング(QAT)におけるストレートスルー推定器(STE)の不安定収束
アクティベーションと重みの両面において擬似量子化を統一的にサポートする新しいノイズプロキシベース統合擬似量子化(NIPQ)を提案する。
NIPQは、様々なビジョンや言語アプリケーションにおける既存の量子化アルゴリズムよりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2022-06-02T01:17:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。