論文の概要: Unifying Uniform and Binary-coding Quantization for Accurate Compression of Large Language Models
- arxiv url: http://arxiv.org/abs/2506.03781v1
- Date: Wed, 04 Jun 2025 09:42:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.274429
- Title: Unifying Uniform and Binary-coding Quantization for Accurate Compression of Large Language Models
- Title(参考訳): 大規模言語モデルの正確な圧縮のための一様および二項符号化量子化
- Authors: Seungcheol Park, Jeongin Bae, Beomseok Kwon, Minjun Kim, Byeongwook Kim, Se Jung Kwon, U Kang, Dongsoo Lee,
- Abstract要約: 大規模言語モデル(LLM)の正確な量子化手法であるUniQuanF (UniQuanF with Flexible Mapping)を提案する。
UniQuanFは、UQのフレキシブルマッピング技術とBCQの非一様量子化レベルを統合することで、強い表現性と最適化性を利用する。
実験の結果、UniQuanFは既存のUQとBCQの手法より優れており、GSM8Kベンチマークで最大4.60%高い精度を達成している。
- 参考スコア(独自算出の注目度): 17.06112746144374
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: How can we quantize large language models while preserving accuracy? Quantization is essential for deploying large language models (LLMs) efficiently. Binary-coding quantization (BCQ) and uniform quantization (UQ) are promising quantization schemes that have strong expressiveness and optimizability, respectively. However, neither scheme leverages both advantages. In this paper, we propose UniQuanF (Unified Quantization with Flexible Mapping), an accurate quantization method for LLMs. UniQuanF harnesses both strong expressiveness and optimizability by unifying the flexible mapping technique in UQ and non-uniform quantization levels of BCQ. We propose unified initialization, and local and periodic mapping techniques to optimize the parameters in UniQuanF precisely. After optimization, our unification theorem removes computational and memory overhead, allowing us to utilize the superior accuracy of UniQuanF without extra deployment costs induced by the unification. Experimental results demonstrate that UniQuanF outperforms existing UQ and BCQ methods, achieving up to 4.60% higher accuracy on GSM8K benchmark.
- Abstract(参考訳): 精度を維持しながら、どのようにして大きな言語モデルを定量化できるのか?
大規模言語モデル(LLM)の効率的なデプロイには量子化が不可欠である。
バイナリ符号化量子化(BCQ)と均一量子化(UQ)は、それぞれ強い表現性と最適化性を持つ有望な量子化スキームである。
しかし、どちらのスキームも両方の利点を生かしていない。
本稿では,LLMの正確な量子化手法であるUniQuanF (Uniified Quantization with Flexible Mapping)を提案する。
UniQuanFは、UQのフレキシブルマッピング技術とBCQの非一様量子化レベルを統一することにより、強い表現性と最適化性の両方を利用する。
我々はUniQuanFのパラメータを正確に最適化するための統一初期化と局所および周期マッピング手法を提案する。
最適化後、我々のユニフィケーション定理は計算とメモリのオーバーヘッドを除去し、ユニフィフィケーションによって引き起こされる余分な展開コストを伴わずに、UniQuanFの優れた精度を利用できるようにした。
実験の結果、UniQuanFは既存のUQとBCQの手法より優れており、GSM8Kベンチマークで最大4.60%高い精度を達成している。
関連論文リスト
- NeUQI: Near-Optimal Uniform Quantization Parameter Initialization [41.08779476737888]
大規模言語モデル(LLM)のトレーニング後の量子化は、メモリフットプリントを削減し、遅延をデコードする有望なソリューションを提供する。
最近の$geq 2$-bit均一量子化の研究は、ポスト量子化モデルの性能に顕著な改善をもたらした。
均一量子化のための近似初期パラメータを効率的に決定する手法NeUQIを提案する。
論文 参考訳(メタデータ) (2025-05-23T07:59:46Z) - GANQ: GPU-Adaptive Non-Uniform Quantization for Large Language Models [2.1388885579612804]
GANQは、ハードウェア効率の良いルックアップテーブルベースのmpGEMMに最適化されたレイヤーワイズ後の非一様量子化フレームワークである。
広汎な実験は、3ビットおよび4ビット量子化の最先端手法と比較して、GANQのFP16ベースラインからのパープレキシティギャップを低減する能力を示している。
論文 参考訳(メタデータ) (2025-01-22T15:29:09Z) - EfficientQAT: Efficient Quantization-Aware Training for Large Language Models [50.525259103219256]
量子化対応トレーニング(QAT)は、低ビット表現によるメモリ消費を最小限の精度で削減することで、ソリューションを提供する。
より有効なQATアルゴリズムであるEfficient QAT(Efficient Quantization-Aware Training)を提案する。
効率的なQATは、全てのパラメータのブロックワイドトレーニング(Block-AP)と量子化パラメータのエンドツーエンドトレーニング(E2E-QP)の2つのフェーズを含む。
論文 参考訳(メタデータ) (2024-07-10T17:53:30Z) - SliM-LLM: Salience-Driven Mixed-Precision Quantization for Large Language Models [63.118592279833656]
後学習量子化(PTQ)は,大規模言語モデル(LLM)の圧縮に有効な手法である
本稿では,SliM-LLMを提案する。SliM-LLMは,グループ単位でビット幅を割り当てるサリエンス駆動の混合精度量子化フレームワークである。
実験により、SliM-LLMは低ビット幅の様々なLLMにおいて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-23T16:21:48Z) - LLMC: Benchmarking Large Language Model Quantization with a Versatile Compression Toolkit [55.73370804397226]
鍵圧縮技術である量子化は、大きな言語モデルを圧縮し、加速することにより、これらの要求を効果的に軽減することができる。
本稿では,プラグアンドプレイ圧縮ツールキットであるLLMCについて,量子化の影響を公平かつ体系的に検討する。
この汎用ツールキットによって、我々のベンチマークはキャリブレーションデータ、アルゴリズム(3つの戦略)、データフォーマットの3つの重要な側面をカバーしています。
論文 参考訳(メタデータ) (2024-05-09T11:49:05Z) - AffineQuant: Affine Transformation Quantization for Large Language Models [58.45460102764]
ポストトレーニング量子化(PTQ)は、その圧縮効率とトレーニングの文脈における費用対効果により、かなりの関心を集めている。
既存の大規模言語モデル(LLM)のPTQ手法は、事前量子化重みと後量子化重みの間の変換のスケーリングに最適化範囲を制限している。
本稿では,PTQ(AffineQuant)における等価アフィン変換を用いた直接最適化を提唱する。
論文 参考訳(メタデータ) (2024-03-19T08:40:21Z) - Extreme Compression of Large Language Models via Additive Quantization [59.3122859349777]
我々のアルゴリズムは、AQLMと呼ばれ、情報検索のための古典的な加算量子化(AQ)アプローチを一般化する。
トークン生成のためのAQLMの高速GPUおよびCPU実装を提供しており、最適化されたFP16実装を高速にマッチングまたは性能良くすることができる。
論文 参考訳(メタデータ) (2024-01-11T18:54:44Z) - QuantEase: Optimization-based Quantization for Language Models [17.333778751252392]
本研究は,近年のLarge Language Models (LLMs) の進歩から,様々な量子化層の量子化(PTQ)を導入する。
当社のCDベースのアプローチは、ベクター操作にのみ依存して、簡単にアップデートできる。
我々はまた、完全な精度で重要な重量(外積)を維持することができるような、外れ値のアプローチも検討している。
論文 参考訳(メタデータ) (2023-09-05T01:39:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。