論文の概要: 1-Bit Wonder: Improving QAT Performance in the Low-Bit Regime through K-Means Quantization
- arxiv url: http://arxiv.org/abs/2602.15563v1
- Date: Tue, 17 Feb 2026 13:23:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-18 16:03:18.071873
- Title: 1-Bit Wonder: Improving QAT Performance in the Low-Bit Regime through K-Means Quantization
- Title(参考訳): 1ビットワンダー:K平均量子化による低ビットレジームにおけるQAT性能の向上
- Authors: Sohir Maskey, Constantin Eichenberg, Johannes Messner, Douglas Orr,
- Abstract要約: 量子化対応トレーニング(QAT)は、LLMのメモリフットプリントを大幅に削減する有効な方法である。
我々はk平均に基づく重み量子化が整数形式より優れており、標準ハードウェア上で効率的に実装可能であることを示す。
- 参考スコア(独自算出の注目度): 6.530091512185435
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Quantization-aware training (QAT) is an effective method to drastically reduce the memory footprint of LLMs while keeping performance degradation at an acceptable level. However, the optimal choice of quantization format and bit-width presents a challenge in practice. The full design space of quantization is not fully explored in the context of QAT, and the precise trade-off between quantization and downstream performance is poorly understood, as comparisons often rely solely on perplexity-based evaluations. In this work, we address these shortcomings with an empirical study of QAT in the low-bit regime. We show that k-means based weight quantization outperforms integer formats and can be implemented efficiently on standard hardware. Furthermore, we find that, under a fixed inference memory budget, the best performance on generative downstream tasks is achieved with $1$-bit quantized weights.
- Abstract(参考訳): 量子化対応トレーニング(QAT)は、LLMのメモリフットプリントを大幅に削減し、性能劣化を許容レベルに維持する有効な方法である。
しかし、量子化形式とビット幅の最適選択は、実際的な課題である。
量子化の完全な設計空間はQATの文脈では十分に解明されておらず、量子化と下流のパフォーマンスの正確なトレードオフは理解されていない。
本研究では、これらの欠点を低ビット状態におけるQATの実証的研究により解決する。
我々はk平均に基づく重み量子化が整数形式よりも優れており、標準ハードウェア上で効率的に実装可能であることを示す。
さらに、固定された推論メモリ予算の下では、生成する下流タスクの最高の性能は1ビットの量子化重みで達成されることがわかった。
関連論文リスト
- Rethinking Output Alignment For 1-bit Post-Training Quantization of Large Language Models [41.677469535447024]
大きな言語モデル(LLM)は、幅広いNLPタスクに対して強力なパフォーマンスを提供するが、その巨大なサイズは、リソースに制約のあるデバイスへのデプロイメントを妨げる。
トレーニング後の量子化(PTQ)は、リトレーニングを必要とせず、キャリブレーションのための小さなデータセットのみを必要とするため、その効率性に広く採用されている。
ポストトレーニング量子化の最近の進歩は、サブ4ビット法でさえオリジナルのモデル性能のほとんどを維持できることを示した。
論文 参考訳(メタデータ) (2025-12-25T12:39:36Z) - Learning Grouped Lattice Vector Quantizers for Low-Bit LLM Compression [57.54335545892155]
本稿では,各重みの群に独自の格子コードブックを割り当てるGLVQ(Grouped Lattice Vector Quantization)フレームワークを紹介する。
提案手法は,既存のトレーニング後の量子化ベースラインと比較して,モデルサイズと精度のトレードオフが良好である。
論文 参考訳(メタデータ) (2025-10-23T20:19:48Z) - CAGE: Curvature-Aware Gradient Estimation For Accurate Quantization-Aware Training [73.46600457802693]
本稿では,量子化による損失に対応する新しい手法を提案する。
CAGEは、同様の計算コストで、精度の観点から最先端の手法を大幅に改善する。
LlamaモデルのQAT事前トレーニングでは、CAGEは4ビット(W4A4)で達成された精度と事前のベストメソッドとを一致させる。
論文 参考訳(メタデータ) (2025-10-21T16:33:57Z) - Compute-Optimal Quantization-Aware Training [50.98555000360485]
量子化対応トレーニング(QAT)は、量子化されたニューラルネットワークの精度を向上させるための主要な技術である。
従来の研究では、トレーニングを完全精度(FP)フェーズに分解し、QATフェーズが続くと、より優れた精度が得られることが示されている。
最終性能に及ぼすQAT時間の影響について検討する。
論文 参考訳(メタデータ) (2025-09-26T21:09:54Z) - End-to-End On-Device Quantization-Aware Training for LLMs at Inference Cost [53.25965863436039]
量子化対応トレーニング(QAT)は、より原則化されたソリューションを提供するが、バックプロパゲーションに依存しているため、メモリコストは禁じられている。
重み付けとアクティベーション量子化の両方をサポートするゼロオーダー最適化ベースのQATフレームワークであるZeroQATを提案する。
実験の結果、ZeroQATはPTQとQATのベースラインを一貫して上回り、メモリは大幅に削減された。
論文 参考訳(メタデータ) (2025-08-21T01:18:27Z) - QSpec: Speculative Decoding with Complementary Quantization Schemes [53.960146187821685]
大規模言語モデル(LLM)における推論の高速化とメモリ消費削減のために量子化が広く採用されている
品質から効率を分離する新しい量子化パラダイムであるQSpecを提案する。
QSpecは重みとKVキャッシュの両方を段階的に再利用し、再トレーニングや補助モデルなしでほぼゼロコストで切り替えることができる。
論文 参考訳(メタデータ) (2024-10-15T05:57:51Z) - EfficientDM: Efficient Quantization-Aware Fine-Tuning of Low-Bit Diffusion Models [21.17675493267517]
ポストトレーニング量子化(PTQ)と量子化学習(QAT)は、拡散モデルを圧縮・加速する2つの主要なアプローチである。
我々は、PTQのような効率でQATレベルの性能を実現するために、EfficientDMと呼ばれる低ビット拡散モデルのためのデータフリーかつパラメータ効率の微調整フレームワークを導入する。
提案手法は, PTQに基づく拡散モデルにおいて, 同様の時間とデータ効率を保ちながら, 性能を著しく向上させる。
論文 参考訳(メタデータ) (2023-10-05T02:51:53Z) - Norm Tweaking: High-performance Low-bit Quantization of Large Language
Models [21.855106896725598]
そこで本研究では,現在のPTQ手法のプラグインとして利用できるノルム調整手法を提案する。
本手法は,重量のみの量子化と重みとアクティベーションの連成量子化の両面で有意な改善を示す。
私たちのシンプルで効果的なアプローチは、現実世界のアプリケーションにとってより実用的です。
論文 参考訳(メタデータ) (2023-09-06T06:51:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。