論文の概要: MEC-Quant: Maximum Entropy Coding for Extremely Low Bit Quantization-Aware Training
- arxiv url: http://arxiv.org/abs/2509.15514v1
- Date: Fri, 19 Sep 2025 01:37:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 18:18:10.954485
- Title: MEC-Quant: Maximum Entropy Coding for Extremely Low Bit Quantization-Aware Training
- Title(参考訳): MEC-Quant:極低ビット量子化学習のための最大エントロピー符号化
- Authors: Junbiao Pang, Tianyang Cai, Baochang Zhang,
- Abstract要約: QAT(Quantization-Aware Training)は、効率的なニューラルネットワークを生み出すために多くの注目を集めている。
量子化は必然的に学習表現にバイアスをもたらす、と我々は主張する。
本稿ではエントロピー符号化量子化(MEC-Quant)を提案する。
- 参考スコア(独自算出の注目度): 15.099918961133866
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Quantization-Aware Training (QAT) has driven much attention to produce efficient neural networks. Current QAT still obtains inferior performances compared with the Full Precision (FP) counterpart. In this work, we argue that quantization inevitably introduce biases into the learned representation, especially under the extremely low-bit setting. To cope with this issue, we propose Maximum Entropy Coding Quantization (MEC-Quant), a more principled objective that explicitly optimizes on the structure of the representation, so that the learned representation is less biased and thus generalizes better to unseen in-distribution samples. To make the objective end-to-end trainable, we propose to leverage the minimal coding length in lossy data coding as a computationally tractable surrogate for the entropy, and further derive a scalable reformulation of the objective based on Mixture Of Experts (MOE) that not only allows fast computation but also handles the long-tailed distribution for weights or activation values. Extensive experiments on various tasks on computer vision tasks prove its superiority. With MEC-Qaunt, the limit of QAT is pushed to the x-bit activation for the first time and the accuracy of MEC-Quant is comparable to or even surpass the FP counterpart. Without bells and whistles, MEC-Qaunt establishes a new state of the art for QAT.
- Abstract(参考訳): QAT(Quantization-Aware Training)は、効率的なニューラルネットワークを生み出すために多くの注目を集めている。
現在のQATはフル精度(Full Precision, FP)に比べて性能が劣っている。
本研究では,量子化が学習表現に必然的にバイアスをもたらすことを論じる。
この問題に対処するため,より原理化された目的である最大エントロピー符号化量子化(MEC-Quant)を提案する。
目的をエンドツーエンドにトレーニングできるようにするため、損失データ符号化における最小の符号化長をエントロピーの計算的トラクション可能なサロゲートとして利用し、また、高速な計算を可能にするだけでなく、重みやアクティベーション値のロングテール分布も扱えるMixture of Experts (MOE)に基づく目的のスケーラブルな再構成を導出することを提案する。
コンピュータビジョンタスクにおける様々なタスクに関する大規模な実験は、その優位性を証明している。
MEC-Qauntでは、QATの極限が初めてxビットアクティベーションにプッシュされ、MEC-Quantの精度はFPと同等かそれ以上である。
MEC-Qauntはベルとホイッスルなしで、QATのための新しい最先端技術を確立している。
関連論文リスト
- ZeroQAT: Your Quantization-aware Training but Efficient [53.25965863436039]
量子化は、大規模言語モデル(LLM)のデプロイメントコストを削減する効果的な手法である。
既存の低ビットPTQ法は, 局所再構成目標と下流性能の相違による累積誤差の伝搬と誤調整が生じるため, 精度劣化に悩まされる。
我々は,ゼロオーダー最適化に基づくQATフレームワークZeroQATを提案する。
論文 参考訳(メタデータ) (2025-08-21T01:18:27Z) - MSQ: Memory-Efficient Bit Sparsification Quantization [11.510434574824213]
混合精度量子化は効率と精度のバランスが優れているため、広く好まれる。
メモリ効率の良いビットスカラー化量子化(MSQ)を提案する。
MSQは、トレーニング可能なパラメータの最大8.00倍の削減、トレーニング時間の最大86%の削減を実現している。
論文 参考訳(メタデータ) (2025-07-30T03:21:29Z) - MPQ-DMv2: Flexible Residual Mixed Precision Quantization for Low-Bit Diffusion Models with Temporal Distillation [74.34220141721231]
我々は,textbfMixed textbfPrecision textbfQuantizationフレームワークを改良したMPQ-DMv2を提案する。
論文 参考訳(メタデータ) (2025-07-06T08:16:50Z) - FIMA-Q: Post-Training Quantization for Vision Transformers by Fisher Information Matrix Approximation [55.12070409045766]
ポストトレーニング量子化(PTQ)は近年,費用対効果と有望なモデル圧縮パラダイムとして注目されている。
ビジョン変換器(ViT)の現在のPTQ法は、特に低ビット量子化において、精度が著しく低下している。
論文 参考訳(メタデータ) (2025-06-13T07:57:38Z) - On-Chip Hardware-Aware Quantization for Mixed Precision Neural Networks [52.97107229149988]
エッジデバイス上でハードウェア対応の混合精度量子化を行うOn-Chipハードウェア・アウェア量子化フレームワークを提案する。
このパイプラインは、量子化プロセスが量子化演算子の実際のハードウェア効率を知覚することを可能にする。
精度測定のために,マルチチップシナリオにおける演算子の精度への影響を効果的に推定するMask-Guided Quantization Estimation技術を提案する。
論文 参考訳(メタデータ) (2023-09-05T04:39:34Z) - Designing strong baselines for ternary neural network quantization
through support and mass equalization [7.971065005161565]
ディープニューラルネットワーク(DNN)は、コンピュータビジョンにおける幅広いアプリケーションにおいて、最高のパフォーマンスを提供する。
浮動小数点値を3次値に定量化することにより、この計算負担を劇的に低減することができる。
提案手法は, 様々なシナリオを用いて三次量子化の性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2023-06-30T07:35:07Z) - Self-Supervised Learning via Maximum Entropy Coding [57.56570417545023]
本稿では,表現の構造を明示的に最適化する原理的目的として,最大エントロピー符号化(MEC)を提案する。
MECは、特定のプリテキストタスクに基づいて、以前のメソッドよりもより一般化可能な表現を学ぶ。
ImageNetリニアプローブだけでなく、半教師付き分類、オブジェクト検出、インスタンスセグメンテーション、オブジェクトトラッキングなど、さまざまなダウンストリームタスクに対して一貫して最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-10-20T17:58:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。