論文の概要: Where and How to Enhance: Discovering Bit-Width Contribution for Mixed Precision Quantization
- arxiv url: http://arxiv.org/abs/2508.03002v1
- Date: Tue, 05 Aug 2025 02:14:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 18:18:55.741546
- Title: Where and How to Enhance: Discovering Bit-Width Contribution for Mixed Precision Quantization
- Title(参考訳): ビット幅による混合精度量子化への寄与の発見
- Authors: Haidong Kang, Lianbo Ma, Guo Yu, Shangce Gao,
- Abstract要約: 混合精度量子化(Mixed precision Quantization、MPQ)は、ニューラルネットワークの精度・複雑さのトレードオフを実現するための効果的な量子化手法である。
本稿では,MPQタスクに対するビット幅演算を直接寄与するShapley-based MPQ(SMPQ)手法を提案する。
- 参考スコア(独自算出の注目度): 10.315643425890286
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mixed precision quantization (MPQ) is an effective quantization approach to achieve accuracy-complexity trade-off of neural network, through assigning different bit-widths to network activations and weights in each layer. The typical way of existing MPQ methods is to optimize quantization policies (i.e., bit-width allocation) in a gradient descent manner, termed as Differentiable (DMPQ). At the end of the search, the bit-width associated to the quantization parameters which has the largest value will be selected to form the final mixed precision quantization policy, with the implicit assumption that the values of quantization parameters reflect the operation contribution to the accuracy improvement. While much has been discussed about the MPQ improvement, the bit-width selection process has received little attention. We study this problem and argue that the magnitude of quantization parameters does not necessarily reflect the actual contribution of the bit-width to the task performance. Then, we propose a Shapley-based MPQ (SMPQ) method, which measures the bit-width operation direct contribution on the MPQ task. To reduce computation cost, a Monte Carlo sampling-based approximation strategy is proposed for Shapley computation. Extensive experiments on mainstream benchmarks demonstrate that our SMPQ consistently achieves state-of-the-art performance than gradient-based competitors.
- Abstract(参考訳): 混合精度量子化(MPQ)は、各層のネットワーク活性化と重みに異なるビット幅を割り当てることで、ニューラルネットワークの精度と複雑さのトレードオフを達成する効果的な量子化手法である。
既存のMPQ手法の典型的な方法は、微分可能(DMPQ)と呼ばれる勾配降下方式で量子化ポリシー(ビット幅割り当て)を最適化することである。
探索の最後には、最大値を持つ量子化パラメータに関連するビット幅が選択され、量子化パラメータの値が精度向上に対する演算寄与を反映しているという暗黙の仮定で、最終的な混合精度量子化ポリシーが形成される。
MPQの改善について多くが議論されているが、ビット幅選択プロセスはほとんど注目されていない。
この問題を考察し、量子化パラメータの大きさがタスク性能に対するビット幅の実際の寄与を必ずしも反映していないことを論じる。
そこで本研究では,MPQタスクにおけるビット幅演算を直接寄与するShapley-based MPQ(SMPQ)手法を提案する。
計算コストを削減するため,Shapley計算に対してモンテカルロサンプリングに基づく近似法を提案する。
主流ベンチマークに関する大規模な実験により、我々のSMPQは、勾配ベースの競合相手よりも常に最先端のパフォーマンスを達成していることが示された。
関連論文リスト
- FIMA-Q: Post-Training Quantization for Vision Transformers by Fisher Information Matrix Approximation [55.12070409045766]
ポストトレーニング量子化(PTQ)は近年,費用対効果と有望なモデル圧縮パラダイムとして注目されている。
ビジョン変換器(ViT)の現在のPTQ法は、特に低ビット量子化において、精度が著しく低下している。
論文 参考訳(メタデータ) (2025-06-13T07:57:38Z) - Deep Unfolding with Kernel-based Quantization in MIMO Detection [26.033613526407226]
本稿では,深層展開ネットワークのためのカーネルベースの適応量子化(KAQ)フレームワークを提案する。
提案するKAQフレームワークの精度は従来の手法よりも優れており、モデルによる推論遅延の低減に成功している。
論文 参考訳(メタデータ) (2025-05-19T05:50:24Z) - Mixed-Precision Graph Neural Quantization for Low Bit Large Language Models [13.709080134204326]
トレーニング後の量子化(PTQ)は、リソース制限設定内に大規模な言語モデルをデプロイする上で重要な要素である。
本稿では,グラフニューラルネットワーク (GNN) モジュールを用いて重み間の依存関係をキャプチャする混合精度グラフニューラルPTQ (MG-PTQ) 手法を提案する。
本手法は, 目標重み間の依存性をより効果的に把握し, 重みの重要性をより正確に評価する。
論文 参考訳(メタデータ) (2025-01-30T05:39:01Z) - Channel-Wise Mixed-Precision Quantization for Large Language Models [47.00361921910259]
大規模言語モデル(LLM)は、幅広い言語タスクで顕著な成功を収めている。
重みのみの量子化は、LCMのメモリフットプリントを削減するための有望な解決策である。
本稿では,CMPQ(Channel-Wise Mixed-Precision Quantization)を提案する。
論文 参考訳(メタデータ) (2024-10-16T21:34:41Z) - SliM-LLM: Salience-Driven Mixed-Precision Quantization for Large Language Models [63.118592279833656]
後学習量子化(PTQ)は,大規模言語モデル(LLM)の圧縮に有効な手法である
本稿では,SliM-LLMを提案する。SliM-LLMは,グループ単位でビット幅を割り当てるサリエンス駆動の混合精度量子化フレームワークである。
実験により、SliM-LLMは低ビット幅の様々なLLMにおいて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-23T16:21:48Z) - On-Chip Hardware-Aware Quantization for Mixed Precision Neural Networks [52.97107229149988]
エッジデバイス上でハードウェア対応の混合精度量子化を行うOn-Chipハードウェア・アウェア量子化フレームワークを提案する。
このパイプラインは、量子化プロセスが量子化演算子の実際のハードウェア効率を知覚することを可能にする。
精度測定のために,マルチチップシナリオにおける演算子の精度への影響を効果的に推定するMask-Guided Quantization Estimation技術を提案する。
論文 参考訳(メタデータ) (2023-09-05T04:39:34Z) - Mixed-Precision Quantization for Deep Vision Models with Integer Quadratic Programming [7.0146264551420066]
量子化はニューラルネットワークを圧縮する技術として広く使われている。
MPQは、様々なビット幅をレイヤに割り当て、精度と効率のトレードオフを最適化することで、この問題に対処する。
我々は、量子化誤差の層間依存性をキャプチャする実用的な感度に基づくMPQアルゴリズムであるCLADOを紹介する。
論文 参考訳(メタデータ) (2023-07-11T15:56:00Z) - SDQ: Stochastic Differentiable Quantization with Mixed Precision [46.232003346732064]
本稿では,MPQ戦略を自動的に学習できる新しい微分可能量子化(SDQ)手法を提案する。
最適なMPQ戦略が得られた後、エントロピーを意識したビン正規化と知識蒸留でネットワークを訓練する。
SDQは、最先端の混合データセット、または低いビット幅で単一精度の量子化よりも優れている。
論文 参考訳(メタデータ) (2022-06-09T12:38:18Z) - Cluster-Promoting Quantization with Bit-Drop for Minimizing Network
Quantization Loss [61.26793005355441]
クラスタ・プロモーティング・量子化(CPQ)は、ニューラルネットワークに最適な量子化グリッドを見つける。
DropBitsは、ニューロンの代わりにランダムにビットをドロップする標準のドロップアウト正規化を改訂する新しいビットドロップ技術である。
本手法を様々なベンチマークデータセットとネットワークアーキテクチャ上で実験的に検証する。
論文 参考訳(メタデータ) (2021-09-05T15:15:07Z) - BSQ: Exploring Bit-Level Sparsity for Mixed-Precision Neural Network
Quantization [32.770842274996774]
混合精度量子化は、ディープニューラルネットワークの性能と圧縮率の最適なトレードオフを実現できる可能性がある。
従来の方法は、小さな手作業で設計された検索空間のみを調べるか、面倒なニューラルネットワークアーキテクチャ検索を使用して広大な検索空間を探索する。
本研究では、ビットレベルスパーシティを誘導する新たな角度から、混合精度量子化に取り組むためのビットレベルスパーシティ量子化(BSQ)を提案する。
論文 参考訳(メタデータ) (2021-02-20T22:37:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。