論文の概要: InfoQ: Mixed-Precision Quantization via Global Information Flow
- arxiv url: http://arxiv.org/abs/2508.04753v1
- Date: Wed, 06 Aug 2025 11:07:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 18:59:39.593185
- Title: InfoQ: Mixed-Precision Quantization via Global Information Flow
- Title(参考訳): InfoQ: グローバル情報フローによる混合精度量子化
- Authors: Mehmet Emre Akbulut, Hazem Hesham Yousef Shalby, Fabrizio Pittorino, Manuel Roveri,
- Abstract要約: リソース制約のあるデバイスにディープニューラルネットワークをデプロイするには、MPQ(Mixed-precision Quantization)が不可欠である。
私たちは、ビット幅検索フェーズでトレーニング不要なMPQのための新しいフレームワークであるInfoQを紹介します。
- 参考スコア(独自算出の注目度): 3.4096951613673068
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mixed-precision quantization (MPQ) is crucial for deploying deep neural networks on resource-constrained devices, but finding the optimal bit-width for each layer represents a complex combinatorial optimization problem. Current state-of-the-art methods rely on computationally expensive search algorithms or local sensitivity heuristic proxies like the Hessian, which fail to capture the cascading global effects of quantization error. In this work, we argue that the quantization sensitivity of a layer should not be measured by its local properties, but by its impact on the information flow throughout the entire network. We introduce InfoQ, a novel framework for MPQ that is training-free in the bit-width search phase. InfoQ assesses layer sensitivity by quantizing each layer at different bit-widths and measuring, through a single forward pass, the resulting change in mutual information in the subsequent layers. This quantifies how much each layer quantization impacts the network information flow. The resulting scores are used to formulate bit-width allocation as an integer linear programming problem, which is solved efficiently to minimize total sensitivity under a given budget (e.g., model size or BitOps). Our retraining-free search phase provides a superior search-time/accuracy trade-off (using two orders of magnitude less data compared to state-of-the-art methods such as LIMPQ), while yielding up to a 1% accuracy improvement for MobileNetV2 and ResNet18 on ImageNet at high compression rates (14X and 10.66X).
- Abstract(参考訳): 資源制約のあるデバイスにディープニューラルネットワークをデプロイするにはMPQ(Mixed-precision Quantization)が不可欠だが、各層に最適なビット幅を見つけることは複雑な組合せ最適化の問題である。
現在の最先端の手法は計算コストのかかる探索アルゴリズムやヘシアンのような局所感度ヒューリスティックプロキシに依存しており、量子化誤差のカスケードな大域的な影響を捉えられなかった。
本研究では,各層の量子化感度は局所特性によって測定されるべきではなく,ネットワーク全体の情報フローに与える影響を論じる。
私たちは、ビット幅検索フェーズでトレーニング不要なMPQのための新しいフレームワークであるInfoQを紹介します。
InfoQは、各レイヤを異なるビット幅で定量化し、単一のフォワードパスを通じて測定することで、レイヤの感度を評価し、その結果、後続のレイヤにおける相互情報の変化をもたらす。
これにより、各レイヤの量子化がネットワーク情報フローにどの程度影響するかを定量化する。
得られたスコアは整数線形プログラミング問題としてビット幅割り当てを定式化するために使用され、これは与えられた予算(例えばモデルサイズやBitOps)で全体の感度を最小化するために効率よく解決される。
LIMPQのような最先端の手法に比べて2桁の精度で検索時間/精度のトレードオフが得られ、画像Net上のMobileNetV2とResNet18を高い圧縮レート(14X, 10.66X)で1%の精度向上を実現した。
関連論文リスト
- Reducing Storage of Pretrained Neural Networks by Rate-Constrained Quantization and Entropy Coding [56.066799081747845]
成長を続けるニューラルネットワークのサイズは、リソースに制約のあるデバイスに深刻な課題をもたらす。
本稿では,レートアウェア量子化とエントロピー符号化を組み合わせた学習後圧縮フレームワークを提案する。
この方法では非常に高速な復号化が可能であり、任意の量子化グリッドと互換性がある。
論文 参考訳(メタデータ) (2025-05-24T15:52:49Z) - Mixed-Precision Quantization for Deep Vision Models with Integer Quadratic Programming [7.0146264551420066]
量子化はニューラルネットワークを圧縮する技術として広く使われている。
MPQは、様々なビット幅をレイヤに割り当て、精度と効率のトレードオフを最適化することで、この問題に対処する。
我々は、量子化誤差の層間依存性をキャプチャする実用的な感度に基づくMPQアルゴリズムであるCLADOを紹介する。
論文 参考訳(メタデータ) (2023-07-11T15:56:00Z) - Automatic Network Adaptation for Ultra-Low Uniform-Precision
Quantization [6.1664476076961146]
一様精度ニューラルネットワーク量子化は、高計算能力のために高密度に充填された演算ユニットを単純化したため、人気を集めている。
層間の量子化誤差の影響に対して不均一な感度を無視し、結果として準最適推論をもたらす。
本研究は,超低精度量子化による精度劣化を軽減するために,ニューラルネットワーク構造を調整するニューラルチャネル拡張と呼ばれる新しいニューラルアーキテクチャ探索を提案する。
論文 参考訳(メタデータ) (2022-12-21T09:41:25Z) - CADyQ: Content-Aware Dynamic Quantization for Image Super-Resolution [55.50793823060282]
本稿では,画像超解像(SR)ネットワークのための新しいコンテント・アウェア・ダイナミック量子化(CADyQ)手法を提案する。
CADyQは、入力画像のローカル内容に基づいて、局所領域と層に最適なビットを適応的に割り当てる。
パイプラインは様々なSRネットワークでテストされ、いくつかの標準ベンチマークで評価されている。
論文 参考訳(メタデータ) (2022-07-21T07:50:50Z) - Green, Quantized Federated Learning over Wireless Networks: An
Energy-Efficient Design [68.86220939532373]
有限精度レベルは、固定精度フォーマットで重みとアクティベーションを定量化する量子ニューラルネットワーク(QNN)を使用して取得される。
提案するFLフレームワークは,ベースラインFLアルゴリズムと比較して,収束までのエネルギー消費量を最大70%削減することができる。
論文 参考訳(メタデータ) (2022-07-19T16:37:24Z) - Arbitrary Bit-width Network: A Joint Layer-Wise Quantization and
Adaptive Inference Approach [38.03309300383544]
そこで本研究では,データ依存動的推論を実現するために,様々な量子化方式で異なるデータサンプルを微細な層レベルで供給することを提案する。
本稿では,Arbitrary Bit-width Network(ABN)を提案する。
ImageNet分類では、36.2%のBitOpsを節約しながら、1.1%のトップ1の精度向上を実現しています。
論文 参考訳(メタデータ) (2022-04-21T09:36:43Z) - Mixed-Precision Neural Network Quantization via Learned Layer-wise
Importance [50.00102219630088]
混合精度量子化(MPQ)は各層に対して最適なビット幅を決定するのを難しくする。
本稿では,すべての指標を同時に取得できる共同学習手法を提案する。
例えば、ResNet18上のインデックスによるMPQ検索は、わずか0.06秒しかかからない。
論文 参考訳(メタデータ) (2022-03-16T03:23:50Z) - OMPQ: Orthogonal Mixed Precision Quantization [64.59700856607017]
混合精度量子化は、ハードウェアの多重ビット幅演算を利用して、ネットワーク量子化の全ポテンシャルを解き放つ。
本稿では、整数プログラミングの損失と高い相関関係にあるネットワーク性の概念であるプロキシメトリックを最適化することを提案する。
このアプローチは、量子化精度にほとんど妥協することなく、検索時間と必要なデータ量を桁違いに削減する。
論文 参考訳(メタデータ) (2021-09-16T10:59:33Z) - AQD: Towards Accurate Fully-Quantized Object Detection [94.06347866374927]
本稿では,浮動小数点演算を除去するために,AQDと呼ばれる高精度な量子化オブジェクト検出ソリューションを提案する。
我々のAQDは、非常に低ビットのスキームの下での完全精度と比較して、同等またはそれ以上の性能を実現しています。
論文 参考訳(メタデータ) (2020-07-14T09:07:29Z) - WaveQ: Gradient-Based Deep Quantization of Neural Networks through
Sinusoidal Adaptive Regularization [8.153944203144988]
深部量子化トレーニングのための新しい正弦波正則化SINAREQを提案する。
我々はSINAREQが計算効率と精度のバランスをとる方法を示し、多種多様な深層ネットワークの量子化のための異種ビット幅割り当てを提供する。
論文 参考訳(メタデータ) (2020-02-29T01:19:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。