論文の概要: Arithmetic-Intensity-Aware Quantization
- arxiv url: http://arxiv.org/abs/2512.14090v1
- Date: Tue, 16 Dec 2025 04:59:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 16:49:26.594092
- Title: Arithmetic-Intensity-Aware Quantization
- Title(参考訳): 算術的強度を考慮した量子化
- Authors: Taig Singh, Shreshth Rajan, Nikhil Iyer,
- Abstract要約: 本稿では,混合精度量子化フレームワークであるArithmetic-Intensity-Aware Quantization (AIQ)を提案する。
AIQは、演算強度(AI)を最大化し、精度損失を最小限に抑えるために、層ごとのビット幅を選択する。
メモリバウンドのMobileNetV2アーキテクチャでは、AIQ構成はFP32ベースラインよりも1.66倍高いスループットを提供する。
- 参考スコア(独自算出の注目度): 0.35684665108045394
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As modern neural networks become increasingly memory-bound, inference throughput is limited by DRAM bandwidth rather than compute. We present Arithmetic-Intensity-Aware Quantization (AIQ), a mixed precision quantization framework that chooses per-layer bit-widths to maximize arithmetic intensity (AI) while minimizing accuracy loss. AIQ is a post-training quantization method that uses search algorithms over per-layer quantization schemes to minimize a weighted loss over AI and accuracy. On ResNet-20/CIFAR-10, AIQ increases AI by ~50% over an FP32 baseline while keeping test accuracy within ~1 percentage point, and outperforming global uniform quantization schemes. On a memory-bound MobileNetV2 architecture, AIQ configurations give a 1.66x higher throughput than the FP32 baseline while keeping test accuracy within 1 percentage point. We also find that AIQ naturally quantizes larger layers more aggressively.
- Abstract(参考訳): 現代のニューラルネットワークがメモリバウンド化するにつれて、推論スループットは計算よりもDRAM帯域幅によって制限される。
本稿では,Arithmetic-Intensity-Aware Quantization (AIQ)について述べる。
AIQは、階層ごとの量子化スキームによる探索アルゴリズムを用いて、AIと精度に対する重み付け損失を最小限に抑える訓練後の量子化手法である。
ResNet-20/CIFAR-10では、AIはFP32ベースラインよりも50%向上し、テスト精度は1ポイント以内で、グローバルな均一量子化スキームを上回る。
メモリバウンドのMobileNetV2アーキテクチャでは、AIQ構成はFP32ベースラインよりも1.66倍高いスループットを持ち、テスト精度は1ポイント以内である。
また、AIQは大きな層をより積極的に定量化する。
関連論文リスト
- A2Q: Accumulator-Aware Quantization with Guaranteed Overflow Avoidance [49.1574468325115]
accumulator-aware Quantization (A2Q)は、量子化されたニューラルネットワーク(QNN)をトレーニングして、推論時のオーバーフローを回避するために設計された新しい重み量子化手法である。
A2Qは重み正規化にインスパイアされたユニークな定式化を導入し、アキュミュレータビット幅境界に従ってモデルの重みのL1ノルムを制約する。
A2Qは浮動小数点ベースラインと競合するモデルの精度を維持しつつ、低精度のアキュムレータのためのQNNを訓練できることを示す。
論文 参考訳(メタデータ) (2023-08-25T17:28:58Z) - Mixed-Precision Quantization for Deep Vision Models with Integer Quadratic Programming [7.0146264551420066]
量子化はニューラルネットワークを圧縮する技術として広く使われている。
MPQは、様々なビット幅をレイヤに割り当て、精度と効率のトレードオフを最適化することで、この問題に対処する。
我々は、量子化誤差の層間依存性をキャプチャする実用的な感度に基づくMPQアルゴリズムであるCLADOを紹介する。
論文 参考訳(メタデータ) (2023-07-11T15:56:00Z) - AutoQNN: An End-to-End Framework for Automatically Quantizing Neural
Networks [6.495218751128902]
我々は,人的負担を伴わずに,異なるスキームやビット幅を用いて異なるレイヤを自動的に定量化する,AutoQNNというエンドツーエンドフレームワークを提案する。
QPLは、量子化スキームのビット幅を再パラメータ化することで、混合精度ポリシーを学習する最初の方法である。
QAGは、任意のアーキテクチャを手動で介入することなく、対応する量子化アーキテクチャに変換するように設計されている。
論文 参考訳(メタデータ) (2023-04-07T11:14:21Z) - OMPQ: Orthogonal Mixed Precision Quantization [72.63889596498004]
混合精度量子化は、ハードウェアの多重ビット幅演算を利用して、ネットワーク量子化の全ポテンシャルを解き放つ。
本稿では、整数プログラミングの損失と高い相関関係にあるネットワーク性の概念であるプロキシメトリックを最適化することを提案する。
このアプローチは、量子化精度にほとんど妥協することなく、検索時間と必要なデータ量を桁違いに削減する。
論文 参考訳(メタデータ) (2021-09-16T10:59:33Z) - AQD: Towards Accurate Fully-Quantized Object Detection [94.06347866374927]
本稿では,浮動小数点演算を除去するために,AQDと呼ばれる高精度な量子化オブジェクト検出ソリューションを提案する。
我々のAQDは、非常に低ビットのスキームの下での完全精度と比較して、同等またはそれ以上の性能を実現しています。
論文 参考訳(メタデータ) (2020-07-14T09:07:29Z) - APQ: Joint Search for Network Architecture, Pruning and Quantization
Policy [49.3037538647714]
本稿では,リソース制約のあるハードウェア上での効率的なディープラーニング推論のためのAPQを提案する。
ニューラルアーキテクチャ、プルーニングポリシー、量子化ポリシーを別々に検索する従来の方法とは異なり、我々はそれらを共同で最適化する。
同じ精度で、APQはMobileNetV2+HAQよりもレイテンシ/エネルギーを2倍/1.3倍削減する。
論文 参考訳(メタデータ) (2020-06-15T16:09:17Z) - WaveQ: Gradient-Based Deep Quantization of Neural Networks through
Sinusoidal Adaptive Regularization [8.153944203144988]
深部量子化トレーニングのための新しい正弦波正則化SINAREQを提案する。
我々はSINAREQが計算効率と精度のバランスをとる方法を示し、多種多様な深層ネットワークの量子化のための異種ビット幅割り当てを提供する。
論文 参考訳(メタデータ) (2020-02-29T01:19:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。