論文の概要: PROM: Prioritize Reduction of Multiplications Over Lower Bit-Widths for Efficient CNNs
- arxiv url: http://arxiv.org/abs/2505.03254v1
- Date: Tue, 06 May 2025 07:32:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-07 18:50:11.242836
- Title: PROM: Prioritize Reduction of Multiplications Over Lower Bit-Widths for Efficient CNNs
- Title(参考訳): PROM:効率的なCNNのための低ビット幅での乗算の優先順位付け
- Authors: Lukas Meiner, Jens Mehnert, Alexandru Paul Condurache,
- Abstract要約: ProMは,2つの異なるビット幅を選択的に使用することにより,奥行き分離可能な畳み込みネットワークを定量化するための簡単な手法である。
具体的には、ポイントワイズ畳み込みは3次重みに量子化され、残りの加群は8ビット重みを使用する。
PROMは、深度的に分離可能な畳み込みネットワークを3次と8ビットの重みに量子化する課題に対処する。
- 参考スコア(独自算出の注目度): 46.498278084317704
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Convolutional neural networks (CNNs) are crucial for computer vision tasks on resource-constrained devices. Quantization effectively compresses these models, reducing storage size and energy cost. However, in modern depthwise-separable architectures, the computational cost is distributed unevenly across its components, with pointwise operations being the most expensive. By applying a general quantization scheme to this imbalanced cost distribution, existing quantization approaches fail to fully exploit potential efficiency gains. To this end, we introduce PROM, a straightforward approach for quantizing modern depthwise-separable convolutional networks by selectively using two distinct bit-widths. Specifically, pointwise convolutions are quantized to ternary weights, while the remaining modules use 8-bit weights, which is achieved through a simple quantization-aware training procedure. Additionally, by quantizing activations to 8-bit, our method transforms pointwise convolutions with ternary weights into int8 additions, which enjoy broad support across hardware platforms and effectively eliminates the need for expensive multiplications. Applying PROM to MobileNetV2 reduces the model's energy cost by more than an order of magnitude (23.9x) and its storage size by 2.7x compared to the float16 baseline while retaining similar classification performance on ImageNet. Our method advances the Pareto frontier for energy consumption vs. top-1 accuracy for quantized convolutional models on ImageNet. PROM addresses the challenges of quantizing depthwise-separable convolutional networks to both ternary and 8-bit weights, offering a simple way to reduce energy cost and storage size.
- Abstract(参考訳): 畳み込みニューラルネットワーク(CNN)は、リソース制約されたデバイス上でのコンピュータビジョンタスクに不可欠である。
量子化はこれらのモデルを効果的に圧縮し、ストレージサイズとエネルギーコストを削減します。
しかし、現代の奥行き分離可能なアーキテクチャでは、計算コストはコンポーネント間で不均一に分散し、ポイントワイズ操作が最も高価である。
この不均衡なコスト分布に一般的な量子化スキームを適用することで、既存の量子化アプローチは潜在的効率の利得を完全に活用することができない。
この目的のために,2つの異なるビット幅を選択的に使用することにより,現代的な深度分離型畳み込みネットワークを定量化するPROMを導入する。
具体的には、ポイントワイズ畳み込みは3次重みに量子化され、残りのモジュールは8ビット重みを使用する。
さらに,アクティベーションを8ビットに量子化することにより,3次重み付きポイントワイド畳み込みをInt8加算に変換する。
PROMをMobileNetV2に適用すると、モデルのエネルギーコストは桁違い(23.9倍)、ストレージサイズはfloat16ベースラインに比べて2.7倍削減され、ImageNetでも同様の分類性能を維持している。
提案手法は,ImageNet上の量子化畳み込みモデルにおいて,エネルギー消費に対するParetoフロンティアとトップ1の精度を向上する。
PROMは、深度分離可能な畳み込みネットワークを3次と8ビットの重みの両方に量子化するという課題に対処し、エネルギーコストとストレージサイズを簡易に削減する方法を提供する。
関連論文リスト
- DeepGEMM: Accelerated Ultra Low-Precision Inference on CPU Architectures
using Lookup Tables [49.965024476651706]
DeepGEMMはSIMDハードウェア上で超高精度畳み込みニューラルネットワークを実行するためのルックアップテーブルベースのアプローチである。
実装は、x86プラットフォーム上で、対応する8ビット整数カーネルを最大1.74倍の性能で上回る。
論文 参考訳(メタデータ) (2023-04-18T15:13:10Z) - Sub 8-Bit Quantization of Streaming Keyword Spotting Models for Embedded
Chipsets [7.5195830365852085]
本稿では,250Kパラメータのフィードフォワード,ストリーミング,ステートフリーなキーワードスポッティングモデルの全コンポーネントに対する,新しいサブ8ビット量子化対応トレーニングアルゴリズムを提案する。
大規模実験を行い、26,000時間の非特定生産、遠距離場および近距離場音声データをトレーニングする。
論文 参考訳(メタデータ) (2022-07-13T17:46:08Z) - Power-of-Two Quantization for Low Bitwidth and Hardware Compliant Neural
Networks [1.398698203665363]
本稿では,低ビット精度を利用する非線形量子化手法について検討する。
我々は,低ビット幅のPower-of-Two(PoT)ネットワークのトレーニングを可能にするQATアルゴリズムを開発した。
同時に、PoT量子化はニューラルネットワークの計算複雑性を大幅に減らす。
論文 参考訳(メタデータ) (2022-03-09T19:57:14Z) - 8-bit Optimizers via Block-wise Quantization [57.25800395197516]
ステートフルズは、例えば過去の値の指数的滑らかな和(運動量付きSGD)や2乗和(アダム)など、時間の経過とともに統計を維持している。
この状態は、通常の勾配降下よりも最適化を加速するために使用することができるが、そうでなければモデルパラメータに割り当てられる可能性のあるメモリを使用する。
本稿では,32ビットの勾配状態を用いた場合の性能レベルを維持しながら,8ビット統計を用いた第1次勾配法を開発する。
論文 参考訳(メタデータ) (2021-10-06T15:43:20Z) - Direct Quantization for Training Highly Accurate Low Bit-width Deep
Neural Networks [73.29587731448345]
本稿では,低ビット幅重みとアクティベーションで深部畳み込みニューラルネットワークを訓練する2つの新しい手法を提案する。
まず、ビット幅の少ない重みを得るため、既存の方法の多くは、全精度ネットワーク重みで量子化することにより量子化重みを得る。
第二に、低ビット幅のアクティベーションを得るために、既存の作品はすべてのチャネルを等しく考慮する。
論文 参考訳(メタデータ) (2020-12-26T15:21:18Z) - Subtensor Quantization for Mobilenets [5.735035463793008]
ディープニューラルネットワーク(DNN)の量子化により、開発者はより少ないメモリとより効率的な低消費電力推論でモデルをデプロイできるようになった。
本稿では,量子化損失の根本原因について分析し,チャネル単位やトレーニング対応のアプローチに依存しない代替案を提案する。
我々は、ImageNetデータセット上の画像分類タスクと、浮動小数点バージョンの0.7%以内で、トレーニング後の量子化8ビット推論トップ1の精度を評価する。
論文 参考訳(メタデータ) (2020-11-04T15:41:47Z) - Leveraging Automated Mixed-Low-Precision Quantization for tiny edge
microcontrollers [76.30674794049293]
本稿では、HAQフレームワークに基づく自動混合精度量子化フローを提案するが、MCUデバイスのメモリおよび計算特性に特化している。
具体的には、強化学習エージェントは、個々の重みとアクティベーションテンソルの2, 4, 8ビットのうち、最高の均一量子化レベルを探索する。
重量のみの量子化のために2MBに制限されたMCUクラスのメモリが与えられた場合、混合精度エンジンによって生成された圧縮されたモデルは、最先端のソリューションと同じくらい正確である。
論文 参考訳(メタデータ) (2020-08-12T06:09:58Z) - Efficient Integer-Arithmetic-Only Convolutional Neural Networks [87.01739569518513]
我々は従来のReLUを境界ReLUに置き換え、その減少は活性化量子化によるものであることを示す。
我々の整数ネットワークは、対応するFPNネットワークと同等の性能を発揮するが、メモリコストは1/4に過ぎず、最新のGPUでは2倍高速である。
論文 参考訳(メタデータ) (2020-06-21T08:23:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。