論文の概要: Channel-wise Hessian Aware trace-Weighted Quantization of Neural
Networks
- arxiv url: http://arxiv.org/abs/2008.08284v1
- Date: Wed, 19 Aug 2020 06:34:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-27 08:59:13.035140
- Title: Channel-wise Hessian Aware trace-Weighted Quantization of Neural
Networks
- Title(参考訳): チャネルワイド・ヘシアンによるニューラルネットワークのトレース重み付き量子化
- Authors: Xu Qian, Victor Li, Crews Darren
- Abstract要約: CW-HAWQ(Channel-wise Hessian Aware Trace-Weighted Quantization)を紹介する。
CW-HAWQはヘシアントレースを用いて、活性化と重みの異なるチャネルの相対感度順序を決定する。
Deep Reinforcement Learning (DRL) Deep Deterministic Policy Gradient (DDPG)-based agent to find optimal ratios of different Quantization bits。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Second-order information has proven to be very effective in determining the
redundancy of neural network weights and activations. Recent paper proposes to
use Hessian traces of weights and activations for mixed-precision quantization
and achieves state-of-the-art results. However, prior works only focus on
selecting bits for each layer while the redundancy of different channels within
a layer also differ a lot. This is mainly because the complexity of determining
bits for each channel is too high for original methods. Here, we introduce
Channel-wise Hessian Aware trace-Weighted Quantization (CW-HAWQ). CW-HAWQ uses
Hessian trace to determine the relative sensitivity order of different channels
of activations and weights. What's more, CW-HAWQ proposes to use deep
Reinforcement learning (DRL) Deep Deterministic Policy Gradient (DDPG)-based
agent to find the optimal ratios of different quantization bits and assign bits
to channels according to the Hessian trace order. The number of states in
CW-HAWQ is much smaller compared with traditional AutoML based mix-precision
methods since we only need to search ratios for the quantization bits. Compare
CW-HAWQ with state-of-the-art shows that we can achieve better results for
multiple networks.
- Abstract(参考訳): 2次情報は、ニューラルネットワークの重みとアクティベーションの冗長性を決定するのに非常に効果的であることが証明されている。
近年,重みとアクティベーションのヘシアントレースを混合精度量子化に利用し,最先端の結果を得る。
しかしながら、以前の作業では各レイヤのビット選択にのみフォーカスする一方で、レイヤ内の異なるチャネルの冗長性も大きく異なる。
これは、各チャネルのビットを決定する複雑さが元のメソッドでは高すぎるためである。
本稿ではCW-HAWQ(Channel-wise Hessian Aware trace-Weighted Quantization)を紹介する。
CW-HAWQはヘシアントレースを用いて、活性化と重みの異なるチャネルの相対感度順序を決定する。
さらに、CW-HAWQは、ディープ強化学習(DRL)のDeep Deterministic Policy Gradient(DDPG)ベースのエージェントを使用して、異なる量子化ビットの最適比を見つけ、ヘッセントレース順序に従ってチャネルにビットを割り当てることを提案する。
cw-hawqにおける状態の数は、量子化ビットの検索比率のみを必要とするため、従来のautomlベースの混合精度法に比べてはるかに少ない。
CW-HAWQと最先端技術を比較すると、複数のネットワークでより良い結果が得られることが分かる。
関連論文リスト
- SQUAT: Stateful Quantization-Aware Training in Recurrent Spiking Neural Networks [1.0923877073891446]
スパイキングニューラルネットワーク(SNN)は効率を向上させるという目標を共有しているが、ニューラルネットワーク推論の消費電力を減らすために、"イベント駆動"アプローチを採用する。
本稿では, ステートフルニューロンに対するQAT方式として, (i) 均一量子化戦略, (ii) 重み量子化の確立された方法, (ii) しきい値中心量子化の2つを紹介する。
以上の結果から,発火閾値付近の量子化レベルの密度の増加は,複数のベンチマークデータセットの精度を向上させることが示唆された。
論文 参考訳(メタデータ) (2024-04-15T03:07:16Z) - CADyQ: Content-Aware Dynamic Quantization for Image Super-Resolution [55.50793823060282]
本稿では,画像超解像(SR)ネットワークのための新しいコンテント・アウェア・ダイナミック量子化(CADyQ)手法を提案する。
CADyQは、入力画像のローカル内容に基づいて、局所領域と層に最適なビットを適応的に割り当てる。
パイプラインは様々なSRネットワークでテストされ、いくつかの標準ベンチマークで評価されている。
論文 参考訳(メタデータ) (2022-07-21T07:50:50Z) - PTQ-SL: Exploring the Sub-layerwise Post-training Quantization [6.0070278366995105]
ネットワーク量子化は畳み込みニューラルネットワークを圧縮する強力な技術である。
量子化の粒度は、ウェイトにおけるスケーリング因子の共有方法を決定する。
サブ層粒度(PTQ-SL)における学習後効率的な量子化法を提案する。
論文 参考訳(メタデータ) (2021-10-15T02:18:54Z) - Cluster-Promoting Quantization with Bit-Drop for Minimizing Network
Quantization Loss [61.26793005355441]
クラスタ・プロモーティング・量子化(CPQ)は、ニューラルネットワークに最適な量子化グリッドを見つける。
DropBitsは、ニューロンの代わりにランダムにビットをドロップする標準のドロップアウト正規化を改訂する新しいビットドロップ技術である。
本手法を様々なベンチマークデータセットとネットワークアーキテクチャ上で実験的に検証する。
論文 参考訳(メタデータ) (2021-09-05T15:15:07Z) - BSQ: Exploring Bit-Level Sparsity for Mixed-Precision Neural Network
Quantization [32.770842274996774]
混合精度量子化は、ディープニューラルネットワークの性能と圧縮率の最適なトレードオフを実現できる可能性がある。
従来の方法は、小さな手作業で設計された検索空間のみを調べるか、面倒なニューラルネットワークアーキテクチャ検索を使用して広大な検索空間を探索する。
本研究では、ビットレベルスパーシティを誘導する新たな角度から、混合精度量子化に取り組むためのビットレベルスパーシティ量子化(BSQ)を提案する。
論文 参考訳(メタデータ) (2021-02-20T22:37:41Z) - Direct Quantization for Training Highly Accurate Low Bit-width Deep
Neural Networks [73.29587731448345]
本稿では,低ビット幅重みとアクティベーションで深部畳み込みニューラルネットワークを訓練する2つの新しい手法を提案する。
まず、ビット幅の少ない重みを得るため、既存の方法の多くは、全精度ネットワーク重みで量子化することにより量子化重みを得る。
第二に、低ビット幅のアクティベーションを得るために、既存の作品はすべてのチャネルを等しく考慮する。
論文 参考訳(メタデータ) (2020-12-26T15:21:18Z) - Searching for Low-Bit Weights in Quantized Neural Networks [129.8319019563356]
低ビットの重みとアクティベーションを持つ量子ニューラルネットワークは、AIアクセラレータを開発する上で魅力的なものだ。
本稿では、任意の量子化ニューラルネットワークにおける離散重みを探索可能な変数とみなし、差分法を用いて正確に探索する。
論文 参考訳(メタデータ) (2020-09-18T09:13:26Z) - Optimal Quantization for Batch Normalization in Neural Network
Deployments and Beyond [18.14282813812512]
バッチ正規化(BN)が量子ニューラルネットワーク(QNN)に挑戦
本稿では、2つの浮動小数点のアフィン変換を共有量子化スケールで固定点演算に変換することによりBNを定量化する新しい方法を提案する。
提案手法は,CIFARおよびImageNetデータセット上の層レベルでの実験により検証される。
論文 参考訳(メタデータ) (2020-08-30T09:33:29Z) - Operation-Aware Soft Channel Pruning using Differentiable Masks [51.04085547997066]
本稿では,データ駆動型アルゴリズムを提案する。このアルゴリズムは,操作特性を利用して,ディープニューラルネットワークを異なる方法で圧縮する。
我々は大規模な実験を行い、出力ネットワークの精度で優れた性能を達成する。
論文 参考訳(メタデータ) (2020-07-08T07:44:00Z) - Network Adjustment: Channel Search Guided by FLOPs Utilization Ratio [101.84651388520584]
本稿では,ネットワークの精度をFLOPの関数として考慮した,ネットワーク調整という新しいフレームワークを提案する。
標準画像分類データセットと幅広いベースネットワークの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2020-04-06T15:51:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。