論文の概要: DNN Quantization with Attention
- arxiv url: http://arxiv.org/abs/2103.13322v1
- Date: Wed, 24 Mar 2021 16:24:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-25 13:49:56.862193
- Title: DNN Quantization with Attention
- Title(参考訳): 注意を伴うDNN量子化
- Authors: Ghouthi Boukli Hacene, Lukas Mauch, Stefan Uhlich, Fabien Cardinaux
- Abstract要約: 低ビット量子化を緩和するトレーニング手順を提案する。
この緩和は、高、中、低ビット量子化の学習可能な線形結合を用いて達成される。
実験では、他の低ビット量子化技術よりも優れている。
- 参考スコア(独自算出の注目度): 5.72175302235089
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Low-bit quantization of network weights and activations can drastically
reduce the memory footprint, complexity, energy consumption and latency of Deep
Neural Networks (DNNs). However, low-bit quantization can also cause a
considerable drop in accuracy, in particular when we apply it to complex
learning tasks or lightweight DNN architectures. In this paper, we propose a
training procedure that relaxes the low-bit quantization. We call this
procedure \textit{DNN Quantization with Attention} (DQA). The relaxation is
achieved by using a learnable linear combination of high, medium and low-bit
quantizations. Our learning procedure converges step by step to a low-bit
quantization using an attention mechanism with temperature scheduling. In
experiments, our approach outperforms other low-bit quantization techniques on
various object recognition benchmarks such as CIFAR10, CIFAR100 and ImageNet
ILSVRC 2012, achieves almost the same accuracy as a full precision DNN, and
considerably reduces the accuracy drop when quantizing lightweight DNN
architectures.
- Abstract(参考訳): ネットワークウェイトとアクティベーションの低ビット量子化は、ディープニューラルネットワーク(DNN)のメモリフットプリント、複雑性、エネルギー消費、レイテンシを大幅に削減する。
しかし、特に複雑な学習タスクや軽量なdnnアーキテクチャに適用する場合、低ビット量子化は精度をかなり低下させる可能性がある。
本稿では,低ビット量子化を緩和するトレーニング手順を提案する。
我々はこの手順をDQA (textit{DNN Quantization with Attention}) と呼ぶ。
この緩和は、高、中、低ビット量子化の学習可能な線形結合を用いて達成される。
学習手順は、温度スケジューリングを伴う注意機構を用いて、ステップバイステップで低ビット量子化に収束する。
実験では、CIFAR10, CIFAR100, ImageNet ILSVRC 2012などの様々なオブジェクト認識ベンチマークにおいて、他の低ビット量子化手法よりも精度が良く、軽量DNNアーキテクチャの量子化における精度低下を大幅に低減する。
関連論文リスト
- Gradient-based Automatic Mixed Precision Quantization for Neural Networks On-Chip [0.9187138676564589]
本稿では,革新的な量子化学習手法である高粒度量子化(HGQ)を提案する。
HGQは、勾配降下によって最適化できるようにすることで、重量当たりおよび活動当たりの精度を微調整する。
このアプローチは、演算演算が可能なハードウェア上で、超低レイテンシと低電力ニューラルネットワークを実現する。
論文 参考訳(メタデータ) (2024-05-01T17:18:46Z) - SQUAT: Stateful Quantization-Aware Training in Recurrent Spiking Neural Networks [1.0923877073891446]
スパイキングニューラルネットワーク(SNN)は効率を向上させるという目標を共有しているが、ニューラルネットワーク推論の消費電力を減らすために、"イベント駆動"アプローチを採用する。
本稿では, ステートフルニューロンに対するQAT方式として, (i) 均一量子化戦略, (ii) 重み量子化の確立された方法, (ii) しきい値中心量子化の2つを紹介する。
以上の結果から,発火閾値付近の量子化レベルの密度の増加は,複数のベンチマークデータセットの精度を向上させることが示唆された。
論文 参考訳(メタデータ) (2024-04-15T03:07:16Z) - An Automata-Theoretic Approach to Synthesizing Binarized Neural Networks [13.271286153792058]
量子ニューラルネットワーク(QNN)が開発され、二項化ニューラルネットワーク(BNN)は特殊なケースとしてバイナリ値に制限されている。
本稿では,指定された特性を満たすBNNの自動合成手法を提案する。
論文 参考訳(メタデータ) (2023-07-29T06:27:28Z) - Quantization-aware Interval Bound Propagation for Training Certifiably
Robust Quantized Neural Networks [58.195261590442406]
我々は、逆向きに頑健な量子化ニューラルネットワーク(QNN)の訓練と証明の課題について検討する。
近年の研究では、浮動小数点ニューラルネットワークが量子化後の敵攻撃に対して脆弱であることが示されている。
本稿では、堅牢なQNNをトレーニングするための新しい方法であるQA-IBP(quantization-aware interval bound propagation)を提案する。
論文 参考訳(メタデータ) (2022-11-29T13:32:38Z) - A Comprehensive Survey on Model Quantization for Deep Neural Networks in
Image Classification [0.0]
有望なアプローチは量子化であり、完全な精度の値は低ビット幅の精度で保存される。
本稿では、画像分類に焦点をあてて、量子化の概念と方法に関する包括的調査を行う。
本稿では,量子化DNNにおける浮動小数点演算の低コストなビット演算への置き換えと,量子化における異なる層の感度について説明する。
論文 参考訳(メタデータ) (2022-05-14T15:08:32Z) - Low-bit Quantization of Recurrent Neural Network Language Models Using
Alternating Direction Methods of Multipliers [67.688697838109]
本稿では、乗算器の交互方向法(ADMM)を用いて、スクラッチから量子化RNNLMを訓練する新しい手法を提案する。
2つのタスクの実験から、提案されたADMM量子化は、完全な精度ベースライン RNNLM で最大31倍のモデルサイズ圧縮係数を達成したことが示唆された。
論文 参考訳(メタデータ) (2021-11-29T09:30:06Z) - Cluster-Promoting Quantization with Bit-Drop for Minimizing Network
Quantization Loss [61.26793005355441]
クラスタ・プロモーティング・量子化(CPQ)は、ニューラルネットワークに最適な量子化グリッドを見つける。
DropBitsは、ニューロンの代わりにランダムにビットをドロップする標準のドロップアウト正規化を改訂する新しいビットドロップ技術である。
本手法を様々なベンチマークデータセットとネットワークアーキテクチャ上で実験的に検証する。
論文 参考訳(メタデータ) (2021-09-05T15:15:07Z) - MARViN -- Multiple Arithmetic Resolutions Vacillating in Neural Networks [0.0]
本稿では,情報理論に基づく時間内精度スイッチングを用いた新しい量子化トレーニング戦略であるMARViNを紹介する。
我々は,AlexNet/ResNetの平均劣化精度を-0.075%に制限しながら,float32ベースと比較して平均1.86の高速化を実現した。
論文 参考訳(メタデータ) (2021-07-28T16:57:05Z) - DAQ: Distribution-Aware Quantization for Deep Image Super-Resolution
Networks [49.191062785007006]
画像超解像のための深い畳み込みニューラルネットワークの定量化は、計算コストを大幅に削減する。
既存の作業は、4ビット以下の超低精度の厳しい性能低下に苦しむか、または性能を回復するために重い微調整プロセスを必要とします。
高精度なトレーニングフリー量子化を実現する新しい分散認識量子化方式(DAQ)を提案する。
論文 参考訳(メタデータ) (2020-12-21T10:19:42Z) - Once Quantization-Aware Training: High Performance Extremely Low-bit
Architecture Search [112.05977301976613]
本稿では,ネットワークアーキテクチャ検索手法と量子化手法を組み合わせることで,両者のメリットを享受することを提案する。
まず、多数の量子化モデルを取得するために、共有ステップサイズでアーキテクチャと量子化の合同トレーニングを提案する。
次に、量子化されたモデルを低ビットに転送するためにビット継承方式を導入し、さらに時間コストを削減し、量子化精度を向上させる。
論文 参考訳(メタデータ) (2020-10-09T03:52:16Z) - Widening and Squeezing: Towards Accurate and Efficient QNNs [125.172220129257]
量子化ニューラルネットワーク(QNN)は、非常に安価な計算とストレージオーバーヘッドのため、業界にとって非常に魅力的なものだが、その性能は、完全な精度パラメータを持つネットワークよりも悪い。
既存の手法の多くは、より効果的なトレーニング技術を利用して、特にバイナリニューラルネットワークの性能を高めることを目的としている。
本稿では,従来の完全精度ネットワークで高次元量子化機能に特徴を投影することで,この問題に対処する。
論文 参考訳(メタデータ) (2020-02-03T04:11:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。