論文の概要: ECQ$^{\text{x}}$: Explainability-Driven Quantization for Low-Bit and
Sparse DNNs
- arxiv url: http://arxiv.org/abs/2109.04236v1
- Date: Thu, 9 Sep 2021 12:57:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-10 14:30:35.085408
- Title: ECQ$^{\text{x}}$: Explainability-Driven Quantization for Low-Bit and
Sparse DNNs
- Title(参考訳): ECQ$^{\text{x}}$:低ビットDNNとスパースDNNのための説明可能性駆動量子化
- Authors: Daniel Becking, Maximilian Dreyer, Wojciech Samek, Karsten M\"uller,
Sebastian Lapuschkin
- Abstract要約: 我々はディープニューラルネットワーク(DNN)のための新しい量子化パラダイムを開発し、記述する。
本手法は,説明可能なAI(XAI)の概念と情報理論の概念を活用する。
最終的な目標は、最高の情報内容の量子化クラスタにおいて、最も関連性の高い重みを維持することである。
- 参考スコア(独自算出の注目度): 13.446502051609036
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The remarkable success of deep neural networks (DNNs) in various applications
is accompanied by a significant increase in network parameters and arithmetic
operations. Such increases in memory and computational demands make deep
learning prohibitive for resource-constrained hardware platforms such as mobile
devices. Recent efforts aim to reduce these overheads, while preserving model
performance as much as possible, and include parameter reduction techniques,
parameter quantization, and lossless compression techniques.
In this chapter, we develop and describe a novel quantization paradigm for
DNNs: Our method leverages concepts of explainable AI (XAI) and concepts of
information theory: Instead of assigning weight values based on their distances
to the quantization clusters, the assignment function additionally considers
weight relevances obtained from Layer-wise Relevance Propagation (LRP) and the
information content of the clusters (entropy optimization). The ultimate goal
is to preserve the most relevant weights in quantization clusters of highest
information content.
Experimental results show that this novel Entropy-Constrained and
XAI-adjusted Quantization (ECQ$^{\text{x}}$) method generates ultra
low-precision (2-5 bit) and simultaneously sparse neural networks while
maintaining or even improving model performance. Due to reduced parameter
precision and high number of zero-elements, the rendered networks are highly
compressible in terms of file size, up to $103\times$ compared to the
full-precision unquantized DNN model. Our approach was evaluated on different
types of models and datasets (including Google Speech Commands and CIFAR-10)
and compared with previous work.
- Abstract(参考訳): 様々なアプリケーションにおけるディープニューラルネットワーク(DNN)の顕著な成功は、ネットワークパラメータと算術演算の大幅な増加を伴う。
このようなメモリと計算能力の増大は、モバイルデバイスのようなリソースに制約のあるハードウェアプラットフォームではディープラーニングを禁止する。
最近の取り組みは、モデル性能を可能な限り保ちながら、これらのオーバーヘッドを削減し、パラメータ削減技術、パラメータ量子化、ロスレス圧縮技術を含むことを目的としている。
本章では,DNNの新たな量子化パラダイムの開発と解説を行う: 説明可能なAI(XAI)の概念と情報理論の活用: 距離に基づいて重み値を量子化クラスタに割り当てる代わりに,代入関数は,レイヤワイド・レバレンス・プロパゲーション(LRP)とクラスタの情報内容(エントロピー最適化)から得られる重み関連性も考慮する。
究極の目標は、最も重要な情報コンテンツの量子化クラスタにおいて、最も関連する重みを保持することである。
実験結果から,この新しいエントロピー制約およびXAI調整量子化(ECQ$^{\text{x}}$)法は,モデル性能の維持や改善を図りながら,超低精度(2-5ビット)で同時にスパースニューラルネットワークを生成することがわかった。
パラメータの精度が低下し、ゼロ要素数が多いため、レンダリングされたネットワークはファイルサイズで圧縮可能であり、全精度の非量子化dnnモデルと比較して最大103\times$である。
提案手法は,Google Speech Commands や CIFAR-10 など,さまざまなモデルやデータセットを用いて評価し,過去の研究と比較した。
関連論文リスト
- Towards Scalable and Versatile Weight Space Learning [51.78426981947659]
本稿では,重み空間学習におけるSANEアプローチを紹介する。
ニューラルネットワーク重みのサブセットの逐次処理に向けて,超表現の概念を拡張した。
論文 参考訳(メタデータ) (2024-06-14T13:12:07Z) - Post-Training Quantization for Re-parameterization via Coarse & Fine
Weight Splitting [13.270381125055275]
本稿では,重みの量子化誤差を低減するために,粗大かつ微細な重み分割法(CFWS)を提案する。
我々は、活性化のための最適な量子化尺度を決定するために改良されたKLメトリックを開発した。
例えば、量子化されたRepVGG-A1モデルは、わずか0.3%の精度損失を示す。
論文 参考訳(メタデータ) (2023-12-17T02:31:20Z) - Low Precision Quantization-aware Training in Spiking Neural Networks
with Differentiable Quantization Function [0.5046831208137847]
この研究は、量子化されたニューラルネットワークの最近の進歩とスパイクニューラルネットワークのギャップを埋めることを目的としている。
これは、シグモイド関数の線形結合として表される量子化関数の性能に関する広範な研究を示す。
提案した量子化関数は、4つの人気のあるベンチマーク上での最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-05-30T09:42:05Z) - Low-bit Shift Network for End-to-End Spoken Language Understanding [7.851607739211987]
本稿では,連続パラメータを低ビットの2値に量子化する2乗量子化法を提案する。
これにより、高価な乗算演算を除去し、低ビット重みを使用すれば計算の複雑さを低減できる。
論文 参考訳(メタデータ) (2022-07-15T14:34:22Z) - BiTAT: Neural Network Binarization with Task-dependent Aggregated
Transformation [116.26521375592759]
量子化は、与えられたニューラルネットワークの高精度ウェイトとアクティベーションを、メモリ使用量と計算量を減らすために、低精度ウェイト/アクティベーションに変換することを目的としている。
コンパクトに設計されたバックボーンアーキテクチャの極端量子化(1ビットの重み/1ビットのアクティベーション)は、深刻な性能劣化をもたらす。
本稿では,性能劣化を効果的に緩和する新しいQAT法を提案する。
論文 参考訳(メタデータ) (2022-07-04T13:25:49Z) - Edge Inference with Fully Differentiable Quantized Mixed Precision
Neural Networks [1.131071436917293]
パラメータと演算をビット精度の低いものに量子化することで、ニューラルネットワークの推論にかなりのメモリとエネルギーを節約できる。
本稿では,エッジ計算を対象とする混合精度畳み込みニューラルネットワーク(CNN)の量子化手法を提案する。
論文 参考訳(メタデータ) (2022-06-15T18:11:37Z) - A Comprehensive Survey on Model Quantization for Deep Neural Networks in
Image Classification [0.0]
有望なアプローチは量子化であり、完全な精度の値は低ビット幅の精度で保存される。
本稿では、画像分類に焦点をあてて、量子化の概念と方法に関する包括的調査を行う。
本稿では,量子化DNNにおける浮動小数点演算の低コストなビット演算への置き換えと,量子化における異なる層の感度について説明する。
論文 参考訳(メタデータ) (2022-05-14T15:08:32Z) - ClusterQ: Semantic Feature Distribution Alignment for Data-Free
Quantization [111.12063632743013]
本稿では,ClusterQと呼ばれるデータフリーな量子化手法を提案する。
意味的特徴のクラス間分離性を高めるために,特徴分布統計をクラスタ化し,整列する。
また、クラス内分散を組み込んで、クラスワイドモードの崩壊を解決する。
論文 参考訳(メタデータ) (2022-04-30T06:58:56Z) - Low-bit Quantization of Recurrent Neural Network Language Models Using
Alternating Direction Methods of Multipliers [67.688697838109]
本稿では、乗算器の交互方向法(ADMM)を用いて、スクラッチから量子化RNNLMを訓練する新しい手法を提案する。
2つのタスクの実験から、提案されたADMM量子化は、完全な精度ベースライン RNNLM で最大31倍のモデルサイズ圧縮係数を達成したことが示唆された。
論文 参考訳(メタデータ) (2021-11-29T09:30:06Z) - Compact representations of convolutional neural networks via weight
pruning and quantization [63.417651529192014]
本稿では、音源符号化に基づく畳み込みニューラルネットワーク(CNN)の新しいストレージフォーマットを提案し、重み付けと量子化の両方を活用する。
我々は、全接続層で0.6%、ネットワーク全体で5.44%のスペース占有率を削減し、最低でもベースラインと同じくらいの競争力を発揮する。
論文 参考訳(メタデータ) (2021-08-28T20:39:54Z) - Widening and Squeezing: Towards Accurate and Efficient QNNs [125.172220129257]
量子化ニューラルネットワーク(QNN)は、非常に安価な計算とストレージオーバーヘッドのため、業界にとって非常に魅力的なものだが、その性能は、完全な精度パラメータを持つネットワークよりも悪い。
既存の手法の多くは、より効果的なトレーニング技術を利用して、特にバイナリニューラルネットワークの性能を高めることを目的としている。
本稿では,従来の完全精度ネットワークで高次元量子化機能に特徴を投影することで,この問題に対処する。
論文 参考訳(メタデータ) (2020-02-03T04:11:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。