論文の概要: Finding the Task-Optimal Low-Bit Sub-Distribution in Deep Neural
Networks
- arxiv url: http://arxiv.org/abs/2112.15139v2
- Date: Mon, 3 Jan 2022 04:40:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-04 12:32:19.087027
- Title: Finding the Task-Optimal Low-Bit Sub-Distribution in Deep Neural
Networks
- Title(参考訳): ニューラルネットにおけるタスク最適低ビットサブディストリビューションの探索
- Authors: Runpei Dong, Zhanhong Tan, Mengdi Wu, Linfeng Zhang, Kaisheng Ma
- Abstract要約: 量子ニューラルネットワークは通常、メモリフットプリントを小さくし、計算の複雑さを小さくする必要がある。
本稿では,モデルに固有の最適潜伏部分分布を学習するための適応行列量子化法を提案する。
近代建築における画像分類と物体検出実験は,提案手法の有効性,一般化性,伝達性を示す。
- 参考スコア(独自算出の注目度): 10.278350434623107
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Quantized neural networks typically require smaller memory footprints and
lower computation complexity, which is crucial for efficient deployment.
However, quantization inevitably leads to a distribution divergence from the
original network, which generally degrades the performance. To tackle this
issue, massive efforts have been made, but most existing approaches lack
statistical considerations and depend on several manual configurations. In this
paper, we present an adaptive-mapping quantization method to learn an optimal
latent sub-distribution that is inherent within models and smoothly
approximated with a concrete Gaussian Mixture (GM). In particular, the network
weights are projected in compliance with the GM-approximated sub-distribution.
This sub-distribution evolves along with the weight update in a co-tuning
schema guided by the direct task-objective optimization. Sufficient experiments
on image classification and object detection over various modern architectures
demonstrate the effectiveness, generalization property, and transferability of
the proposed method. Besides, an efficient deployment flow for the mobile CPU
is developed, achieving up to 7.46$\times$ inference acceleration on an
octa-core ARM CPU. Codes are publicly released at
https://github.com/RunpeiDong/DGMS.
- Abstract(参考訳): 量子化されたニューラルネットワークは通常、少ないメモリフットプリントと計算の複雑さを必要とする。
しかし、量子化は必然的に元のネットワークから分散を逸脱させ、一般に性能を低下させる。
この問題に対処するため、大規模な努力がなされているが、既存のアプローチの多くは統計的考察を欠き、いくつかの手動構成に依存している。
本稿では, モデルに内在し, コンクリートガウス混合 (gm) と滑らかに近似した最適潜在部分分布を学習するための適応マップ量子化法を提案する。
特に、ネットワークの重み付けはgm近似のサブディストリビューションに従って投影される。
このサブディストリビューションは、直接タスク目的最適化によって導かれる協調チューニングスキーマの重み更新と共に進化する。
近代建築における画像分類と物体検出に関する十分な実験により,提案手法の有効性,一般化性,伝達性を示す。
さらに、モバイルCPUの効率的なデプロイメントフローを開発し、オクタコアARMCPU上で最大7.46$\times$推論アクセラレーションを達成する。
コードはhttps://github.com/RunpeiDong/DGMSで公開されている。
関連論文リスト
- Post-Training Quantization for Re-parameterization via Coarse & Fine
Weight Splitting [13.270381125055275]
本稿では,重みの量子化誤差を低減するために,粗大かつ微細な重み分割法(CFWS)を提案する。
我々は、活性化のための最適な量子化尺度を決定するために改良されたKLメトリックを開発した。
例えば、量子化されたRepVGG-A1モデルは、わずか0.3%の精度損失を示す。
論文 参考訳(メタデータ) (2023-12-17T02:31:20Z) - Iterative Soft Shrinkage Learning for Efficient Image Super-Resolution [91.3781512926942]
画像超解像(SR)は、CNNからトランスフォーマーアーキテクチャへの広範なニューラルネットワーク設計を目撃している。
本研究は,市販のネットワーク設計を生かし,基礎となる計算オーバーヘッドを低減するため,超高解像度イテレーションにおけるネットワークプルーニングの可能性について検討する。
本研究では, ランダムネットワークのスパース構造を最適化し, 重要でない重みを小さめに微調整することにより, 反復型軟収縮率(ISS-P)法を提案する。
論文 参考訳(メタデータ) (2023-03-16T21:06:13Z) - AMED: Automatic Mixed-Precision Quantization for Edge Devices [3.5223695602582614]
量子ニューラルネットワークは、レイテンシ、消費電力、モデルサイズをパフォーマンスに大きな影響を与えずに減少させることでよく知られている。
混合精度量子化は、異なるビット幅での算術演算をサポートするカスタマイズされたハードウェアのより良い利用を提供する。
論文 参考訳(メタデータ) (2022-05-30T21:23:22Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - ECQ$^{\text{x}}$: Explainability-Driven Quantization for Low-Bit and
Sparse DNNs [13.446502051609036]
我々はディープニューラルネットワーク(DNN)のための新しい量子化パラダイムを開発し、記述する。
本手法は,説明可能なAI(XAI)の概念と情報理論の概念を活用する。
最終的な目標は、最高の情報内容の量子化クラスタにおいて、最も関連性の高い重みを維持することである。
論文 参考訳(メタデータ) (2021-09-09T12:57:06Z) - Multi-objective Evolutionary Approach for Efficient Kernel Size and
Shape for CNN [12.697368516837718]
VGGNetやResNetのようなCNNトポロジにおける最先端の開発は、ますます正確になっている。
これらのネットワークは数十億の演算とパラメータを含む計算コストが高い。
本稿では,畳み込み層におけるカーネルのサイズと数を削減することにより,計算資源の消費を最適化することを検討する。
論文 参考訳(メタデータ) (2021-06-28T14:47:29Z) - Manifold Regularized Dynamic Network Pruning [102.24146031250034]
本稿では,全インスタンスの多様体情報をプルーンドネットワークの空間に埋め込むことにより,冗長フィルタを動的に除去する新しいパラダイムを提案する。
提案手法の有効性をいくつかのベンチマークで検証し,精度と計算コストの両面で優れた性能を示す。
論文 参考訳(メタデータ) (2021-03-10T03:59:03Z) - Attentive Gaussian processes for probabilistic time-series generation [4.94950858749529]
本稿では,ガウス過程の回帰と組み合わせて実数値列を生成する,計算効率のよいアテンションベースネットワークを提案する。
我々は,GPがフルバッチを用いて訓練されている間,ネットワークのミニバッチトレーニングを可能にするブロックワイズトレーニングアルゴリズムを開発した。
アルゴリズムは収束することが証明され、より良くなくても、見いだされた解の品質に匹敵することを示す。
論文 参考訳(メタデータ) (2021-02-10T01:19:15Z) - AQD: Towards Accurate Fully-Quantized Object Detection [94.06347866374927]
本稿では,浮動小数点演算を除去するために,AQDと呼ばれる高精度な量子化オブジェクト検出ソリューションを提案する。
我々のAQDは、非常に低ビットのスキームの下での完全精度と比較して、同等またはそれ以上の性能を実現しています。
論文 参考訳(メタデータ) (2020-07-14T09:07:29Z) - Evolving Normalization-Activation Layers [100.82879448303805]
我々は、うまく機能しない候補層を迅速にフィルタリングする効率的な拒絶プロトコルを開発した。
EvoNormsは、新しい正規化活性化層であり、新しい構造を持ち、時には驚くべき構造を持つ。
我々の実験は、EvoNormsがResNets、MobileNets、EfficientNetsなどの画像分類モデルでうまく機能していることを示している。
論文 参考訳(メタデータ) (2020-04-06T19:52:48Z) - Model Fusion via Optimal Transport [64.13185244219353]
ニューラルネットワークのための階層モデル融合アルゴリズムを提案する。
これは、不均一な非i.d.データに基づいてトレーニングされたニューラルネットワーク間での"ワンショット"な知識伝達に成功していることを示す。
論文 参考訳(メタデータ) (2019-10-12T22:07:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。