論文の概要: Lightweight Compression of Intermediate Neural Network Features for
Collaborative Intelligence
- arxiv url: http://arxiv.org/abs/2105.07102v1
- Date: Sat, 15 May 2021 00:10:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-18 14:27:30.798069
- Title: Lightweight Compression of Intermediate Neural Network Features for
Collaborative Intelligence
- Title(参考訳): コラボレーションインテリジェンスのための中間ニューラルネットワーク特徴の軽量圧縮
- Authors: Robert A. Cohen, Hyomin Choi, Ivan V. Baji\'c
- Abstract要約: 協調インテリジェンスアプリケーションでは、ディープニューラルネットワーク(DNN)の一部が携帯電話やエッジデバイスなどの軽量デバイスにデプロイされます。
本稿では,分割DNNの中間層によって出力される特徴を量子化し圧縮する,新しい軽量圧縮技術を提案する。
- 参考スコア(独自算出の注目度): 32.03465747357384
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In collaborative intelligence applications, part of a deep neural network
(DNN) is deployed on a lightweight device such as a mobile phone or edge
device, and the remaining portion of the DNN is processed where more computing
resources are available, such as in the cloud. This paper presents a novel
lightweight compression technique designed specifically to quantize and
compress the features output by the intermediate layer of a split DNN, without
requiring any retraining of the network weights. Mathematical models for
estimating the clipping and quantization error of ReLU and leaky-ReLU
activations at this intermediate layer are developed and used to compute
optimal clipping ranges for coarse quantization. We also present a modified
entropy-constrained design algorithm for quantizing clipped activations. When
applied to popular object-detection and classification DNNs, we were able to
compress the 32-bit floating point intermediate activations down to 0.6 to 0.8
bits, while keeping the loss in accuracy to less than 1%. When compared to
HEVC, we found that the lightweight codec consistently provided better
inference accuracy, by up to 1.3%. The performance and simplicity of this
lightweight compression technique makes it an attractive option for coding an
intermediate layer of a split neural network for edge/cloud applications.
- Abstract(参考訳): コラボレーティブインテリジェンスアプリケーションでは、ディープニューラルネットワーク(dnn)の一部が携帯電話やエッジデバイスなどの軽量デバイスにデプロイされ、dnnの残りの部分は、クラウドのようなより多くのコンピューティングリソースが利用可能な場所で処理される。
本稿では,ネットワーク重みの再トレーニングを必要とせず,分割dnnの中間層から出力される特徴を量子化し圧縮する,新しい軽量圧縮手法を提案する。
この中間層におけるreluのクリッピングと量子化誤差を推定するための数理モデルを開発し,粗量子化の最適クリッピング範囲の算出に用いた。
また,クリップ型アクティベーションを定量化するための改良エントロピー制約設計アルゴリズムを提案する。
一般的な物体検出と分類DNNに適用すると、32ビット浮動小数点中間活性化を0.6から0.8ビットまで圧縮し、精度を1%以下に抑えることができた。
HEVCと比較すると、軽量コーデックは推論精度を最大1.3%向上させることができた。
この軽量圧縮技術の性能と単純さは、エッジ/クラウドアプリケーションのための分割ニューラルネットワークの中間層をコーディングする魅力的な選択肢となる。
関連論文リスト
- Attention-based Feature Compression for CNN Inference Offloading in Edge
Computing [93.67044879636093]
本稿では,デバイスエッジ共振器におけるCNN推論の計算負荷について検討する。
エンドデバイスにおける効率的な特徴抽出のための新しいオートエンコーダベースのCNNアーキテクチャ(AECNN)を提案する。
実験の結果、AECNNは中間データを約4%の精度で256倍圧縮できることがわかった。
論文 参考訳(メタデータ) (2022-11-24T18:10:01Z) - A Low-Complexity Approach to Rate-Distortion Optimized Variable Bit-Rate
Compression for Split DNN Computing [5.3221129103999125]
分散コンピューティングは、DNNベースのAIワークロードを実装するための最近のパラダイムとして登場した。
本稿では,レート・精度・複雑さのトレードオフを最適化する上での課題に対処するアプローチを提案する。
我々のアプローチは、トレーニングと推論の両方において非常に軽量であり、非常に効果的であり、高い速度歪曲性能を実現する。
論文 参考訳(メタデータ) (2022-08-24T15:02:11Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Nonlinear Tensor Ring Network [39.89070144585793]
最先端のディープニューラルネットワーク(DNN)は、様々な現実世界のアプリケーションに広く適用されており、認知問題に対して大きなパフォーマンスを実現している。
冗長モデルをコンパクトなモデルに変換することで、圧縮技術はストレージとメモリ消費を減らすための実用的な解決策であるように見える。
本稿では,完全連結層と畳み込み層の両方を圧縮した非線形テンソルリングネットワーク(NTRN)を開発する。
論文 参考訳(メタデータ) (2021-11-12T02:02:55Z) - Sub-bit Neural Networks: Learning to Compress and Accelerate Binary
Neural Networks [72.81092567651395]
Sub-bit Neural Networks (SNN) は、BNNの圧縮と高速化に適した新しいタイプのバイナリ量子化設計である。
SNNは、微細な畳み込みカーネル空間におけるバイナリ量子化を利用するカーネル対応最適化フレームワークで訓練されている。
ビジュアル認識ベンチマークの実験とFPGA上でのハードウェア展開は、SNNの大きな可能性を検証する。
論文 参考訳(メタデータ) (2021-10-18T11:30:29Z) - Compact representations of convolutional neural networks via weight
pruning and quantization [63.417651529192014]
本稿では、音源符号化に基づく畳み込みニューラルネットワーク(CNN)の新しいストレージフォーマットを提案し、重み付けと量子化の両方を活用する。
我々は、全接続層で0.6%、ネットワーク全体で5.44%のスペース占有率を削減し、最低でもベースラインと同じくらいの競争力を発揮する。
論文 参考訳(メタデータ) (2021-08-28T20:39:54Z) - Quantized Neural Networks via {-1, +1} Encoding Decomposition and
Acceleration [83.84684675841167]
本稿では,量子化されたニューラルネットワーク(QNN)をマルチブランチバイナリネットワークに分解するために,-1,+1を用いた新しい符号化方式を提案する。
本稿では,大規模画像分類,オブジェクト検出,セマンティックセグメンテーションにおける提案手法の有効性を検証する。
論文 参考訳(メタデータ) (2021-06-18T03:11:15Z) - DeepCompress: Efficient Point Cloud Geometry Compression [1.808877001896346]
本稿では,ポイントクラウド圧縮のためのより効率的なディープラーニングベースのエンコーダアーキテクチャを提案する。
CENIC(Efficient Neural Image Compression)から学習した活性化関数を組み込むことで,効率と性能が劇的に向上することを示す。
提案手法は,BjontegardデルタレートとPSNR値において,ベースラインアプローチよりも小さなマージンで優れていた。
論文 参考訳(メタデータ) (2021-06-02T23:18:11Z) - Lightweight compression of neural network feature tensors for
collaborative intelligence [32.03465747357384]
協調インテリジェンスアプリケーションでは、ディープニューラルネットワーク(DNN)の一部は、携帯電話やエッジデバイスなどの比較的低い複雑さのデバイスにデプロイされます。
本稿では,スプリットdnn層のアクティベーションをコード化するために設計された新しい軽量圧縮技術を提案する。
論文 参考訳(メタデータ) (2021-05-12T23:41:35Z) - Kernel Quantization for Efficient Network Compression [59.55192551370948]
Kernel Quantization(KQ)は、事前訓練された全精度畳み込みニューラルネットワーク(CNN)モデルを、大幅なパフォーマンス損失のない低精度バージョンに効率的に変換することを目的としている。
重み付けからフィルタプルーニングへの進化に触発され,カーネルレベルと重み付けレベルの両方で定量化することを提案する。
ImageNet分類タスクの実験では、KQはVGGとResNet18でそれぞれ平均1.05ビットと1.62ビットを必要とし、畳み込み層の各パラメータを表す。
論文 参考訳(メタデータ) (2020-03-11T08:00:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。