論文の概要: Efficient Latency-Aware CNN Depth Compression via Two-Stage Dynamic
Programming
- arxiv url: http://arxiv.org/abs/2301.12187v1
- Date: Sat, 28 Jan 2023 13:08:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-31 18:39:50.848578
- Title: Efficient Latency-Aware CNN Depth Compression via Two-Stage Dynamic
Programming
- Title(参考訳): 2段階動的プログラミングによる高効率遅延対応cnn奥行き圧縮
- Authors: Jinuk Kim, Yeonwoo Jeong, Deokjae Lee, Hyun Oh Song
- Abstract要約: 本稿では,一般的な畳み込み操作を対象とする新しい深度圧縮アルゴリズムを提案する。
ImageNetのMobileNetV2-1.4では,0.62times$%pの精度低下で1.61times$speed-upを達成した。
- 参考スコア(独自算出の注目度): 15.458305667190256
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent works on neural network pruning advocate that reducing the depth of
the network is more effective in reducing run-time memory usage and
accelerating inference latency than reducing the width of the network through
channel pruning. In this regard, some recent works propose depth compression
algorithms that merge convolution layers. However, the existing algorithms have
a constricted search space and rely on human-engineered heuristics. In this
paper, we propose a novel depth compression algorithm which targets general
convolution operations. We propose a subset selection problem that replaces
inefficient activation layers with identity functions and optimally merges
consecutive convolution operations into shallow equivalent convolution
operations for efficient end-to-end inference latency. Since the proposed
subset selection problem is NP-hard, we formulate a surrogate optimization
problem that can be solved exactly via two-stage dynamic programming within a
few seconds. We evaluate our methods and baselines by TensorRT for a fair
inference latency comparison. Our method outperforms the baseline method with
higher accuracy and faster inference speed in MobileNetV2 on the ImageNet
dataset. Specifically, we achieve $1.61\times$speed-up with only $0.62$\%p
accuracy drop in MobileNetV2-1.4 on the ImageNet.
- Abstract(参考訳): ニューラルネットワークのプルーニングに関する最近の研究は、チャネルプルーニングによるネットワーク幅の削減よりも、ネットワークの深さの削減が実行時のメモリ使用量の削減と推論遅延の高速化に有効である、と提唱している。
この点に関して、近年の研究では畳み込み層をマージする深度圧縮アルゴリズムが提案されている。
しかし、既存のアルゴリズムは制限付き検索空間を持ち、人間工学的なヒューリスティックに依存している。
本稿では,一般的な畳み込み操作を対象とする新しい深度圧縮アルゴリズムを提案する。
本稿では,非効率なアクティベーション層を同一関数に置き換え,連続畳み込み操作を最小等価畳み込み操作に最適にマージし,効率的なエンドツーエンド推論レイテンシを実現する部分集合選択問題を提案する。
提案したサブセット選択問題はNPハードであるため,数秒以内に2段階動的プログラミングによって正確に解くことができる代用最適化問題を定式化する。
提案手法とベースラインを TensorRT で評価し,推定遅延の比較を行った。
提案手法は,ImageNetデータセット上のMobileNetV2において,高精度かつ高速な推論速度でベースライン法より優れる。
具体的には、ImageNet上のMobileNetV2-1.4の0.62$\%pの精度低下で、1.61\times$speed-upを達成した。
関連論文リスト
- LayerMerge: Neural Network Depth Compression through Layer Pruning and Merging [20.774060844559838]
既存の深度圧縮法では、冗長な非線形活性化関数を除去し、連続する畳み込み層を単一の層にマージする。
これらの手法は、マージされたレイヤのカーネルサイズが大きくなるという重大な欠点に悩まされる。
畳み込み層とアクティベーション関数を併用することにより,この問題に対処できることを示す。
本稿では,どのアクティベーション層と畳み込み層を除去するかを選択するディープ圧縮手法であるLayerMergeを提案する。
論文 参考訳(メタデータ) (2024-06-18T17:55:15Z) - Latency-aware Unified Dynamic Networks for Efficient Image Recognition [72.8951331472913]
LAUDNetは動的ネットワークの理論的および実用的な効率ギャップを橋渡しするフレームワークである。
3つの主要な動的パラダイム - 適応型計算、動的層スキップ、動的チャネルスキップ - を統合している。
これにより、V100,3090やTX2 GPUのようなプラットフォーム上で、ResNetのようなモデルの遅延を50%以上削減できる。
論文 参考訳(メタデータ) (2023-08-30T10:57:41Z) - Communication-Efficient Adam-Type Algorithms for Distributed Data Mining [93.50424502011626]
我々はスケッチを利用した新しい分散Adam型アルゴリズムのクラス(例:SketchedAMSGrad)を提案する。
我々の新しいアルゴリズムは、反復毎に$O(frac1sqrtnT + frac1(k/d)2 T)$の高速収束率を$O(k log(d))$の通信コストで達成する。
論文 参考訳(メタデータ) (2022-10-14T01:42:05Z) - Latency-aware Spatial-wise Dynamic Networks [33.88843632160247]
深層ネットワークのための遅延認識型空間的動的ネットワーク(LASNet)を提案する。
LASNetは、新しい遅延予測モデルのガイダンスに基づき、粗粒度空間適応推論を行う。
画像分類,オブジェクト検出,インスタンスセグメンテーションの実験により,提案手法はディープネットワークの実用的な推論効率を大幅に向上させることを示した。
論文 参考訳(メタデータ) (2022-10-12T14:09:27Z) - DS-Net++: Dynamic Weight Slicing for Efficient Inference in CNNs and
Transformers [105.74546828182834]
本稿では,様々な難易度を持つ入力に対して,ネットワークパラメータの一部を適応的にスライスする動的ウェイトスライシングという,ハードウェア効率のよい動的推論方式を示す。
我々は、CNNのフィルタ数とCNNと変換器の多重次元を入力依存的に調整することで、動的スライム可能なネットワーク(DS-Net)と動的スライス可能なネットワーク(DS-Net++)を提案する。
論文 参考訳(メタデータ) (2021-09-21T09:57:21Z) - OMPQ: Orthogonal Mixed Precision Quantization [64.59700856607017]
混合精度量子化は、ハードウェアの多重ビット幅演算を利用して、ネットワーク量子化の全ポテンシャルを解き放つ。
本稿では、整数プログラミングの損失と高い相関関係にあるネットワーク性の概念であるプロキシメトリックを最適化することを提案する。
このアプローチは、量子化精度にほとんど妥協することなく、検索時間と必要なデータ量を桁違いに削減する。
論文 参考訳(メタデータ) (2021-09-16T10:59:33Z) - HANT: Hardware-Aware Network Transformation [82.54824188745887]
ハードウェア・アウェア・ネットワーク・トランスフォーメーション(HANT)を提案する。
HANTは、ニューラルネットワーク検索のようなアプローチを使用して、非効率な操作をより効率的な代替手段に置き換える。
EfficientNetファミリの高速化に関する我々の結果は、ImageNetデータセットのトップ1の精度で最大3.6倍、0.4%の低下でHANTがそれらを加速できることを示している。
論文 参考訳(メタデータ) (2021-07-12T18:46:34Z) - Manifold Regularized Dynamic Network Pruning [102.24146031250034]
本稿では,全インスタンスの多様体情報をプルーンドネットワークの空間に埋め込むことにより,冗長フィルタを動的に除去する新しいパラダイムを提案する。
提案手法の有効性をいくつかのベンチマークで検証し,精度と計算コストの両面で優れた性能を示す。
論文 参考訳(メタデータ) (2021-03-10T03:59:03Z) - FarSee-Net: Real-Time Semantic Segmentation by Efficient Multi-scale
Context Aggregation and Feature Space Super-resolution [14.226301825772174]
Cascaded Factorized Atrous Space Pyramid Pooling (CF-ASPP) と呼ばれる新しい効率的なモジュールについて紹介する。
これは畳み込みニューラルネットワーク(CNN)のための軽量なカスケード構造であり、コンテキスト情報を効率的に活用する。
我々は1枚のNivida Titan X (Maxwell) GPUカードでCityscapesテストセットの84fpsで68.4% mIoUを達成した。
論文 参考訳(メタデータ) (2020-03-09T03:53:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。