論文の概要: Joint Channel and Weight Pruning for Model Acceleration on Moblie
Devices
- arxiv url: http://arxiv.org/abs/2110.08013v1
- Date: Fri, 15 Oct 2021 11:18:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-18 13:53:13.704377
- Title: Joint Channel and Weight Pruning for Model Acceleration on Moblie
Devices
- Title(参考訳): モブリ装置のモデル加速のためのジョイントチャネルとウェイトプルーニング
- Authors: Tianli Zhao, Xi Sheryl Zhang, Wentao Zhu, Jiaxing Wang, Ji Liu, Jian
Cheng
- Abstract要約: プルーニングは、計算資源の消費と精度のバランスをとるために広く採用されているプラクティスである。
We present a unified framework with Joint Channel pruning and Weight pruning (JCW)。
本稿では,JCW フレームワークに最適化された多目的進化アルゴリズムを開発した。
- 参考スコア(独自算出の注目度): 37.51092726022731
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For practical deep neural network design on mobile devices, it is essential
to consider the constraints incurred by the computational resources and the
inference latency in various applications. Among deep network acceleration
related approaches, pruning is a widely adopted practice to balance the
computational resource consumption and the accuracy, where unimportant
connections can be removed either channel-wisely or randomly with a minimal
impact on model accuracy. The channel pruning instantly results in a
significant latency reduction, while the random weight pruning is more flexible
to balance the latency and accuracy. In this paper, we present a unified
framework with Joint Channel pruning and Weight pruning (JCW), and achieves a
better Pareto-frontier between the latency and accuracy than previous model
compression approaches. To fully optimize the trade-off between the latency and
accuracy, we develop a tailored multi-objective evolutionary algorithm in the
JCW framework, which enables one single search to obtain the optimal candidate
architectures for various deployment requirements. Extensive experiments
demonstrate that the JCW achieves a better trade-off between the latency and
accuracy against various state-of-the-art pruning methods on the ImageNet
classification dataset. Our codes are available at
https://github.com/jcw-anonymous/JCW.
- Abstract(参考訳): モバイルデバイス上でのディープニューラルネットワーク設計には,計算資源による制約や様々なアプリケーションにおける推論遅延を考慮することが不可欠である。
ディープ・ネットワーク・アクセラレーションに関連したアプローチの中で、pruningは計算資源の消費と精度のバランスをとるために広く採用されている手法であり、重要な接続をチャネル単位でもランダムにも、モデル精度への影響を最小限に抑えることができる。
チャネルプルーニングは即座に遅延を著しく低減し、ランダムウェイトプルーニングはレイテンシと精度のバランスをとるためにより柔軟である。
本稿では,JCW(Joint Channel pruning and Weight pruning)と統合されたフレームワークを提案する。
レイテンシーと精度のトレードオフを完全に最適化するために,JCWフレームワークで最適化された多目的進化アルゴリズムを開発した。
大規模な実験により、JCWは、ImageNet分類データセット上の様々な最先端のプルーニング手法に対して、レイテンシと精度のトレードオフを向上することが示された。
私たちのコードはhttps://github.com/jcw-anonymous/jcwで利用可能です。
関連論文リスト
- Joint Pruning and Channel-wise Mixed-Precision Quantization for Efficient Deep Neural Networks [10.229120811024162]
ディープニューラルネットワーク(DNN)は、エッジデバイスへのデプロイメントに重大な課題をもたらす。
この問題に対処する一般的なアプローチは、プルーニングと混合精度量子化である。
そこで本研究では,軽量な勾配探索を用いて共同で適用するための新しい手法を提案する。
論文 参考訳(メタデータ) (2024-07-01T08:07:02Z) - Accelerating Deep Neural Networks via Semi-Structured Activation
Sparsity [0.0]
ネットワークの機能マップにスパシティを爆発させることは、推論のレイテンシを低減する方法の1つです。
そこで本研究では,セミ構造化されたアクティベーション空間を小さなランタイム修正によって活用する手法を提案する。
当社のアプローチでは,ImageNetデータセット上のResNet18モデルに対して,最小精度が1.1%の1.25倍の速度向上を実現している。
論文 参考訳(メタデータ) (2023-09-12T22:28:53Z) - Rethinking Lightweight Salient Object Detection via Network Depth-Width
Tradeoff [26.566339984225756]
既存の有能なオブジェクト検出手法では、より深いネットワークが採用され、性能が向上する。
本稿では,U字形構造を3つの相補枝に分解することで,新しい3方向デコーダフレームワークを提案する。
提案手法は,5つのベンチマークにおいて効率と精度のバランスが良くなることを示す。
論文 参考訳(メタデータ) (2023-01-17T03:43:25Z) - Design and Prototyping Distributed CNN Inference Acceleration in Edge
Computing [85.74517957717363]
HALPはエッジコンピューティングにおけるエッジデバイス(ED)間のシームレスなコラボレーションを設計することで推論を加速する。
実験により、分散推論HALPはVGG-16に対して1.7倍の推論加速を達成することが示された。
分散推論HALPを用いたモデル選択は,サービスの信頼性を著しく向上させることができる。
論文 参考訳(メタデータ) (2022-11-24T19:48:30Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Automatic Mapping of the Best-Suited DNN Pruning Schemes for Real-Time
Mobile Acceleration [71.80326738527734]
本稿では,汎用的,きめ細かな構造化プルーニング手法とコンパイラの最適化を提案する。
提案手法は,より微細な構造化プルーニング手法とともに,最先端のDNN最適化フレームワークよりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-22T23:53:14Z) - Multi-scale Iterative Residuals for Fast and Scalable Stereo Matching [13.76996108304056]
本稿では,このギャップを埋めるために,反復的マルチスケール粗粒微細化(iCFR)フレームワークを提案する。
マルチスケールのワープ機能を用いて,差分残差を推定し,コスト容積の差分探索範囲を最小限まで押し上げる。
最後に,マルチスケールアプローチに固有の精度の喪失を回復するために,改良ネットワークを適用した。
論文 参考訳(メタデータ) (2021-10-25T09:54:17Z) - CATRO: Channel Pruning via Class-Aware Trace Ratio Optimization [61.71504948770445]
本稿では,CATRO (Class-Aware Trace Ratio Optimization) を用いた新しいチャネルプルーニング手法を提案する。
CATROは、他の最先端チャネルプルーニングアルゴリズムと同等の精度で、同様のコストまたは低コストで高い精度を達成できることを示す。
CATROは、クラス認識の特性のため、様々な分類サブタスクに適応的に効率の良いネットワークを創り出すのに適している。
論文 参考訳(メタデータ) (2021-10-21T06:26:31Z) - Architecture Aware Latency Constrained Sparse Neural Networks [35.50683537052815]
本稿では,CNNモデルの作成と高速化を目的として,遅延制約付きスパースフレームワークを設計する。
また,効率的な計算のための新しいスパース畳み込みアルゴリズムを提案する。
我々のシステム・アルゴリズムの共同設計フレームワークは、リソース制約のあるモバイルデバイス上でのネットワークの精度とレイテンシのフロンティアをはるかに向上させることができる。
論文 参考訳(メタデータ) (2021-09-01T03:41:31Z) - An Image Enhancing Pattern-based Sparsity for Real-time Inference on
Mobile Devices [58.62801151916888]
パターンと接続性を組み合わせた新しい空間空間,すなわちパターンベースの空間空間を導入し,高度に正確かつハードウェアに親しみやすいものにした。
新たなパターンベースの空間性に対する我々のアプローチは,モバイルプラットフォーム上での高効率DNN実行のためのコンパイラ最適化に自然に適合する。
論文 参考訳(メタデータ) (2020-01-20T16:17:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。