Fugu-MT 論文翻訳(概要): CPrune: Compiler-Informed Model Pruning for Efficient Target-Aware DNN Execution

論文の概要: CPrune: Compiler-Informed Model Pruning for Efficient Target-Aware DNN Execution

arxiv url: http://arxiv.org/abs/2207.01260v1
Date: Mon, 4 Jul 2022 08:49:23 GMT
ステータス: 翻訳完了
システム内更新日: 2022-07-06 00:52:48.664821
Title: CPrune: Compiler-Informed Model Pruning for Efficient Target-Aware DNN Execution
Title（参考訳）: CPrune: 効率的なターゲット対応DNN実行のためのコンパイラインフォームドモデルプルーニング
Authors: Taeho Kim, Yongin Kwon, Jemin Lee, Taeho Kim, Sangtae Ha
Abstract要約: CPruneは、効率的なターゲット認識DNN実行のためのコンパイラインフォームドモデルプルーニングである。実験の結果,CPruneは最新のTVMオートチューンと比較して,DNNの実行速度を2.73倍に向上させることがわかった。
参考スコア（独自算出の注目度）: 19.687027363879807
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Mobile devices run deep learning models for various purposes, such as image classification and speech recognition. Due to the resource constraints of mobile devices, researchers have focused on either making a lightweight deep neural network (DNN) model using model pruning or generating an efficient code using compiler optimization. Surprisingly, we found that the straightforward integration between model compression and compiler auto-tuning often does not produce the most efficient model for a target device. We propose CPrune, a compiler-informed model pruning for efficient target-aware DNN execution to support an application with a required target accuracy. CPrune makes a lightweight DNN model through informed pruning based on the structural information of subgraphs built during the compiler tuning process. Our experimental results show that CPrune increases the DNN execution speed up to 2.73x compared to the state-of-the-art TVM auto-tune while satisfying the accuracy requirement.
Abstract（参考訳）: モバイルデバイスは、画像分類や音声認識など、さまざまな目的でディープラーニングモデルを実行する。モバイルデバイスのリソース制約のため、研究者はモデルプルーニングを使用した軽量のディープニューラルネットワーク(DNN)モデルの作成や、コンパイラ最適化を使用した効率的なコード生成に注力している。驚いたことに、モデル圧縮とコンパイラの自動チューニングの直接的な統合は、ターゲットデバイスにとって最も効率的なモデルを生成しないことが多い。そこで我々は,CPruneを提案する。CPruneは,効率的なターゲット認識DNN実行のためのコンパイラインフォームドモデルプルーニングである。 CPruneは、コンパイラチューニングプロセス中に構築されたサブグラフの構造情報に基づいて、インフォメーションプルーニングを通じて軽量なDNNモデルを作成する。実験結果から,CPruneのDNN実行速度は現状のTVMオートチューンの2.73倍に向上し,精度を満足することがわかった。

関連論文リスト

SparseByteNN: A Novel Mobile Inference Acceleration Framework Based on Fine-Grained Group Sparsity [10.89385369643021]
本稿では,モバイル推論アクセラレーションフレームワークであるSparseByteNNを提案する。 30%のスパースMobileNet-v1に対して,SparseByteNNは高密度バージョンで1.27倍,最先端のスパース推論エンジンMNNで1.29倍の高速化を実現し,精度は0.224%低下した。
論文参考訳（メタデータ） (2023-10-30T13:08:48Z)
DepthShrinker: A New Compression Paradigm Towards Boosting Real-Hardware Efficiency of Compact Neural Networks [29.46621102184345]
ハードウェアフレンドリーなコンパクトネットワークを開発するために,DepthShrinkerというフレームワークを提案する。我々のフレームワークは、最先端のDNNや圧縮技術より優れたハードウェアフレンドリーなコンパクトネットワークを提供する。
論文参考訳（メタデータ） (2022-06-02T02:32:47Z)
Automatic Mapping of the Best-Suited DNN Pruning Schemes for Real-Time Mobile Acceleration [71.80326738527734]
本稿では,汎用的,きめ細かな構造化プルーニング手法とコンパイラの最適化を提案する。提案手法は,より微細な構造化プルーニング手法とともに,最先端のDNN最適化フレームワークよりも優れていることを示す。
論文参考訳（メタデータ） (2021-11-22T23:53:14Z)
ANNETTE: Accurate Neural Network Execution Time Estimation with Stacked Models [56.21470608621633]
本稿では,アーキテクチャ検索を対象ハードウェアから切り離すための時間推定フレームワークを提案する。提案手法は,マイクロカーネルと多層ベンチマークからモデルの集合を抽出し,マッピングとネットワーク実行時間推定のためのスタックモデルを生成する。生成した混合モデルの推定精度と忠実度, 統計モデルとルーフラインモデル, 評価のための洗練されたルーフラインモデルを比較した。
論文参考訳（メタデータ） (2021-05-07T11:39:05Z)
MetaTune: Meta-Learning Based Cost Model for Fast and Efficient Auto-tuning Frameworks [0.0]
本稿では,メタ学習に基づくコストモデルであるMetaTuneを提案する。このフレームワークは、4つのCNNモデルに対して平均8～13%の予測時間を提供し、同等または低い最適化時間を持ち、クロスプラットフォームのケースでは転送学習を10%上回っている。
論文参考訳（メタデータ） (2021-02-08T13:59:08Z)
Adversarially Robust and Explainable Model Compression with On-Device Personalization for Text Classification [4.805959718658541]
モバイルデバイスのコンピューティング能力の増大とコンピュータビジョン(CV)と自然言語処理(NLP)のアプリケーション数の増加により、オンデバイスディープニューラルネットワーク(DNN)が最近注目を集めている。 NLPアプリケーションでは、モデル圧縮は最初は成功したが、少なくとも3つの大きな課題が解決されている: 対向的堅牢性、説明可能性、パーソナライゼーションである。ここでは,モデル圧縮と対向ロバスト性のための新たなトレーニングスキームを設計し,説明可能な特徴マッピングの目的を最適化することによって,これらの課題に対処する。得られた圧縮モデルは、細かなデバイス上でのプライベートトレーニングデータを用いてパーソナライズされる。
論文参考訳（メタデータ） (2021-01-10T15:06:55Z)
RT3D: Achieving Real-Time Execution of 3D Convolutional Neural Networks on Mobile Devices [57.877112704841366]
本稿では3次元CNNのためのモデル圧縮およびモバイルアクセラレーションフレームワークRT3Dを提案する。 3D CNNのリアルタイム実行は、市販のモバイル上で初めて実現された。
論文参考訳（メタデータ） (2020-07-20T02:05:32Z)
PolyDL: Polyhedral Optimizations for Creation of High Performance DL primitives [55.79741270235602]
本稿では,Deep Learningプリミティブの高性能実装を自動的に生成するコンパイラアルゴリズムを提案する。我々は多面体モデルを用いた新しいデータ再利用分析アルゴリズムを開発した。また、このようなハイブリッドコンパイラとライブラリ使用の最小限のアプローチが、最先端のパフォーマンスをもたらすことを示す。
論文参考訳（メタデータ） (2020-06-02T06:44:09Z)
An Image Enhancing Pattern-based Sparsity for Real-time Inference on Mobile Devices [58.62801151916888]
パターンと接続性を組み合わせた新しい空間空間,すなわちパターンベースの空間空間を導入し,高度に正確かつハードウェアに親しみやすいものにした。新たなパターンベースの空間性に対する我々のアプローチは,モバイルプラットフォーム上での高効率DNN実行のためのコンパイラ最適化に自然に適合する。
論文参考訳（メタデータ） (2020-01-20T16:17:36Z)
PatDNN: Achieving Real-Time DNN Execution on Mobile Devices with Pattern-based Weight Pruning [57.20262984116752]
粗粒構造の内部に新しい次元、きめ細かなプルーニングパターンを導入し、これまで知られていなかった設計空間の点を明らかにした。きめ細かいプルーニングパターンによって高い精度が実現されているため、コンパイラを使ってハードウェア効率を向上し、保証することがユニークな洞察である。
論文参考訳（メタデータ） (2020-01-01T04:52:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。