論文の概要: TASO: Time and Space Optimization for Memory-Constrained DNN Inference
- arxiv url: http://arxiv.org/abs/2005.10709v1
- Date: Thu, 21 May 2020 15:08:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-30 22:43:28.631463
- Title: TASO: Time and Space Optimization for Memory-Constrained DNN Inference
- Title(参考訳): TASO:メモリ制約DNN推論のための時間と空間最適化
- Authors: Yuan Wen, Andrew Anderson, Valentin Radu, Michael F.P. O'Boyle, David
Gregg
- Abstract要約: 畳み込みニューラルネットワーク(CNN)は、産業用ロボティクスや自動化システムからモバイルデバイスでの生体認証まで、多くの組み込みアプリケーションで使用されている。
本稿では、畳み込み層を実装するプリミティブ演算を選択するための整数線形計画法(ILP)に基づくCNNモデルの事前ドメイン固有最適化手法を提案する。
- 参考スコア(独自算出の注目度): 5.023660118588569
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Convolutional neural networks (CNNs) are used in many embedded applications,
from industrial robotics and automation systems to biometric identification on
mobile devices. State-of-the-art classification is typically achieved by large
networks, which are prohibitively expensive to run on mobile and embedded
devices with tightly constrained memory and energy budgets. We propose an
approach for ahead-of-time domain specific optimization of CNN models, based on
an integer linear programming (ILP) for selecting primitive operations to
implement convolutional layers. We optimize the trade-off between execution
time and memory consumption by: 1) attempting to minimize execution time across
the whole network by selecting data layouts and primitive operations to
implement each layer; and 2) allocating an appropriate workspace that reflects
the upper bound of memory footprint per layer. These two optimization
strategies can be used to run any CNN on any platform with a C compiler. Our
evaluation with a range of popular ImageNet neural architectures (GoogleNet,
AlexNet, VGG, ResNet and SqueezeNet) on the ARM Cortex-A15 yields speedups of
8x compared to a greedy algorithm based primitive selection, reduces memory
requirement by 2.2x while sacrificing only 15% of inference time compared to a
solver that considers inference time only. In addition, our optimization
approach exposes a range of optimal points for different configurations across
the Pareto frontier of memory and latency trade-off, which can be used under
arbitrary system constraints.
- Abstract(参考訳): 畳み込みニューラルネットワーク(cnns)は、産業用ロボットや自動化システムからモバイルデバイス上の生体認証まで、多くの組み込みアプリケーションで使用されている。
最先端の分類は通常、大きなネットワークによって実現され、メモリとエネルギーの予算が厳しく制限されたモバイルおよび組み込みデバイスで実行するのは非常に高価である。
本稿では、畳み込み層を実装するプリミティブ演算を選択するための整数線形プログラミング(ILP)に基づくCNNモデルの事前ドメイン固有最適化手法を提案する。
実行時間とメモリ消費のトレードオフを最適化します。
1)各層を実装するためのデータレイアウトとプリミティブ操作を選択することにより,ネットワーク全体の実行時間を最小化しようとする。
2) レイヤ毎のメモリフットプリントの上限を反映する適切なワークスペースの割り当て。
これら2つの最適化戦略は、Cコンパイラを持つ任意のプラットフォーム上でCNNを実行するために使用できる。
ARM Cortex-A15におけるImageNetニューラルアーキテクチャ(GoogleNet,AlexNet,VGG,ResNet,SqueezeNet)による評価では,greedyアルゴリズムに基づくプリミティブセレクションと比較して8倍のスピードアップが得られ,メモリ要求を2.2倍削減すると同時に,推論時間のみを考慮したソルバに比べて推論時間の15%を犠牲にする。
さらに、最適化アプローチでは、メモリと遅延トレードオフのParetoフロンティアにまたがるさまざまな構成のための最適なポイントが公開されており、任意のシステム制約の下で使用することができる。
関連論文リスト
- Memory-aware Scheduling for Complex Wired Networks with Iterative Graph
Optimization [4.614780125575351]
本稿では,反復グラフ最適化に基づく効率的なメモリ認識スケジューリングフレームワークを提案する。
我々のフレームワークは、スケジューリングの最適性を保ちながらグラフを単純化する反復グラフ融合アルゴリズムを備えている。
論文 参考訳(メタデータ) (2023-08-26T14:52:02Z) - An efficient and flexible inference system for serving heterogeneous
ensembles of deep neural networks [0.0]
ディープニューラルネットワーク(DNN)のアンサンブルは定性的予測を達成しているが、それらは計算とメモリ集約である。
DNNの柔軟性と効率性を両立させる新しいソフトウェア層を提案する。
論文 参考訳(メタデータ) (2022-08-30T08:05:43Z) - Towards Optimal VPU Compiler Cost Modeling by using Neural Networks to
Infer Hardware Performances [58.720142291102135]
VPUNN"は低レベルのタスクプロファイリングに基づいてトレーニングされたニューラルネットワークベースのコストモデルである。
これは、IntelのVPUプロセッサのラインにおける最先端のコストモデリングよりも一貫して優れている。
論文 参考訳(メタデータ) (2022-05-09T22:48:39Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Automatic Mapping of the Best-Suited DNN Pruning Schemes for Real-Time
Mobile Acceleration [71.80326738527734]
本稿では,汎用的,きめ細かな構造化プルーニング手法とコンパイラの最適化を提案する。
提案手法は,より微細な構造化プルーニング手法とともに,最先端のDNN最適化フレームワークよりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-22T23:53:14Z) - Quantized Neural Networks via {-1, +1} Encoding Decomposition and
Acceleration [83.84684675841167]
本稿では,量子化されたニューラルネットワーク(QNN)をマルチブランチバイナリネットワークに分解するために,-1,+1を用いた新しい符号化方式を提案する。
本稿では,大規模画像分類,オブジェクト検出,セマンティックセグメンテーションにおける提案手法の有効性を検証する。
論文 参考訳(メタデータ) (2021-06-18T03:11:15Z) - Multi-Exit Semantic Segmentation Networks [78.44441236864057]
本稿では,最先端セグメンテーションモデルをMESSネットワークに変換するフレームワークを提案する。
パラメトリド早期出口を用いた特別訓練されたCNNは、より簡単なサンプルの推測時に、その深さに沿って保存する。
接続されたセグメンテーションヘッドの数、配置、アーキテクチャとエグジットポリシーを併用して、デバイス機能とアプリケーション固有の要件に適応する。
論文 参考訳(メタデータ) (2021-06-07T11:37:03Z) - Binary Graph Neural Networks [69.51765073772226]
グラフニューラルネットワーク(gnns)は、不規則データに対する表現学習のための強力で柔軟なフレームワークとして登場した。
本稿では,グラフニューラルネットワークのバイナライゼーションのための異なる戦略を提示し,評価する。
モデルの慎重な設計とトレーニングプロセスの制御によって、バイナリグラフニューラルネットワークは、挑戦的なベンチマークの精度において、適度なコストでトレーニングできることを示しています。
論文 参考訳(メタデータ) (2020-12-31T18:48:58Z) - Optimising the Performance of Convolutional Neural Networks across
Computing Systems using Transfer Learning [0.08594140167290096]
本稿では,パフォーマンスモデリングの機械学習に基づくアプローチにより,長大なプロファイリングステージを置き換えることを提案する。
トレーニング後、我々のパフォーマンスモデルは任意のレイヤ構成における畳み込みプリミティブのパフォーマンスを推定できる。
プリミティブ選択による大規模ニューラルネットワークの実行を最適化する時間は、数時間から秒に短縮される。
論文 参考訳(メタデータ) (2020-10-20T20:58:27Z) - Automated Design Space Exploration for optimised Deployment of DNN on
Arm Cortex-A CPUs [13.628734116014819]
組み込みデバイスにおけるディープラーニングは、ディープニューラルネットワーク(DNN)のデプロイを最適化する多くの方法の開発を促している。
テストし、グローバルに最適化されたソリューションを得るには、アプローチの空間が大きすぎるため、クロスレベル最適化に関する研究が不足している。
我々は、Arm Cortex-A CPUプラットフォーム上での最先端DNNの一連の結果を示し、最大4倍の性能向上とメモリの2倍以上の削減を実現した。
論文 参考訳(メタデータ) (2020-06-09T11:00:06Z) - Pairwise Neural Networks (PairNets) with Low Memory for Fast On-Device
Applications [0.0]
従来の人工ニューラルネットワーク(ANN)は通常、バックプロパゲーションアルゴリズムのような勾配降下アルゴリズムによってゆっくりと訓練される。
Pairwise Neural Network"(PairNet)と呼ばれる,高速な非漸進的ハイパーパラメータ最適化を備えた,幅広で浅い4層ANNを作成した。
論文 参考訳(メタデータ) (2020-02-10T02:12:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。