論文の概要: HW-Aware Initialization of DNN Auto-Tuning to Improve Exploration Time
and Robustness
- arxiv url: http://arxiv.org/abs/2205.15568v1
- Date: Tue, 31 May 2022 07:16:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-01 15:14:06.984015
- Title: HW-Aware Initialization of DNN Auto-Tuning to Improve Exploration Time
and Robustness
- Title(参考訳): 探索時間とロバスト性を改善するDNNオートチューニングのHW対応初期化
- Authors: Dennis Rieber and Moritz Reiber and Oliver Bringmann and Holger
Fr\"oning
- Abstract要約: 本研究は,VTAハードウェアにおける自動チューニングプロセスとその基盤となる性能予測モデルに,不正な構成がどう影響するかを評価する。
AutoTVMの妥当性駆動方式が開発され、最良のソリューションを見つけるのに必要なハードウェアの41.6%しか必要としない。
- 参考スコア(独自算出の注目度): 1.165213554548421
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The process of optimizing the latency of DNN operators with ML models and
hardware-in-the-loop, called auto-tuning, has established itself as a pervasive
method for the deployment of neural networks. From a search space of
loop-optimizations, the candidate providing the best performance has to be
selected. Performance of individual configurations is evaluated through
hardware measurements. The combinatorial explosion of possible configurations,
together with the cost of hardware evaluation makes exhaustive explorations of
the search space infeasible in practice. Machine Learning methods, like random
forests or reinforcement learning are used to aid in the selection of
candidates for hardware evaluation. For general purpose hardware like x86 and
GPGPU architectures impressive performance gains can be achieved, compared to
hand-optimized libraries like cuDNN. The method is also useful in the space of
hardware accelerators with less wide-spread adoption, where a high-performance
library is not always available. However, hardware accelerators are often less
flexible with respect to their programming which leads to operator
configurations not executable on the hardware target. This work evaluates how
these invalid configurations affect the auto-tuning process and its underlying
performance prediction model for the VTA hardware. From these results, a
validity-driven initialization method for AutoTVM is developed, only requiring
41.6% of the necessary hardware measurements to find the best solution, while
improving search robustness.
- Abstract(参考訳): MLモデルと自動チューニングと呼ばれるハードウェア・イン・ザ・ループによるDNNオペレータのレイテンシを最適化するプロセスは、ニューラルネットワークの展開に広く利用される方法として確立されている。
ループ最適化の探索空間から、最高のパフォーマンスを提供する候補を選択する必要がある。
ハードウェア測定により個々の構成の性能を評価する。
可能な構成の組合せ的な爆発とハードウェア評価のコストは、探索空間の徹底的な探索を実際に実現不可能にする。
ランダムな森林や強化学習のような機械学習手法は、ハードウェア評価のための候補の選択に役立つ。
x86やGPGPUのような汎用ハードウェアでは、cuDNNのような手動最適化ライブラリと比較して、優れたパフォーマンス向上が達成できる。
この手法はハードウェアアクセラレーターの分野でも有用であり、高性能ライブラリが常に利用できるとは限らない。
しかしながら、ハードウェアアクセラレーションは、ハードウェアターゲット上で実行できないオペレータ構成につながるプログラミングに関して、柔軟性が低いことが多い。
本研究は,VTAハードウェアの性能予測モデルを用いて,これらの無効な構成が自動チューニングプロセスに与える影響を評価する。
これらの結果から,autotvmの有効性に基づく初期化手法が開発され,最適解を求めるのに必要なハードウェア測定の41.6%しか必要とせず,検索の堅牢性も向上した。
関連論文リスト
- Towards making the most of NLP-based device mapping optimization for
OpenCL kernels [5.6596607119831575]
我々は、加速されたOpenCLカーネルのための最適なデバイス選択(CPUまたはGPU)の問題に取り組むCummins et al.、すなわちDeeptuneの開発を拡張した。
ソースコードの文脈情報を拡張した4つの異なるモデルを提案する。
実験の結果,提案手法はCumminsらの手法を上回り,予測精度を最大4%向上させることがわかった。
論文 参考訳(メタデータ) (2022-08-30T10:20:55Z) - MAPLE-X: Latency Prediction with Explicit Microprocessor Prior Knowledge [87.41163540910854]
ディープニューラルネットワーク(DNN)レイテンシのキャラクタリゼーションは、時間を要するプロセスである。
ハードウェアデバイスの事前知識とDNNアーキテクチャのレイテンシを具体化し,MAPLEを拡張したMAPLE-Xを提案する。
論文 参考訳(メタデータ) (2022-05-25T11:08:20Z) - Towards Optimal VPU Compiler Cost Modeling by using Neural Networks to
Infer Hardware Performances [58.720142291102135]
VPUNN"は低レベルのタスクプロファイリングに基づいてトレーニングされたニューラルネットワークベースのコストモデルである。
これは、IntelのVPUプロセッサのラインにおける最先端のコストモデリングよりも一貫して優れている。
論文 参考訳(メタデータ) (2022-05-09T22:48:39Z) - FPGA-optimized Hardware acceleration for Spiking Neural Networks [69.49429223251178]
本研究は,画像認識タスクに適用したオフライントレーニングによるSNN用ハードウェアアクセラレータの開発について述べる。
この設計はXilinx Artix-7 FPGAをターゲットにしており、利用可能なハードウェアリソースの40%を合計で使用している。
分類時間を3桁に短縮し、ソフトウェアと比較すると精度にわずか4.5%の影響を与えている。
論文 参考訳(メタデータ) (2022-01-18T13:59:22Z) - MAPLE: Microprocessor A Priori for Latency Estimation [81.91509153539566]
現代のディープニューラルネットワークは、低レイテンシとエネルギー消費を示しながら最先端の精度を示す必要がある。
評価されたアーキテクチャのレイテンシの測定は、NASプロセスにかなりの時間を加えます。
転送学習やドメイン適応に依存しない推定用マイクロプロセッサAプライオリティを提案する。
論文 参考訳(メタデータ) (2021-11-30T03:52:15Z) - DANCE: Differentiable Accelerator/Network Co-Exploration [8.540518473228078]
この研究は、ハードウェアアクセラレーターとネットワークアーキテクチャ設計の共同探索に向けた異なるアプローチを示す。
ハードウェア評価ソフトウェアをニューラルネットワークでモデル化することにより、アクセラレーションアーキテクチャとハードウェアメトリクスの関係は微分可能となる。
提案手法は,既存手法と比較して,精度とハードウェアコストの指標を向上しつつ,比較的短い時間で共同探索を行う。
論文 参考訳(メタデータ) (2020-09-14T07:43:27Z) - A Learned Performance Model for Tensor Processing Units [5.733911161090224]
本稿では,処理ユニット(TPU)インスタンス用のグラフプログラムのコーパスから,パフォーマンスモデルを学習する方法を示す。
学習したモデルでは,2つのタスクにおいて,高度に最適化された分析性能モデルよりも優れていることを示す。
オートチューニングは、TPUへのアクセスが制限されたり、高価な設定で、より高速なプログラムを見つけるのに役立つ。
論文 参考訳(メタデータ) (2020-08-03T17:24:52Z) - Automated Design Space Exploration for optimised Deployment of DNN on
Arm Cortex-A CPUs [13.628734116014819]
組み込みデバイスにおけるディープラーニングは、ディープニューラルネットワーク(DNN)のデプロイを最適化する多くの方法の開発を促している。
テストし、グローバルに最適化されたソリューションを得るには、アプローチの空間が大きすぎるため、クロスレベル最適化に関する研究が不足している。
我々は、Arm Cortex-A CPUプラットフォーム上での最先端DNNの一連の結果を示し、最大4倍の性能向上とメモリの2倍以上の削減を実現した。
論文 参考訳(メタデータ) (2020-06-09T11:00:06Z) - PolyDL: Polyhedral Optimizations for Creation of High Performance DL
primitives [55.79741270235602]
本稿では,Deep Learningプリミティブの高性能実装を自動的に生成するコンパイラアルゴリズムを提案する。
我々は多面体モデルを用いた新しいデータ再利用分析アルゴリズムを開発した。
また、このようなハイブリッドコンパイラとライブラリ使用の最小限のアプローチが、最先端のパフォーマンスをもたらすことを示す。
論文 参考訳(メタデータ) (2020-06-02T06:44:09Z) - PatDNN: Achieving Real-Time DNN Execution on Mobile Devices with
Pattern-based Weight Pruning [57.20262984116752]
粗粒構造の内部に新しい次元、きめ細かなプルーニングパターンを導入し、これまで知られていなかった設計空間の点を明らかにした。
きめ細かいプルーニングパターンによって高い精度が実現されているため、コンパイラを使ってハードウェア効率を向上し、保証することがユニークな洞察である。
論文 参考訳(メタデータ) (2020-01-01T04:52:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。