論文の概要: Towards Optimal VPU Compiler Cost Modeling by using Neural Networks to
Infer Hardware Performances
- arxiv url: http://arxiv.org/abs/2205.04586v1
- Date: Mon, 9 May 2022 22:48:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-12 18:16:10.688396
- Title: Towards Optimal VPU Compiler Cost Modeling by using Neural Networks to
Infer Hardware Performances
- Title(参考訳): ニューラルネットワークによるハードウェア性能推定によるVPUコンパイラコストの最適モデリング
- Authors: Ian Frederick Vigogne Goodbody Hunter, Alessandro Palla, Sebastian
Eusebiu Nagy, Richard Richmond and Kyle McAdoo
- Abstract要約: VPUNN"は低レベルのタスクプロファイリングに基づいてトレーニングされたニューラルネットワークベースのコストモデルである。
これは、IntelのVPUプロセッサのラインにおける最先端のコストモデリングよりも一貫して優れている。
- 参考スコア(独自算出の注目度): 58.720142291102135
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Calculating the most efficient schedule of work in a neural network compiler
is a difficult task. There are many parameters to be accounted for that can
positively or adversely affect that schedule depending on their configuration -
How work is shared between distributed targets, the subdivision of tensors to
fit in memory, toggling the enablement of optimizations, etc. Traditionally,
neural network compilers determine how to set these values by building a graph
of choices and choosing the path with minimal 'cost'. These choices and their
corresponding costs are usually determined by an algorithm crafted by engineers
with a deep knowledge of the target platform. However, when the amount of
options available to a compiler is large, it is very difficult to ensure that
these models consistently produce an optimal schedule for all scenarios, whilst
still completing compilation in an acceptable timeframe. This paper presents
'VPUNN' - a neural network-based cost model trained on low-level task profiling
that consistently outperforms the state-of-the-art cost modeling in Intel's
line of VPU processors.
- Abstract(参考訳): ニューラルネットワークコンパイラで作業の最も効率的なスケジュールを計算するのは難しい作業です。
設定によってそのスケジュールに肯定的あるいは悪影響を及ぼす可能性のあるパラメータはたくさんあります 分散ターゲット間で作業が共有されているか、メモリに収まるテンソルのサブディビジョン、最適化の有効性などです。
従来、ニューラルネットワークコンパイラは、選択のグラフを構築し、最小限の‘コスト’で経路を選択することによって、これらの値の設定方法を決定する。
これらの選択とその対応するコストは、通常、ターゲットプラットフォームの深い知識を持つエンジニアによって作られたアルゴリズムによって決定される。
しかしながら、コンパイラに利用可能なオプションの量が多ければ、これらのモデルが許容可能な時間枠でコンパイルを完了しながら、すべてのシナリオに対して常に最適なスケジュールを生成することを保証することは極めて困難である。
本稿では,低レベルのタスクプロファイリングをトレーニングしたニューラルネットワークベースのコストモデルであるVPUNNについて述べる。
関連論文リスト
- Switchable Decision: Dynamic Neural Generation Networks [98.61113699324429]
本稿では,各データインスタンスのリソースを動的に割り当てることで,推論を高速化するスイッチブルな決定を提案する。
提案手法は, 同一の精度を維持しながら, 推論時のコスト低減に有効である。
論文 参考訳(メタデータ) (2024-05-07T17:44:54Z) - RESPECT: Reinforcement Learning based Edge Scheduling on Pipelined Coral
Edge TPUs [12.952987240366781]
本研究は、最適化アルゴリズムの挙動を学習する強化学習(RL)に基づくスケジューリングフレームワークを提案する。
RLは、実行時のオーバーヘッドを短くすることで、ほぼ最適のスケジューリング結果を生成する。
我々のフレームワークは、商用コンパイラ上での実世界のオンチップランタイム推論速度アップを最大$sim2.5times$で実証しています。
論文 参考訳(メタデータ) (2023-04-10T17:22:12Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - Partitioning Distributed Compute Jobs with Reinforcement Learning and
Graph Neural Networks [58.720142291102135]
大規模な機械学習モデルは、幅広い分野に進歩をもたらしている。
これらのモデルの多くは、単一のマシンでトレーニングするには大きすぎるため、複数のデバイスに分散する必要がある。
スループットやブロッキングレートといったユーザクリティカルな指標に対して,並列化の最大化が準最適であることを示す。
論文 参考訳(メタデータ) (2023-01-31T17:41:07Z) - Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。
我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文 参考訳(メタデータ) (2022-11-19T15:44:08Z) - FreeREA: Training-Free Evolution-based Architecture Search [17.202375422110553]
FreeREAは、トレーニングなしメトリクスの最適化組み合わせを利用してアーキテクチャをランク付けする、独自のセルベースの進化NASアルゴリズムである。
本実験はNAS-Bench-101とNATS-Benchの共通ベンチマークを用いて,フリーレアがモデル自動設計のための高速で効率的かつ効果的な探索手法であることを実証した。
論文 参考訳(メタデータ) (2022-06-17T11:16:28Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Optimising the Performance of Convolutional Neural Networks across
Computing Systems using Transfer Learning [0.08594140167290096]
本稿では,パフォーマンスモデリングの機械学習に基づくアプローチにより,長大なプロファイリングステージを置き換えることを提案する。
トレーニング後、我々のパフォーマンスモデルは任意のレイヤ構成における畳み込みプリミティブのパフォーマンスを推定できる。
プリミティブ選択による大規模ニューラルネットワークの実行を最適化する時間は、数時間から秒に短縮される。
論文 参考訳(メタデータ) (2020-10-20T20:58:27Z) - A Learned Performance Model for Tensor Processing Units [5.733911161090224]
本稿では,処理ユニット(TPU)インスタンス用のグラフプログラムのコーパスから,パフォーマンスモデルを学習する方法を示す。
学習したモデルでは,2つのタスクにおいて,高度に最適化された分析性能モデルよりも優れていることを示す。
オートチューニングは、TPUへのアクセスが制限されたり、高価な設定で、より高速なプログラムを見つけるのに役立つ。
論文 参考訳(メタデータ) (2020-08-03T17:24:52Z) - Towards High Performance, Portability, and Productivity: Lightweight
Augmented Neural Networks for Performance Prediction [0.0]
カーネル変種ハードウェアの任意の組み合わせのための軽量な拡張ニューラルネットワークを提案する。
従来のフィードフォワードニューラルネットワークよりもはるかに優れた、3%の低いMAPEが得られるのです。
私たちの変分選択アプローチは、Halideの実装で、Halideの自動スケジューリングよりも最大1.7倍のスピードアップを得るために使用できます。
論文 参考訳(メタデータ) (2020-03-17T02:19:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。