論文の概要: CDMPP: A Device-Model Agnostic Framework for Latency Prediction of
Tensor Programs
- arxiv url: http://arxiv.org/abs/2311.09690v2
- Date: Fri, 17 Nov 2023 08:23:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-20 11:54:57.474982
- Title: CDMPP: A Device-Model Agnostic Framework for Latency Prediction of
Tensor Programs
- Title(参考訳): CDMPP:テンソルプログラムの遅延予測のためのデバイスモデル非依存フレームワーク
- Authors: Hanpeng Hu, Junwei Su, Juntao Zhao, Yanghua Peng, Yibo Zhu, Haibin
Lin, Chuan Wu
- Abstract要約: Deep Neural Networks (DNN)は、幅広い機械学習アプリケーションで優れたパフォーマンスを示している。
特定のデバイス上でDNNモデルやテンソルプログラムを実行するレイテンシを知ることは、さまざまなタスクで有用である。
クロスモデルおよびクロスデバイス予測のための効率的なテンソルプログラム遅延予測フレームワークCDMPPを提案する。
- 参考スコア(独自算出の注目度): 11.025071880642974
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep Neural Networks (DNNs) have shown excellent performance in a wide range
of machine learning applications. Knowing the latency of running a DNN model or
tensor program on a specific device is useful in various tasks, such as DNN
graph- or tensor-level optimization and device selection. Considering the large
space of DNN models and devices that impede direct profiling of all
combinations, recent efforts focus on building a predictor to model the
performance of DNN models on different devices. However, none of the existing
attempts have achieved a cost model that can accurately predict the performance
of various tensor programs while supporting both training and inference
accelerators. We propose CDMPP, an efficient tensor program latency prediction
framework for both cross-model and cross-device prediction. We design an
informative but efficient representation of tensor programs, called compact
ASTs, and a pre-order-based positional encoding method, to capture the internal
structure of tensor programs. We develop a domain-adaption-inspired method to
learn domain-invariant representations and devise a KMeans-based sampling
algorithm, for the predictor to learn from different domains (i.e., different
DNN operators and devices). Our extensive experiments on a diverse range of DNN
models and devices demonstrate that CDMPP significantly outperforms
state-of-the-art baselines with 14.03% and 10.85% prediction error for
cross-model and cross-device prediction, respectively, and one order of
magnitude higher training efficiency. The implementation and the expanded
dataset are available at https://github.com/joapolarbear/cdmpp.
- Abstract(参考訳): Deep Neural Networks (DNN)は、幅広い機械学習アプリケーションで優れたパフォーマンスを示している。
特定のデバイス上でDNNモデルやテンソルプログラムを実行するレイテンシを知ることは、DNNグラフやテンソルレベルの最適化やデバイス選択など、さまざまなタスクで有用である。
全ての組み合わせの直接プロファイリングを妨げるDNNモデルとデバイスの大きなスペースを考えると、近年の取り組みは、異なるデバイス上でのDNNモデルのパフォーマンスをモデル化する予測器の構築に焦点を当てている。
しかし、既存のどの試みも、トレーニングと推論アクセラレータの両方をサポートしながら、様々なテンソルプログラムのパフォーマンスを正確に予測できるコストモデルを達成していない。
クロスモデルおよびクロスデバイス予測のための効率的なテンソルプログラム遅延予測フレームワークCDMPPを提案する。
我々は、テンソルプログラムの内部構造を捉えるために、コンパクトASTと呼ばれるテンソルプログラムの情報的かつ効率的な表現と、プレオーダーベースの位置符号化法を設計する。
我々は,ドメイン非不変表現を学習し,予測器が異なるドメイン(DNN演算子やデバイス)から学習するためのKMeansに基づくサンプリングアルゴリズムを考案するドメイン適応型手法を開発した。
多様なDNNモデルとデバイスに関する広範な実験により、CDMPPは、それぞれ14.03%と10.85%の予測誤差と1桁のトレーニング効率で、最先端のベースラインを著しく上回ることを示した。
実装と拡張されたデータセットはhttps://github.com/joapolarbear/cdmppで利用可能である。
関連論文リスト
- Few-Shot Testing: Estimating Uncertainty of Memristive Deep Neural Networks Using One Bayesian Test Vector [0.0]
我々は,memristorベースのCIMハードウェア上に実装されたNNのモデル不確かさを推定できるテストベクトル生成フレームワークを提案する。
提案手法は, 異なるモデル次元, タスク, 故障率, 変動ノイズに基づいて評価し, メモリオーバーヘッドを0.024ドルに抑えながら, 100%のカバレッジを連続的に達成可能であることを示す。
論文 参考訳(メタデータ) (2024-05-29T08:53:16Z) - Anole: Adapting Diverse Compressed Models For Cross-Scene Prediction On Mobile Devices [17.542012577533015]
Anoleは、モバイルデバイス上のローカルDNNモデル推論に対処するための軽量なスキームである。
我々は、さまざまなタイプのモバイルデバイスにAnoleを実装し、無人航空機(UAV)に基づく広範囲なトレース駆動および実世界の実験を行う。
論文 参考訳(メタデータ) (2024-05-09T12:06:18Z) - Sparse-DySta: Sparsity-Aware Dynamic and Static Scheduling for Sparse
Multi-DNN Workloads [65.47816359465155]
複数のディープニューラルネットワーク(DNN)を並列に実行することは、両エッジデバイスで新たなワークロードとなっている。
スパースマルチDNNスケジューリングに静的なスケジューラパターンと動的スケジューラ情報の両方を利用する新しいスケジューラDystaを提案する。
提案手法は, 遅延制約違反率を最大10%削減し, 平均正規化ターンアラウンド時間で約4倍に向上する。
論文 参考訳(メタデータ) (2023-10-17T09:25:17Z) - PerfSAGE: Generalized Inference Performance Predictor for Arbitrary Deep
Learning Models on Edge Devices [8.272409756443539]
本稿では、任意のDNNliteグラフ上の推論遅延、エネルギー、メモリフットプリントを予測する新しいグラフニューラルネットワークであるPerfSAGEについて述べる。
このデータセットを用いて、PerfSAGEをトレーニングし、すべてのターゲットとモデル検索空間にわたって平均絶対パーセンテージ誤差の5%で最先端の予測精度を示す実験結果を提供する。
論文 参考訳(メタデータ) (2023-01-26T08:59:15Z) - Towards a learning-based performance modeling for accelerating Deep
Neural Networks [1.1549572298362785]
我々は、畳み込みニューラルネットワーク(CNN)を最適化するために、機械学習技術に基づく予測モデルの調査を開始する。
MidgardベースのARM Mali GPUの予備実験では、我々の予測モデルはライブラリが手作業で選択したすべての畳み込み演算子よりも優れていた。
論文 参考訳(メタデータ) (2022-12-09T18:28:07Z) - Boosted Dynamic Neural Networks [53.559833501288146]
典型的なEDNNは、ネットワークバックボーンの異なる層に複数の予測ヘッドを持つ。
モデルを最適化するために、これらの予測ヘッドとネットワークバックボーンは、トレーニングデータのバッチ毎にトレーニングされる。
トレーニングと2つのフェーズでのインプットの異なるテストは、トレーニングとデータ分散のテストのミスマッチを引き起こす。
EDNNを勾配強化にインスパイアされた付加モデルとして定式化し、モデルを効果的に最適化するための複数のトレーニング手法を提案する。
論文 参考訳(メタデータ) (2022-11-30T04:23:12Z) - Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。
我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文 参考訳(メタデータ) (2022-11-19T15:44:08Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - ANNETTE: Accurate Neural Network Execution Time Estimation with Stacked
Models [56.21470608621633]
本稿では,アーキテクチャ検索を対象ハードウェアから切り離すための時間推定フレームワークを提案する。
提案手法は,マイクロカーネルと多層ベンチマークからモデルの集合を抽出し,マッピングとネットワーク実行時間推定のためのスタックモデルを生成する。
生成した混合モデルの推定精度と忠実度, 統計モデルとルーフラインモデル, 評価のための洗練されたルーフラインモデルを比較した。
論文 参考訳(メタデータ) (2021-05-07T11:39:05Z) - Rank-R FNN: A Tensor-Based Learning Model for High-Order Data
Classification [69.26747803963907]
Rank-R Feedforward Neural Network (FNN)は、そのパラメータにCanonical/Polyadic分解を課すテンソルベースの非線形学習モデルである。
まず、入力をマルチリニアアレイとして扱い、ベクトル化の必要性を回避し、すべてのデータ次元に沿って構造情報を十分に活用することができる。
Rank-R FNNの普遍的な近似と学習性の特性を確立し、実世界のハイパースペクトルデータセットのパフォーマンスを検証する。
論文 参考訳(メタデータ) (2021-04-11T16:37:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。