論文の概要: Inference Latency Prediction at the Edge
- arxiv url: http://arxiv.org/abs/2210.02620v1
- Date: Thu, 6 Oct 2022 00:46:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 17:48:22.157766
- Title: Inference Latency Prediction at the Edge
- Title(参考訳): エッジにおける推論遅延予測
- Authors: Zhuojin Li, Marco Paolieri and Leana Golubchik
- Abstract要約: State-of-the-art Neural Architecture(NA)は通常、NAS(Neural Architecture Search)を通じて設計され、精度と効率のトレードオフに優れたNAを識別する。
NAS中の巨大な候補アーキテクチャのレイテンシの測定はスケーラブルではないため、モバイルデバイス上でのエンドツーエンドの推論遅延を予測するためのアプローチが必要である。
本稿では,これらの課題に対処する遅延予測フレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.3974789827371669
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the growing workload of inference tasks on mobile devices,
state-of-the-art neural architectures (NAs) are typically designed through
Neural Architecture Search (NAS) to identify NAs with good tradeoffs between
accuracy and efficiency (e.g., latency). Since measuring the latency of a huge
set of candidate architectures during NAS is not scalable, approaches are
needed for predicting end-to-end inference latency on mobile devices. Such
predictions are challenging due to hardware heterogeneity, optimizations
applied by ML frameworks, and the diversity of neural architectures. Motivated
by these challenges, in this paper, we first quantitatively assess
characteristics of neural architectures and mobile devices that have
significant effects on inference latency. Based on this assessment, we propose
a latency prediction framework which addresses these challenges by developing
operation-wise latency predictors, under a variety of settings and a number of
hardware devices, with multi-core CPUs and GPUs, achieving high accuracy in
end-to-end latency prediction, as shown by our comprehensive evaluations. To
illustrate that our approach does not require expensive data collection, we
also show that accurate predictions can be achieved on real-world NAs using
only small amounts of profiling data.
- Abstract(参考訳): モバイルデバイスでの推論タスクの負荷の増加に伴い、最先端のニューラルアーキテクチャ(nas)は通常、nas(neural architecture search)を通じて設計され、精度と効率(例えばレイテンシ)のトレードオフでnasを識別する。
NAS中の巨大な候補アーキテクチャのレイテンシの測定はスケーラブルではないため、モバイルデバイス上でのエンドツーエンドの推論遅延を予測するためのアプローチが必要である。
このような予測は、ハードウェアの不均一性、MLフレームワークによる最適化、ニューラルネットワークの多様性などによって難しい。
本稿では,これらの課題に動機づけられ,まず,推論遅延に大きな影響を与えるニューラルネットワークとモバイルデバイスの特性を定量的に評価する。
この評価に基づいて,マルチコアcpuとgpuを用いて,様々な設定とハードウェアデバイスで動作方向のレイテンシ予測器を開発し,エンドツーエンドのレイテンシ予測において高い精度を達成することで,これらの課題に対処できるレイテンシ予測フレームワークを提案する。
提案手法は高価なデータ収集を必要としないことを示すため,少数のプロファイリングデータのみを用いて実世界のNAに対して正確な予測を行うことができることを示す。
関連論文リスト
- On Latency Predictors for Neural Architecture Search [8.564763702766776]
本稿では,ハードウェア・デバイス・セットの自動分割による遅延予測タスクの包括的スイートについて紹介する。
次に,(1)予測器アーキテクチャ,(2)NNサンプル選択方法,(3)ハードウェアデバイス表現,(4)NN動作符号化方式を総合的に研究するために,一般遅延予測器を設計する。
本稿では,本研究の結論に基づいて,エンドツーエンドの遅延予測学習戦略を提案する。
論文 参考訳(メタデータ) (2024-03-04T19:59:32Z) - Efficient Graph Neural Network Inference at Large Scale [54.89457550773165]
グラフニューラルネットワーク(GNN)は、幅広いアプリケーションで優れた性能を示している。
既存のスケーラブルなGNNは、線形伝搬を利用して特徴を前処理し、トレーニングと推論の手順を高速化する。
本稿では,そのトポロジ情報に基づいて各ノードに対してパーソナライズされた伝搬順序を生成する適応的伝搬順序法を提案する。
論文 参考訳(メタデータ) (2022-11-01T14:38:18Z) - Evaluating Short-Term Forecasting of Multiple Time Series in IoT
Environments [67.24598072875744]
IoT(Internet of Things)環境は、多数のIoT対応センシングデバイスを介して監視される。
この問題を緩和するため、センサーは比較的低いサンプリング周波数で動作するように設定されることが多い。
これは、予測などの後続の意思決定を劇的に妨げる可能性がある。
論文 参考訳(メタデータ) (2022-06-15T19:46:59Z) - MAPLE-X: Latency Prediction with Explicit Microprocessor Prior Knowledge [87.41163540910854]
ディープニューラルネットワーク(DNN)レイテンシのキャラクタリゼーションは、時間を要するプロセスである。
ハードウェアデバイスの事前知識とDNNアーキテクチャのレイテンシを具体化し,MAPLEを拡張したMAPLE-Xを提案する。
論文 参考訳(メタデータ) (2022-05-25T11:08:20Z) - MAPLE: Microprocessor A Priori for Latency Estimation [81.91509153539566]
現代のディープニューラルネットワークは、低レイテンシとエネルギー消費を示しながら最先端の精度を示す必要がある。
評価されたアーキテクチャのレイテンシの測定は、NASプロセスにかなりの時間を加えます。
転送学習やドメイン適応に依存しない推定用マイクロプロセッサAプライオリティを提案する。
論文 参考訳(メタデータ) (2021-11-30T03:52:15Z) - HELP: Hardware-Adaptive Efficient Latency Predictor for NAS via
Meta-Learning [43.751220068642624]
ハードウェア適応型予測器(HELP)は、メタ学習問題としてデバイス固有の遅延推定問題である。
レイテンシを出力するブラックボックス関数として考慮し,ハードウェア適応型遅延予測器をデバイス依存でメタ学習する,新たなハードウェア埋め込みを導入する。
提案するHELPの遅延推定性能について検証し,最大10個の測定サンプルを用いて高い推定性能を達成し,関連するベースラインを全て上回る結果を得た。
論文 参考訳(メタデータ) (2021-06-16T08:36:21Z) - Generalized Latency Performance Estimation for Once-For-All Neural
Architecture Search [0.0]
特定のハードウェアとNAS検索空間で訓練されたベースモデルを用いた微調整を含む2つの汎用性戦略を紹介します。
ProxylessNASに比べて50%以上低いRMSE損失を達成できる待ち時間予測モデル群を提供する。
論文 参考訳(メタデータ) (2021-01-04T00:48:09Z) - LETI: Latency Estimation Tool and Investigation of Neural Networks
inference on Mobile GPU [0.0]
本研究では,モバイルGPUのレイテンシ近似をデータおよびハードウェア固有の問題として検討する。
私たちは、さまざまなターゲットデバイスで大規模な実験を行うための便利な方法を提供する、オープンソースのツールを構築しています。
我々は、一般的なNAS-Benchmark 101データセットのサブセットに対するそのようなアプローチの適用性を実験的に実証した。
論文 参考訳(メタデータ) (2020-10-06T16:51:35Z) - MS-RANAS: Multi-Scale Resource-Aware Neural Architecture Search [94.80212602202518]
我々は,MS-RANAS(Multi-Scale Resource-Aware Neural Architecture Search)を提案する。
我々は,検索コストの削減を図るために,ワンショットのアーキテクチャ探索手法を採用した。
我々は精度-速度トレードオフの観点から最先端の結果を得る。
論文 参考訳(メタデータ) (2020-09-29T11:56:01Z) - LC-NAS: Latency Constrained Neural Architecture Search for Point Cloud
Networks [73.78551758828294]
LC-NASは、最小計算コストでポイントクラウド分類のための最先端アーキテクチャを見つけることができる。
検索したアーキテクチャが、適度に低い精度で、望ましいレイテンシを実現する方法を示します。
論文 参考訳(メタデータ) (2020-08-24T10:30:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。