論文の概要: MAPLE-Edge: A Runtime Latency Predictor for Edge Devices
- arxiv url: http://arxiv.org/abs/2204.12950v1
- Date: Wed, 27 Apr 2022 14:00:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-28 12:16:18.051976
- Title: MAPLE-Edge: A Runtime Latency Predictor for Edge Devices
- Title(参考訳): MAPLE-Edge: エッジデバイス用のランタイムレイテンシ予測器
- Authors: Saeejith Nair, Saad Abbasi, Alexander Wong, Mohammad Javad Shafiee
- Abstract要約: 汎用ハードウェアの最先端遅延予測器であるMAPLEのエッジデバイス指向拡張であるMAPLE-Edgeを提案する。
MAPLEと比較して、MAPLE-Edgeはより小さなCPUパフォーマンスカウンタを使用して、ランタイムとターゲットデバイスプラットフォームを記述することができる。
また、共通ランタイムを共有するデバイスプール上でトレーニングを行うMAPLEとは異なり、MAPLE-Edgeは実行時に効果的に一般化できることを示す。
- 参考スコア(独自算出の注目度): 80.01591186546793
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural Architecture Search (NAS) has enabled automatic discovery of more
efficient neural network architectures, especially for mobile and embedded
vision applications. Although recent research has proposed ways of quickly
estimating latency on unseen hardware devices with just a few samples, little
focus has been given to the challenges of estimating latency on runtimes using
optimized graphs, such as TensorRT and specifically for edge devices. In this
work, we propose MAPLE-Edge, an edge device-oriented extension of MAPLE, the
state-of-the-art latency predictor for general purpose hardware, where we train
a regression network on architecture-latency pairs in conjunction with a
hardware-runtime descriptor to effectively estimate latency on a diverse pool
of edge devices. Compared to MAPLE, MAPLE-Edge can describe the runtime and
target device platform using a much smaller set of CPU performance counters
that are widely available on all Linux kernels, while still achieving up to
+49.6% accuracy gains against previous state-of-the-art baseline methods on
optimized edge device runtimes, using just 10 measurements from an unseen
target device. We also demonstrate that unlike MAPLE which performs best when
trained on a pool of devices sharing a common runtime, MAPLE-Edge can
effectively generalize across runtimes by applying a trick of normalizing
performance counters by the operator latency, in the measured hardware-runtime
descriptor. Lastly, we show that for runtimes exhibiting lower than desired
accuracy, performance can be boosted by collecting additional samples from the
target device, with an extra 90 samples translating to gains of nearly +40%.
- Abstract(参考訳): neural architecture search (nas)は、より効率的なニューラルネットワークアーキテクチャ、特にモバイルおよび組み込み視覚アプリケーションの自動発見を可能にした。
最近の研究では、わずか数サンプルで未確認のハードウェアデバイス上でのレイテンシを迅速に推定する方法が提案されているが、TensorRTやエッジデバイスなど、最適化されたグラフを使用してランタイム上でのレイテンシを推定するという課題にはほとんど焦点が当てられていない。
そこで本研究では,汎用ハードウェアのための最先端遅延予測器であるmapleのエッジデバイス指向拡張であるmaple-edgeを提案する。
mapleと比較すると、maple-edgeは、すべてのlinuxカーネルで広く利用可能なcpuパフォーマンスカウンタセットを使用して、ランタイムとターゲットデバイスプラットフォームを記述できるが、最適化されたエッジデバイスランタイムにおける以前の最先端のベースラインメソッドに対する最大49.6%の精度向上を達成している。
また、共通ランタイムを共有するデバイスプール上でトレーニングを行うMAPLEとは異なり、ハードウェア実行時記述子を用いて、演算子遅延によってパフォーマンスカウンタを正規化するトリックを適用することで、MAPLE-Edgeは実行時を効果的に一般化できることを示した。
最後に、所望の精度よりも低いランタイムに対して、ターゲットデバイスから追加のサンプルを収集することで性能を向上できることを示し、さらに90のサンプルを約40%のゲインに変換した。
関連論文リスト
- AccEPT: An Acceleration Scheme for Speeding Up Edge Pipeline-parallel
Training [22.107070114339038]
本稿では,エッジ協調パイプライン並列トレーニングを高速化するアクセラレーションスキームであるAccEPTを提案する。
特に,異なるデバイスにおける各レイヤの遅延を正確に推定する軽量適応遅延予測器を提案する。
数値計算の結果,提案手法により,エッジパイプラインの並列学習を最大3倍高速化できることがわかった。
論文 参考訳(メタデータ) (2023-11-10T02:18:33Z) - FLEdge: Benchmarking Federated Machine Learning Applications in Edge Computing Systems [61.335229621081346]
フェデレートラーニング(FL)は,ネットワークエッジ上での分散ディープラーニングのプライバシ強化を実現する上で,有効なテクニックとなっている。
本稿では,既存のFLベンチマークを補完するFLEdgeを提案する。
論文 参考訳(メタデータ) (2023-06-08T13:11:20Z) - MAPLE-X: Latency Prediction with Explicit Microprocessor Prior Knowledge [87.41163540910854]
ディープニューラルネットワーク(DNN)レイテンシのキャラクタリゼーションは、時間を要するプロセスである。
ハードウェアデバイスの事前知識とDNNアーキテクチャのレイテンシを具体化し,MAPLEを拡張したMAPLE-Xを提案する。
論文 参考訳(メタデータ) (2022-05-25T11:08:20Z) - Lightweight Jet Reconstruction and Identification as an Object Detection
Task [5.071565475111431]
我々は、CERN大型ハドロン衝突型加速器で遭遇したジェットのエンド・ツー・エンドの識別と再構築作業に畳み込み技術を適用した。
PFJet-SSDは、クラスタジェットへの同時ローカライゼーション、分類、回帰タスクを実行し、特徴を再構築する。
3次ネットワークは、その完全精度の等価な性能と密に一致し、最先端のルールベースアルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2022-02-09T15:01:53Z) - MAPLE: Microprocessor A Priori for Latency Estimation [81.91509153539566]
現代のディープニューラルネットワークは、低レイテンシとエネルギー消費を示しながら最先端の精度を示す必要がある。
評価されたアーキテクチャのレイテンシの測定は、NASプロセスにかなりの時間を加えます。
転送学習やドメイン適応に依存しない推定用マイクロプロセッサAプライオリティを提案する。
論文 参考訳(メタデータ) (2021-11-30T03:52:15Z) - HELP: Hardware-Adaptive Efficient Latency Predictor for NAS via
Meta-Learning [43.751220068642624]
ハードウェア適応型予測器(HELP)は、メタ学習問題としてデバイス固有の遅延推定問題である。
レイテンシを出力するブラックボックス関数として考慮し,ハードウェア適応型遅延予測器をデバイス依存でメタ学習する,新たなハードウェア埋め込みを導入する。
提案するHELPの遅延推定性能について検証し,最大10個の測定サンプルを用いて高い推定性能を達成し,関連するベースラインを全て上回る結果を得た。
論文 参考訳(メタデータ) (2021-06-16T08:36:21Z) - Multi-Exit Semantic Segmentation Networks [78.44441236864057]
本稿では,最先端セグメンテーションモデルをMESSネットワークに変換するフレームワークを提案する。
パラメトリド早期出口を用いた特別訓練されたCNNは、より簡単なサンプルの推測時に、その深さに沿って保存する。
接続されたセグメンテーションヘッドの数、配置、アーキテクチャとエグジットポリシーを併用して、デバイス機能とアプリケーション固有の要件に適応する。
論文 参考訳(メタデータ) (2021-06-07T11:37:03Z) - PatDNN: Achieving Real-Time DNN Execution on Mobile Devices with
Pattern-based Weight Pruning [57.20262984116752]
粗粒構造の内部に新しい次元、きめ細かなプルーニングパターンを導入し、これまで知られていなかった設計空間の点を明らかにした。
きめ細かいプルーニングパターンによって高い精度が実現されているため、コンパイラを使ってハードウェア効率を向上し、保証することがユニークな洞察である。
論文 参考訳(メタデータ) (2020-01-01T04:52:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。