論文の概要: A Note on Latency Variability of Deep Neural Networks for Mobile
Inference
- arxiv url: http://arxiv.org/abs/2003.00138v1
- Date: Sat, 29 Feb 2020 00:30:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-27 20:25:59.781809
- Title: A Note on Latency Variability of Deep Neural Networks for Mobile
Inference
- Title(参考訳): モバイル推論のためのディープニューラルネットワークのレイテンシ変動に関する一考察
- Authors: Luting Yang, Bingqian Lu and Shaolei Ren
- Abstract要約: モバイルデバイスでディープニューラルネットワーク(DNN)推論を実行することがトレンドになりつつある。
我々は,CPUリソースの競合が存在する場合,推論レイテンシの変動が極めて重要であることを示した。
- 参考スコア(独自算出の注目度): 16.86600007830682
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Running deep neural network (DNN) inference on mobile devices, i.e., mobile
inference, has become a growing trend, making inference less dependent on
network connections and keeping private data locally. The prior studies on
optimizing DNNs for mobile inference typically focus on the metric of average
inference latency, thus implicitly assuming that mobile inference exhibits
little latency variability. In this note, we conduct a preliminary measurement
study on the latency variability of DNNs for mobile inference. We show that the
inference latency variability can become quite significant in the presence of
CPU resource contention. More interestingly, unlike the common belief that the
relative performance superiority of DNNs on one device can carry over to
another device and/or another level of resource contention, we highlight that a
DNN model with a better latency performance than another model can become
outperformed by the other model when resource contention be more severe or
running on another device. Thus, when optimizing DNN models for mobile
inference, only measuring the average latency may not be adequate; instead,
latency variability under various conditions should be accounted for, including
but not limited to different devices and different levels of CPU resource
contention considered in this note.
- Abstract(参考訳): モバイルデバイス上でディープニューラルネットワーク(DNN)推論を実行すること、すなわちモバイル推論は、ネットワーク接続への依存を減らし、プライベートデータをローカルに保持する傾向にある。
モバイル推論のためのDNNの最適化に関する以前の研究は、一般的に平均的な推論レイテンシの測定に焦点を合わせており、モバイル推論がレイテンシのばらつきが少ないことを暗黙的に仮定している。
本稿では,モバイル推論におけるDNNの遅延変動に関する予備的な測定を行った。
cpuリソース競合の存在下では,推論レイテンシの変動が極めて重要になる可能性がある。
より興味深いのは、あるデバイス上でのDNNの相対的な性能優位性は他のデバイスや/または他のレベルのリソース競合に受け継がれるという一般的な信念とは異なり、リソース競合がより深刻あるいは他のデバイス上で実行される場合、他のモデルよりも優れたレイテンシ性能を持つDNNモデルは、他のモデルよりも性能が良くなることである。
したがって、モバイル推論のためにDNNモデルを最適化する場合、平均遅延を測定するだけでは不十分である可能性がある。
関連論文リスト
- Towards Low-latency Event-based Visual Recognition with Hybrid Step-wise Distillation Spiking Neural Networks [50.32980443749865]
スパイキングニューラルネットワーク(SNN)は、低消費電力と高い生物性のために大きな注目を集めている。
現在のSNNは、ニューロモルフィックデータセットの正確性とレイテンシのバランスをとるのに苦労している。
ニューロモルフィックデータセットに適したステップワイド蒸留法(HSD)を提案する。
論文 参考訳(メタデータ) (2024-09-19T06:52:34Z) - Negative Feedback Training: A Novel Concept to Improve Robustness of NVCIM DNN Accelerators [11.832487701641723]
非揮発性メモリ(NVM)デバイスは、Deep Neural Network(DNN)推論の実行時のエネルギー効率とレイテンシが優れている。
ネットワークから取得したマルチスケールノイズ情報を活用した負フィードバックトレーニング(NFT)を提案する。
提案手法は,既存の最先端手法よりも46.71%の精度向上を実現している。
論文 参考訳(メタデータ) (2023-05-23T22:56:26Z) - Efficient Graph Neural Network Inference at Large Scale [54.89457550773165]
グラフニューラルネットワーク(GNN)は、幅広いアプリケーションで優れた性能を示している。
既存のスケーラブルなGNNは、線形伝搬を利用して特徴を前処理し、トレーニングと推論の手順を高速化する。
本稿では,そのトポロジ情報に基づいて各ノードに対してパーソナライズされた伝搬順序を生成する適応的伝搬順序法を提案する。
論文 参考訳(メタデータ) (2022-11-01T14:38:18Z) - Inference Latency Prediction at the Edge [0.3974789827371669]
State-of-the-art Neural Architecture(NA)は通常、NAS(Neural Architecture Search)を通じて設計され、精度と効率のトレードオフに優れたNAを識別する。
NAS中の巨大な候補アーキテクチャのレイテンシの測定はスケーラブルではないため、モバイルデバイス上でのエンドツーエンドの推論遅延を予測するためのアプローチが必要である。
本稿では,これらの課題に対処する遅延予測フレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-06T00:46:06Z) - Fluid Batching: Exit-Aware Preemptive Serving of Early-Exit Neural
Networks on Edge NPUs [74.83613252825754]
スマートエコシステム(smart ecosystems)"は、スタンドアロンではなく、センセーションが同時に行われるように形成されています。
これはデバイス上の推論パラダイムを、エッジにニューラル処理ユニット(NPU)をデプロイする方向にシフトしている。
そこで本研究では,実行時のプリエンプションが到着・終了プロセスによってもたらされる動的性を考慮に入れた,新しい早期終了スケジューリングを提案する。
論文 参考訳(メタデータ) (2022-09-27T15:04:01Z) - MAPLE-X: Latency Prediction with Explicit Microprocessor Prior Knowledge [87.41163540910854]
ディープニューラルネットワーク(DNN)レイテンシのキャラクタリゼーションは、時間を要するプロセスである。
ハードウェアデバイスの事前知識とDNNアーキテクチャのレイテンシを具体化し,MAPLEを拡張したMAPLE-Xを提案する。
論文 参考訳(メタデータ) (2022-05-25T11:08:20Z) - Communication-Efficient Separable Neural Network for Distributed
Inference on Edge Devices [2.28438857884398]
本稿では,分散推論のためのニューラルネットワークを分離するために,モデル並列性を利用する新しい手法を提案する。
デバイスの適切な仕様とモデルの構成の下で、エッジクラスタ上の大規模ニューラルネットワークの推論が分散し、加速可能であることを示す実験を行った。
論文 参考訳(メタデータ) (2021-11-03T19:30:28Z) - Calibration-Aided Edge Inference Offloading via Adaptive Model
Partitioning of Deep Neural Networks [30.800324092046793]
モバイルデバイスは、ディープニューラルネットワーク(DNN)ベースの推論をクラウドにオフロードし、ローカルハードウェアとエネルギー制限を克服することができる。
本研究は,モデル分割によるオフロードにおける誤校正初期DNNの利用が,推論精度を著しく低下させることを示した。
対照的に、デプロイ前にキャリブレーションアルゴリズムを実装することでこの問題を解決し、より信頼性の高いオフロード決定が可能になると論じる。
論文 参考訳(メタデータ) (2020-10-30T15:50:12Z) - Towards Real-Time DNN Inference on Mobile Platforms with Model Pruning
and Compiler Optimization [56.3111706960878]
ハイエンドなモバイルプラットフォームは、幅広いDeep Neural Network (DNN)アプリケーションのための主要なコンピューティングデバイスとして機能する。
これらのデバイス上の制約付き計算とストレージリソースは、リアルタイムの推論実行に重大な課題をもたらす。
モバイル端末上でのDNN実行を高速化するハードウェアフレンドリーな構造化モデルプルーニングとコンパイラ最適化手法を提案する。
論文 参考訳(メタデータ) (2020-04-22T03:18:23Z) - PatDNN: Achieving Real-Time DNN Execution on Mobile Devices with
Pattern-based Weight Pruning [57.20262984116752]
粗粒構造の内部に新しい次元、きめ細かなプルーニングパターンを導入し、これまで知られていなかった設計空間の点を明らかにした。
きめ細かいプルーニングパターンによって高い精度が実現されているため、コンパイラを使ってハードウェア効率を向上し、保証することがユニークな洞察である。
論文 参考訳(メタデータ) (2020-01-01T04:52:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。