Fugu-MT 論文翻訳(概要): A Note on Latency Variability of Deep Neural Networks for Mobile Inference

論文の概要: A Note on Latency Variability of Deep Neural Networks for Mobile Inference

arxiv url: http://arxiv.org/abs/2003.00138v1
Date: Sat, 29 Feb 2020 00:30:52 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-27 20:25:59.781809
Title: A Note on Latency Variability of Deep Neural Networks for Mobile Inference
Title（参考訳）: モバイル推論のためのディープニューラルネットワークのレイテンシ変動に関する一考察
Authors: Luting Yang, Bingqian Lu and Shaolei Ren
Abstract要約: モバイルデバイスでディープニューラルネットワーク(DNN)推論を実行することがトレンドになりつつある。我々は,CPUリソースの競合が存在する場合,推論レイテンシの変動が極めて重要であることを示した。
参考スコア（独自算出の注目度）: 16.86600007830682
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Running deep neural network (DNN) inference on mobile devices, i.e., mobile inference, has become a growing trend, making inference less dependent on network connections and keeping private data locally. The prior studies on optimizing DNNs for mobile inference typically focus on the metric of average inference latency, thus implicitly assuming that mobile inference exhibits little latency variability. In this note, we conduct a preliminary measurement study on the latency variability of DNNs for mobile inference. We show that the inference latency variability can become quite significant in the presence of CPU resource contention. More interestingly, unlike the common belief that the relative performance superiority of DNNs on one device can carry over to another device and/or another level of resource contention, we highlight that a DNN model with a better latency performance than another model can become outperformed by the other model when resource contention be more severe or running on another device. Thus, when optimizing DNN models for mobile inference, only measuring the average latency may not be adequate; instead, latency variability under various conditions should be accounted for, including but not limited to different devices and different levels of CPU resource contention considered in this note.
Abstract（参考訳）: モバイルデバイス上でディープニューラルネットワーク(DNN)推論を実行すること、すなわちモバイル推論は、ネットワーク接続への依存を減らし、プライベートデータをローカルに保持する傾向にある。モバイル推論のためのDNNの最適化に関する以前の研究は、一般的に平均的な推論レイテンシの測定に焦点を合わせており、モバイル推論がレイテンシのばらつきが少ないことを暗黙的に仮定している。本稿では,モバイル推論におけるDNNの遅延変動に関する予備的な測定を行った。 cpuリソース競合の存在下では,推論レイテンシの変動が極めて重要になる可能性がある。より興味深いのは、あるデバイス上でのDNNの相対的な性能優位性は他のデバイスや/または他のレベルのリソース競合に受け継がれるという一般的な信念とは異なり、リソース競合がより深刻あるいは他のデバイス上で実行される場合、他のモデルよりも優れたレイテンシ性能を持つDNNモデルは、他のモデルよりも性能が良くなることである。したがって、モバイル推論のためにDNNモデルを最適化する場合、平均遅延を測定するだけでは不十分である可能性がある。

関連論文リスト

The Larger the Merrier? Efficient Large AI Model Inference in Wireless Edge Networks [56.37880529653111]
大規模計算モデル(LAIM)サービスの需要は、従来のクラウドベースの推論から、低レイテンシでプライバシ保護のアプリケーションのためのエッジベースの推論へのパラダイムシフトを推進している。本稿では,事前学習したLAIMをデバイス上のサブモデルとサーバ上のサブモデルに分割して配置するLAIM推論方式について検討する。
論文参考訳（メタデータ） (2025-05-14T08:18:55Z)
DVFS-Aware DNN Inference on GPUs: Latency Modeling and Performance Analysis [12.359690205873335]
ディープニューラルネットワーク(DNN)のレイテンシとエネルギー消費のバランスをとるための有望な技術として、ダイナミック電圧周波数スケーリング(DVFS)が登場している本稿では,GPU上でのDNN推定時間を正確に特徴付けるDVFS対応遅延モデルを提案する。評価の結果,提案モデルによる局所的推論最適化は,それぞれ66%,69%の時間とエネルギー消費を削減できることがわかった。
論文参考訳（メタデータ） (2025-02-10T09:34:25Z)
Towards Low-latency Event-based Visual Recognition with Hybrid Step-wise Distillation Spiking Neural Networks [50.32980443749865]
スパイキングニューラルネットワーク(SNN)は、低消費電力と高い生物性のために大きな注目を集めている。現在のSNNは、ニューロモルフィックデータセットの正確性とレイテンシのバランスをとるのに苦労している。ニューロモルフィックデータセットに適したステップワイド蒸留法(HSD)を提案する。
論文参考訳（メタデータ） (2024-09-19T06:52:34Z)
Negative Feedback Training: A Novel Concept to Improve Robustness of NVCIM DNN Accelerators [11.832487701641723]
非揮発性メモリ(NVM)デバイスは、Deep Neural Network(DNN)推論の実行時のエネルギー効率とレイテンシが優れている。ネットワークから取得したマルチスケールノイズ情報を活用した負フィードバックトレーニング(NFT)を提案する。提案手法は,既存の最先端手法よりも46.71%の精度向上を実現している。
論文参考訳（メタデータ） (2023-05-23T22:56:26Z)
Efficient Graph Neural Network Inference at Large Scale [54.89457550773165]
グラフニューラルネットワーク(GNN)は、幅広いアプリケーションで優れた性能を示している。既存のスケーラブルなGNNは、線形伝搬を利用して特徴を前処理し、トレーニングと推論の手順を高速化する。本稿では,そのトポロジ情報に基づいて各ノードに対してパーソナライズされた伝搬順序を生成する適応的伝搬順序法を提案する。
論文参考訳（メタデータ） (2022-11-01T14:38:18Z)
Inference Latency Prediction at the Edge [0.3974789827371669]
State-of-the-art Neural Architecture(NA)は通常、NAS(Neural Architecture Search)を通じて設計され、精度と効率のトレードオフに優れたNAを識別する。 NAS中の巨大な候補アーキテクチャのレイテンシの測定はスケーラブルではないため、モバイルデバイス上でのエンドツーエンドの推論遅延を予測するためのアプローチが必要である。本稿では,これらの課題に対処する遅延予測フレームワークを提案する。
論文参考訳（メタデータ） (2022-10-06T00:46:06Z)
Fluid Batching: Exit-Aware Preemptive Serving of Early-Exit Neural Networks on Edge NPUs [74.83613252825754]
スマートエコシステム(smart ecosystems)"は、スタンドアロンではなく、センセーションが同時に行われるように形成されています。これはデバイス上の推論パラダイムを、エッジにニューラル処理ユニット(NPU)をデプロイする方向にシフトしている。そこで本研究では,実行時のプリエンプションが到着・終了プロセスによってもたらされる動的性を考慮に入れた,新しい早期終了スケジューリングを提案する。
論文参考訳（メタデータ） (2022-09-27T15:04:01Z)
MAPLE-X: Latency Prediction with Explicit Microprocessor Prior Knowledge [87.41163540910854]
ディープニューラルネットワーク(DNN)レイテンシのキャラクタリゼーションは、時間を要するプロセスである。ハードウェアデバイスの事前知識とDNNアーキテクチャのレイテンシを具体化し,MAPLEを拡張したMAPLE-Xを提案する。
論文参考訳（メタデータ） (2022-05-25T11:08:20Z)
Communication-Efficient Separable Neural Network for Distributed Inference on Edge Devices [2.28438857884398]
本稿では,分散推論のためのニューラルネットワークを分離するために,モデル並列性を利用する新しい手法を提案する。デバイスの適切な仕様とモデルの構成の下で、エッジクラスタ上の大規模ニューラルネットワークの推論が分散し、加速可能であることを示す実験を行った。
論文参考訳（メタデータ） (2021-11-03T19:30:28Z)
Calibration-Aided Edge Inference Offloading via Adaptive Model Partitioning of Deep Neural Networks [30.800324092046793]
モバイルデバイスは、ディープニューラルネットワーク(DNN)ベースの推論をクラウドにオフロードし、ローカルハードウェアとエネルギー制限を克服することができる。本研究は,モデル分割によるオフロードにおける誤校正初期DNNの利用が,推論精度を著しく低下させることを示した。対照的に、デプロイ前にキャリブレーションアルゴリズムを実装することでこの問題を解決し、より信頼性の高いオフロード決定が可能になると論じる。
論文参考訳（メタデータ） (2020-10-30T15:50:12Z)
Towards Real-Time DNN Inference on Mobile Platforms with Model Pruning and Compiler Optimization [56.3111706960878]
ハイエンドなモバイルプラットフォームは、幅広いDeep Neural Network (DNN)アプリケーションのための主要なコンピューティングデバイスとして機能する。これらのデバイス上の制約付き計算とストレージリソースは、リアルタイムの推論実行に重大な課題をもたらす。モバイル端末上でのDNN実行を高速化するハードウェアフレンドリーな構造化モデルプルーニングとコンパイラ最適化手法を提案する。
論文参考訳（メタデータ） (2020-04-22T03:18:23Z)
PatDNN: Achieving Real-Time DNN Execution on Mobile Devices with Pattern-based Weight Pruning [57.20262984116752]
粗粒構造の内部に新しい次元、きめ細かなプルーニングパターンを導入し、これまで知られていなかった設計空間の点を明らかにした。きめ細かいプルーニングパターンによって高い精度が実現されているため、コンパイラを使ってハードウェア効率を向上し、保証することがユニークな洞察である。
論文参考訳（メタデータ） (2020-01-01T04:52:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。