Fugu-MT 論文翻訳(概要): LETI: Latency Estimation Tool and Investigation of Neural Networks inference on Mobile GPU

論文の概要: LETI: Latency Estimation Tool and Investigation of Neural Networks inference on Mobile GPU

arxiv url: http://arxiv.org/abs/2010.02871v2
Date: Tue, 27 Jul 2021 17:27:45 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-10 06:20:01.160457
Title: LETI: Latency Estimation Tool and Investigation of Neural Networks inference on Mobile GPU
Title（参考訳）: LETI:モバイルGPUにおけるレイテンシ推定ツールとニューラルネットワーク推定の検討
Authors: Evgeny Ponomarev and Sergey Matveev and Ivan Oseledets
Abstract要約: 本研究では,モバイルGPUのレイテンシ近似をデータおよびハードウェア固有の問題として検討する。私たちは、さまざまなターゲットデバイスで大規模な実験を行うための便利な方法を提供する、オープンソースのツールを構築しています。我々は、一般的なNAS-Benchmark 101データセットのサブセットに対するそのようなアプローチの適用性を実験的に実証した。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: A lot of deep learning applications are desired to be run on mobile devices. Both accuracy and inference time are meaningful for a lot of them. While the number of FLOPs is usually used as a proxy for neural network latency, it may be not the best choice. In order to obtain a better approximation of latency, research community uses look-up tables of all possible layers for latency calculation for the final prediction of the inference on mobile CPU. It requires only a small number of experiments. Unfortunately, on mobile GPU this method is not applicable in a straight-forward way and shows low precision. In this work, we consider latency approximation on mobile GPU as a data and hardware-specific problem. Our main goal is to construct a convenient latency estimation tool for investigation(LETI) of neural network inference and building robust and accurate latency prediction models for each specific task. To achieve this goal, we build open-source tools which provide a convenient way to conduct massive experiments on different target devices focusing on mobile GPU. After evaluation of the dataset, we learn the regression model on experimental data and use it for future latency prediction and analysis. We experimentally demonstrate the applicability of such an approach on a subset of popular NAS-Benchmark 101 dataset and also evaluate the most popular neural network architectures for two mobile GPUs. As a result, we construct latency prediction model with good precision on the target evaluation subset. We consider LETI as a useful tool for neural architecture search or massive latency evaluation. The project is available at https://github.com/leti-ai
Abstract（参考訳）: 多くのディープラーニングアプリケーションはモバイルデバイスで動作することを望んでいます。精度も推論時間も多くの人にとって意味があります。 FLOPの数は通常、ニューラルネットワークレイテンシーのプロキシとして使用されるが、最良の選択肢ではないかもしれない。より優れたレイテンシの近似を得るために、研究コミュニティは、モバイルCPU上の推論の最終的な予測のために遅延計算のために、すべての可能なレイヤのルックアップテーブルを使用する。少数の実験しか必要としない。残念ながら、モバイルGPUでは、この手法はストレートフォワード方式では適用されず、精度が低い。本研究では,モバイルGPUのレイテンシ近似をデータおよびハードウェア固有の問題として検討する。我々の主な目標は、ニューラルネットワークの推論の調査(LETI)のための便利なレイテンシ推定ツールを構築し、各タスクに対して堅牢で正確なレイテンシ予測モデルを構築することです。この目標を達成するために、私たちはモバイルgpuに焦点を当てたさまざまなターゲットデバイスで大規模な実験を行うための便利な方法を提供するオープンソースツールを構築します。データセットの評価を行った後、実験データで回帰モデルを学び、将来のレイテンシ予測と分析に使用する。このようなアプローチが一般的なnas-benchmark 101データセットのサブセットに適用できることを実験的に実証し、2つのモバイルgpuの最も人気のあるニューラルネットワークアーキテクチャを評価する。その結果,ターゲット評価サブセット上で精度良く遅延予測モデルを構築した。 LETIはニューラルネットワーク検索や大規模なレイテンシ評価に有用なツールだと考えている。プロジェクトはhttps://github.com/leti-aiで入手できる。

関連論文リスト

$\ exttt{SPECS}$: Faster Test-Time Scaling through Speculative Drafts [55.231201692232894]
$textttSPECS$は、投機的デコードにインスパイアされた遅延対応のテスト時間スケーリングメソッドである。我々の結果は、$textttSPECS$matchはビームサーチの精度を上回り、最大$sim$19.1%のレイテンシを削減していることを示している。
論文参考訳（メタデータ） (2025-06-15T05:50:05Z)
On Latency Predictors for Neural Architecture Search [8.564763702766776]
本稿では,ハードウェア・デバイス・セットの自動分割による遅延予測タスクの包括的スイートについて紹介する。次に,(1)予測器アーキテクチャ,(2)NNサンプル選択方法,(3)ハードウェアデバイス表現,(4)NN動作符号化方式を総合的に研究するために,一般遅延予測器を設計する。本稿では,本研究の結論に基づいて,エンドツーエンドの遅延予測学習戦略を提案する。
論文参考訳（メタデータ） (2024-03-04T19:59:32Z)
PerfSAGE: Generalized Inference Performance Predictor for Arbitrary Deep Learning Models on Edge Devices [8.272409756443539]
本稿では、任意のDNNliteグラフ上の推論遅延、エネルギー、メモリフットプリントを予測する新しいグラフニューラルネットワークであるPerfSAGEについて述べる。このデータセットを用いて、PerfSAGEをトレーニングし、すべてのターゲットとモデル検索空間にわたって平均絶対パーセンテージ誤差の5%で最先端の予測精度を示す実験結果を提供する。
論文参考訳（メタデータ） (2023-01-26T08:59:15Z)
Tech Report: One-stage Lightweight Object Detectors [0.38073142980733]
この研究は、mAPと遅延の点でよく機能するワンステージ軽量検出器を設計するためのものである。 GPUとCPUを対象とするベースラインモデルでは、ベースラインモデルのバックボーンネットワークにおけるメイン操作の代わりに、さまざまな操作が適用される。
論文参考訳（メタデータ） (2022-10-31T09:02:37Z)
Inference Latency Prediction at the Edge [0.3974789827371669]
State-of-the-art Neural Architecture(NA)は通常、NAS(Neural Architecture Search)を通じて設計され、精度と効率のトレードオフに優れたNAを識別する。 NAS中の巨大な候補アーキテクチャのレイテンシの測定はスケーラブルではないため、モバイルデバイス上でのエンドツーエンドの推論遅延を予測するためのアプローチが必要である。本稿では,これらの課題に対処する遅延予測フレームワークを提案する。
論文参考訳（メタデータ） (2022-10-06T00:46:06Z)
MAPLE-X: Latency Prediction with Explicit Microprocessor Prior Knowledge [87.41163540910854]
ディープニューラルネットワーク(DNN)レイテンシのキャラクタリゼーションは、時間を要するプロセスである。ハードウェアデバイスの事前知識とDNNアーキテクチャのレイテンシを具体化し,MAPLEを拡張したMAPLE-Xを提案する。
論文参考訳（メタデータ） (2022-05-25T11:08:20Z)
MAPLE-Edge: A Runtime Latency Predictor for Edge Devices [80.01591186546793]
汎用ハードウェアの最先端遅延予測器であるMAPLEのエッジデバイス指向拡張であるMAPLE-Edgeを提案する。 MAPLEと比較して、MAPLE-Edgeはより小さなCPUパフォーマンスカウンタを使用して、ランタイムとターゲットデバイスプラットフォームを記述することができる。また、共通ランタイムを共有するデバイスプール上でトレーニングを行うMAPLEとは異なり、MAPLE-Edgeは実行時に効果的に一般化できることを示す。
論文参考訳（メタデータ） (2022-04-27T14:00:48Z)
MAPLE: Microprocessor A Priori for Latency Estimation [81.91509153539566]
現代のディープニューラルネットワークは、低レイテンシとエネルギー消費を示しながら最先端の精度を示す必要がある。評価されたアーキテクチャのレイテンシの測定は、NASプロセスにかなりの時間を加えます。転送学習やドメイン適応に依存しない推定用マイクロプロセッサAプライオリティを提案する。
論文参考訳（メタデータ） (2021-11-30T03:52:15Z)
ANNETTE: Accurate Neural Network Execution Time Estimation with Stacked Models [56.21470608621633]
本稿では,アーキテクチャ検索を対象ハードウェアから切り離すための時間推定フレームワークを提案する。提案手法は,マイクロカーネルと多層ベンチマークからモデルの集合を抽出し,マッピングとネットワーク実行時間推定のためのスタックモデルを生成する。生成した混合モデルの推定精度と忠実度, 統計モデルとルーフラインモデル, 評価のための洗練されたルーフラインモデルを比較した。
論文参考訳（メタデータ） (2021-05-07T11:39:05Z)
LC-NAS: Latency Constrained Neural Architecture Search for Point Cloud Networks [73.78551758828294]
LC-NASは、最小計算コストでポイントクラウド分類のための最先端アーキテクチャを見つけることができる。検索したアーキテクチャが、適度に低い精度で、望ましいレイテンシを実現する方法を示します。
論文参考訳（メタデータ） (2020-08-24T10:30:21Z)
Latency-Aware Differentiable Neural Architecture Search [113.35689580508343]
近年、探索コストの低さと検索空間設計の柔軟性から、微分可能なニューラルネットワーク探索法が人気を博している。しかし、これらの手法はネットワーク最適化の難しさに悩まされており、検索されたネットワークはハードウェアに不便な場合が多い。本稿では,この問題を最適化に微分可能な遅延損失項を追加することにより,精度とレイテンシのトレードオフをバランス係数で行うことができる。
論文参考訳（メタデータ） (2020-01-17T15:55:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。