論文の概要: MAPLE: Microprocessor A Priori for Latency Estimation
- arxiv url: http://arxiv.org/abs/2111.15106v1
- Date: Tue, 30 Nov 2021 03:52:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-01 13:57:31.661654
- Title: MAPLE: Microprocessor A Priori for Latency Estimation
- Title(参考訳): MAPLE: レイテンシ推定のためのマイクロプロセッサ
- Authors: Saad Abbasi, Alexander Wong, and Mohammad Javad Shafiee
- Abstract要約: 現代のディープニューラルネットワークは、低レイテンシとエネルギー消費を示しながら最先端の精度を示す必要がある。
評価されたアーキテクチャのレイテンシの測定は、NASプロセスにかなりの時間を加えます。
転送学習やドメイン適応に依存しない推定用マイクロプロセッサAプライオリティを提案する。
- 参考スコア(独自算出の注目度): 81.91509153539566
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern deep neural networks must demonstrate state-of-the-art accuracy while
exhibiting low latency and energy consumption. As such, neural architecture
search (NAS) algorithms take these two constraints into account when generating
a new architecture. However, efficiency metrics such as latency are typically
hardware dependent requiring the NAS algorithm to either measure or predict the
architecture latency. Measuring the latency of every evaluated architecture
adds a significant amount of time to the NAS process. Here we propose
Microprocessor A Priori for Latency Estimation MAPLE that does not rely on
transfer learning or domain adaptation but instead generalizes to new hardware
by incorporating a prior hardware characteristics during training. MAPLE takes
advantage of a novel quantitative strategy to characterize the underlying
microprocessor by measuring relevant hardware performance metrics, yielding a
fine-grained and expressive hardware descriptor. Moreover, the proposed MAPLE
benefits from the tightly coupled I/O between the CPU and GPU and their
dependency to predict DNN latency on GPUs while measuring microprocessor
performance hardware counters from the CPU feeding the GPU hardware. Through
this quantitative strategy as the hardware descriptor, MAPLE can generalize to
new hardware via a few shot adaptation strategy where with as few as 3 samples
it exhibits a 3% improvement over state-of-the-art methods requiring as much as
10 samples. Experimental results showed that, increasing the few shot
adaptation samples to 10 improves the accuracy significantly over the
state-of-the-art methods by 12%. Furthermore, it was demonstrated that MAPLE
exhibiting 8-10% better accuracy, on average, compared to relevant baselines at
any number of adaptation samples.
- Abstract(参考訳): 現代のディープニューラルネットワークは、低レイテンシとエネルギー消費を示しながら最先端の精度を示す必要がある。
そのため、neural architecture search(nas)アルゴリズムは、これら2つの制約を考慮して、新しいアーキテクチャを生成する。
しかしながら、遅延のような効率の指標は通常、アーキテクチャのレイテンシを計測または予測するためにNASアルゴリズムを必要とするハードウェアに依存している。
評価されたアーキテクチャのレイテンシの測定は、NASプロセスにかなりの時間を加えます。
本稿では、転送学習やドメイン適応に頼るのではなく、トレーニング中に事前ハードウェア特性を組み込むことで、新しいハードウェアに一般化するマイクロプロセッサA Priori for Latency Estimation MAPLEを提案する。
MAPLEは、関連するハードウェアパフォーマンスメトリクスを測定し、きめ細かな表現力のあるハードウェア記述子を生成することによって、基盤となるマイクロプロセッサを特徴付ける新しい定量的戦略を利用する。
さらに、提案されたMAPLEは、CPUとGPU間の密結合I/Oと、GPU上でのDNNレイテンシの予測と、GPUハードウェアに供給するCPUからのマイクロプロセッサパフォーマンスハードウェアカウンタの測定によるメリットがある。
ハードウェア記述子としてのこの定量的戦略を通じて、MAPLEは、いくつかのショット適応戦略によって新しいハードウェアに一般化することができる。
実験の結果, 少数のショット適応サンプルを10に増やすと, 最先端法に比べて精度が12%向上することがわかった。
さらに,MAPLEは平均8~10%の精度で,任意の適応サンプルにおいて,関連するベースラインよりも高い精度を示した。
関連論文リスト
- On Latency Predictors for Neural Architecture Search [8.564763702766776]
本稿では,ハードウェア・デバイス・セットの自動分割による遅延予測タスクの包括的スイートについて紹介する。
次に,(1)予測器アーキテクチャ,(2)NNサンプル選択方法,(3)ハードウェアデバイス表現,(4)NN動作符号化方式を総合的に研究するために,一般遅延予測器を設計する。
本稿では,本研究の結論に基づいて,エンドツーエンドの遅延予測学習戦略を提案する。
論文 参考訳(メタデータ) (2024-03-04T19:59:32Z) - OHQ: On-chip Hardware-aware Quantization [55.62734488492329]
我々は,オンラインデバイスにアクセスすることなく,ハードウェア対応の混合精度量子化を行うオンチップハードウェア・アウェア量子化(OHQ)フレームワークを提案する。
線形プログラミングによるネットワークおよびハードウェアの洞察により、最適化されたビット幅構成が得られる。
ResNet-18 と MobileNetV3 でそれぞれ70% と 73% の精度を実現した。
論文 参考訳(メタデータ) (2023-09-05T04:39:34Z) - DeepGEMM: Accelerated Ultra Low-Precision Inference on CPU Architectures
using Lookup Tables [49.965024476651706]
DeepGEMMはSIMDハードウェア上で超高精度畳み込みニューラルネットワークを実行するためのルックアップテーブルベースのアプローチである。
実装は、x86プラットフォーム上で、対応する8ビット整数カーネルを最大1.74倍の性能で上回る。
論文 参考訳(メタデータ) (2023-04-18T15:13:10Z) - Inference Latency Prediction at the Edge [0.3974789827371669]
State-of-the-art Neural Architecture(NA)は通常、NAS(Neural Architecture Search)を通じて設計され、精度と効率のトレードオフに優れたNAを識別する。
NAS中の巨大な候補アーキテクチャのレイテンシの測定はスケーラブルではないため、モバイルデバイス上でのエンドツーエンドの推論遅延を予測するためのアプローチが必要である。
本稿では,これらの課題に対処する遅延予測フレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-06T00:46:06Z) - MAPLE-X: Latency Prediction with Explicit Microprocessor Prior Knowledge [87.41163540910854]
ディープニューラルネットワーク(DNN)レイテンシのキャラクタリゼーションは、時間を要するプロセスである。
ハードウェアデバイスの事前知識とDNNアーキテクチャのレイテンシを具体化し,MAPLEを拡張したMAPLE-Xを提案する。
論文 参考訳(メタデータ) (2022-05-25T11:08:20Z) - MAPLE-Edge: A Runtime Latency Predictor for Edge Devices [80.01591186546793]
汎用ハードウェアの最先端遅延予測器であるMAPLEのエッジデバイス指向拡張であるMAPLE-Edgeを提案する。
MAPLEと比較して、MAPLE-Edgeはより小さなCPUパフォーマンスカウンタを使用して、ランタイムとターゲットデバイスプラットフォームを記述することができる。
また、共通ランタイムを共有するデバイスプール上でトレーニングを行うMAPLEとは異なり、MAPLE-Edgeは実行時に効果的に一般化できることを示す。
論文 参考訳(メタデータ) (2022-04-27T14:00:48Z) - HELP: Hardware-Adaptive Efficient Latency Predictor for NAS via
Meta-Learning [43.751220068642624]
ハードウェア適応型予測器(HELP)は、メタ学習問題としてデバイス固有の遅延推定問題である。
レイテンシを出力するブラックボックス関数として考慮し,ハードウェア適応型遅延予測器をデバイス依存でメタ学習する,新たなハードウェア埋め込みを導入する。
提案するHELPの遅延推定性能について検証し,最大10個の測定サンプルを用いて高い推定性能を達成し,関連するベースラインを全て上回る結果を得た。
論文 参考訳(メタデータ) (2021-06-16T08:36:21Z) - Latency-Aware Differentiable Neural Architecture Search [113.35689580508343]
近年、探索コストの低さと検索空間設計の柔軟性から、微分可能なニューラルネットワーク探索法が人気を博している。
しかし、これらの手法はネットワーク最適化の難しさに悩まされており、検索されたネットワークはハードウェアに不便な場合が多い。
本稿では,この問題を最適化に微分可能な遅延損失項を追加することにより,精度とレイテンシのトレードオフをバランス係数で行うことができる。
論文 参考訳(メタデータ) (2020-01-17T15:55:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。