論文の概要: MAPLE: Microprocessor A Priori for Latency Estimation
- arxiv url: http://arxiv.org/abs/2111.15106v1
- Date: Tue, 30 Nov 2021 03:52:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-01 13:57:31.661654
- Title: MAPLE: Microprocessor A Priori for Latency Estimation
- Title(参考訳): MAPLE: レイテンシ推定のためのマイクロプロセッサ
- Authors: Saad Abbasi, Alexander Wong, and Mohammad Javad Shafiee
- Abstract要約: 現代のディープニューラルネットワークは、低レイテンシとエネルギー消費を示しながら最先端の精度を示す必要がある。
評価されたアーキテクチャのレイテンシの測定は、NASプロセスにかなりの時間を加えます。
転送学習やドメイン適応に依存しない推定用マイクロプロセッサAプライオリティを提案する。
- 参考スコア(独自算出の注目度): 81.91509153539566
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern deep neural networks must demonstrate state-of-the-art accuracy while
exhibiting low latency and energy consumption. As such, neural architecture
search (NAS) algorithms take these two constraints into account when generating
a new architecture. However, efficiency metrics such as latency are typically
hardware dependent requiring the NAS algorithm to either measure or predict the
architecture latency. Measuring the latency of every evaluated architecture
adds a significant amount of time to the NAS process. Here we propose
Microprocessor A Priori for Latency Estimation MAPLE that does not rely on
transfer learning or domain adaptation but instead generalizes to new hardware
by incorporating a prior hardware characteristics during training. MAPLE takes
advantage of a novel quantitative strategy to characterize the underlying
microprocessor by measuring relevant hardware performance metrics, yielding a
fine-grained and expressive hardware descriptor. Moreover, the proposed MAPLE
benefits from the tightly coupled I/O between the CPU and GPU and their
dependency to predict DNN latency on GPUs while measuring microprocessor
performance hardware counters from the CPU feeding the GPU hardware. Through
this quantitative strategy as the hardware descriptor, MAPLE can generalize to
new hardware via a few shot adaptation strategy where with as few as 3 samples
it exhibits a 3% improvement over state-of-the-art methods requiring as much as
10 samples. Experimental results showed that, increasing the few shot
adaptation samples to 10 improves the accuracy significantly over the
state-of-the-art methods by 12%. Furthermore, it was demonstrated that MAPLE
exhibiting 8-10% better accuracy, on average, compared to relevant baselines at
any number of adaptation samples.
- Abstract(参考訳): 現代のディープニューラルネットワークは、低レイテンシとエネルギー消費を示しながら最先端の精度を示す必要がある。
そのため、neural architecture search(nas)アルゴリズムは、これら2つの制約を考慮して、新しいアーキテクチャを生成する。
しかしながら、遅延のような効率の指標は通常、アーキテクチャのレイテンシを計測または予測するためにNASアルゴリズムを必要とするハードウェアに依存している。
評価されたアーキテクチャのレイテンシの測定は、NASプロセスにかなりの時間を加えます。
本稿では、転送学習やドメイン適応に頼るのではなく、トレーニング中に事前ハードウェア特性を組み込むことで、新しいハードウェアに一般化するマイクロプロセッサA Priori for Latency Estimation MAPLEを提案する。
MAPLEは、関連するハードウェアパフォーマンスメトリクスを測定し、きめ細かな表現力のあるハードウェア記述子を生成することによって、基盤となるマイクロプロセッサを特徴付ける新しい定量的戦略を利用する。
さらに、提案されたMAPLEは、CPUとGPU間の密結合I/Oと、GPU上でのDNNレイテンシの予測と、GPUハードウェアに供給するCPUからのマイクロプロセッサパフォーマンスハードウェアカウンタの測定によるメリットがある。
ハードウェア記述子としてのこの定量的戦略を通じて、MAPLEは、いくつかのショット適応戦略によって新しいハードウェアに一般化することができる。
実験の結果, 少数のショット適応サンプルを10に増やすと, 最先端法に比べて精度が12%向上することがわかった。
さらに,MAPLEは平均8~10%の精度で,任意の適応サンプルにおいて,関連するベースラインよりも高い精度を示した。
関連論文リスト
- MONAS: Efficient Zero-Shot Neural Architecture Search for MCUs [5.321424657585365]
MONASは、エッジコンピューティングのマイクロコントローラ(MCU)用に特別に設計された、ゼロショットNASフレームワークである。
MONASは、MCUをターゲットとした以前の作業よりも1104倍の検索効率向上を実現している。
MONASは、より一般的なNASアプローチと同じような精度を維持しながら、MCUの3.23倍高速な推測でCNNモデルを発見することができる。
論文 参考訳(メタデータ) (2024-08-26T10:24:45Z) - On Latency Predictors for Neural Architecture Search [8.564763702766776]
本稿では,ハードウェア・デバイス・セットの自動分割による遅延予測タスクの包括的スイートについて紹介する。
次に,(1)予測器アーキテクチャ,(2)NNサンプル選択方法,(3)ハードウェアデバイス表現,(4)NN動作符号化方式を総合的に研究するために,一般遅延予測器を設計する。
本稿では,本研究の結論に基づいて,エンドツーエンドの遅延予測学習戦略を提案する。
論文 参考訳(メタデータ) (2024-03-04T19:59:32Z) - DeepGEMM: Accelerated Ultra Low-Precision Inference on CPU Architectures
using Lookup Tables [49.965024476651706]
DeepGEMMはSIMDハードウェア上で超高精度畳み込みニューラルネットワークを実行するためのルックアップテーブルベースのアプローチである。
実装は、x86プラットフォーム上で、対応する8ビット整数カーネルを最大1.74倍の性能で上回る。
論文 参考訳(メタデータ) (2023-04-18T15:13:10Z) - Inference Latency Prediction at the Edge [0.3974789827371669]
State-of-the-art Neural Architecture(NA)は通常、NAS(Neural Architecture Search)を通じて設計され、精度と効率のトレードオフに優れたNAを識別する。
NAS中の巨大な候補アーキテクチャのレイテンシの測定はスケーラブルではないため、モバイルデバイス上でのエンドツーエンドの推論遅延を予測するためのアプローチが必要である。
本稿では,これらの課題に対処する遅延予測フレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-06T00:46:06Z) - Adaptable Butterfly Accelerator for Attention-based NNs via Hardware and
Algorithm Co-design [66.39546326221176]
多くのAIタスクにおいて、注意に基づくニューラルネットワークが普及している。
注意機構とフィードフォワードネットワーク(FFN)の使用は、過剰な計算とメモリ資源を必要とする。
本稿では,注目機構とFFNの両方を近似するために,バタフライの分散パターンを統一したハードウェアフレンドリーな変種を提案する。
論文 参考訳(メタデータ) (2022-09-20T09:28:26Z) - MAPLE-X: Latency Prediction with Explicit Microprocessor Prior Knowledge [87.41163540910854]
ディープニューラルネットワーク(DNN)レイテンシのキャラクタリゼーションは、時間を要するプロセスである。
ハードウェアデバイスの事前知識とDNNアーキテクチャのレイテンシを具体化し,MAPLEを拡張したMAPLE-Xを提案する。
論文 参考訳(メタデータ) (2022-05-25T11:08:20Z) - MAPLE-Edge: A Runtime Latency Predictor for Edge Devices [80.01591186546793]
汎用ハードウェアの最先端遅延予測器であるMAPLEのエッジデバイス指向拡張であるMAPLE-Edgeを提案する。
MAPLEと比較して、MAPLE-Edgeはより小さなCPUパフォーマンスカウンタを使用して、ランタイムとターゲットデバイスプラットフォームを記述することができる。
また、共通ランタイムを共有するデバイスプール上でトレーニングを行うMAPLEとは異なり、MAPLE-Edgeは実行時に効果的に一般化できることを示す。
論文 参考訳(メタデータ) (2022-04-27T14:00:48Z) - Latency-Aware Differentiable Neural Architecture Search [113.35689580508343]
近年、探索コストの低さと検索空間設計の柔軟性から、微分可能なニューラルネットワーク探索法が人気を博している。
しかし、これらの手法はネットワーク最適化の難しさに悩まされており、検索されたネットワークはハードウェアに不便な場合が多い。
本稿では,この問題を最適化に微分可能な遅延損失項を追加することにより,精度とレイテンシのトレードオフをバランス係数で行うことができる。
論文 参考訳(メタデータ) (2020-01-17T15:55:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。