論文の概要: Google Neural Network Models for Edge Devices: Analyzing and Mitigating
Machine Learning Inference Bottlenecks
- arxiv url: http://arxiv.org/abs/2109.14320v1
- Date: Wed, 29 Sep 2021 10:16:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-30 21:10:42.535055
- Title: Google Neural Network Models for Edge Devices: Analyzing and Mitigating
Machine Learning Inference Bottlenecks
- Title(参考訳): エッジデバイスのためのGoogle Neural Network Models:機械学習推論ボットの解析と緩和
- Authors: Amirali Boroumand, Saugata Ghose, Berkin Akin, Ravi Narayanaswami,
Geraldo F. Oliveira, Xiaoyu Ma, Eric Shiu, Onur Mutlu
- Abstract要約: 我々は、商用のGoogle Edge TPUの性能を、24のGoogle Edge NNモデルを用いて特徴づける。
Edge TPUには3つの大きな欠点があります。
我々は、Mensaと呼ばれる新しいアクセラレーションフレームワークを提案する。
- 参考スコア(独自算出の注目度): 9.411450503567975
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Emerging edge computing platforms often contain machine learning (ML)
accelerators that can accelerate inference for a wide range of neural network
(NN) models. These models are designed to fit within the limited area and
energy constraints of the edge computing platforms, each targeting various
applications (e.g., face detection, speech recognition, translation, image
captioning, video analytics). To understand how edge ML accelerators perform,
we characterize the performance of a commercial Google Edge TPU, using 24
Google edge NN models (which span a wide range of NN model types) and analyzing
each NN layer within each model. We find that the Edge TPU suffers from three
major shortcomings: (1) it operates significantly below peak computational
throughput, (2) it operates significantly below its theoretical energy
efficiency, and (3) its memory system is a large energy and performance
bottleneck. Our characterization reveals that the one-size-fits-all, monolithic
design of the Edge TPU ignores the high degree of heterogeneity both across
different NN models and across different NN layers within the same NN model,
leading to the shortcomings we observe.
We propose a new acceleration framework called Mensa. Mensa incorporates
multiple heterogeneous edge ML accelerators (including both on-chip and
near-data accelerators), each of which caters to the characteristics of a
particular subset of NN models and layers. During NN inference, for each NN
layer, Mensa decides which accelerator to schedule the layer on, taking into
account both the optimality of each accelerator for the layer and
layer-to-layer communication costs. Averaged across all 24 Google edge NN
models, Mensa improves energy efficiency and throughput by 3.0x and 3.1x over
the Edge TPU, and by 2.4x and 4.3x over Eyeriss~v2, a state-of-the-art
accelerator.
- Abstract(参考訳): 新しいエッジコンピューティングプラットフォームには、幅広いニューラルネットワーク(NN)モデルの推論を加速できる機械学習(ML)アクセラレータが含まれることが多い。
これらのモデルは、エッジコンピューティングプラットフォームの限られた領域とエネルギー制約に適合するように設計されており、それぞれが様々なアプリケーション(例えば、顔検出、音声認識、翻訳、画像キャプション、ビデオ分析)をターゲットにしている。
エッジMLアクセラレータの動作を理解するため、商用のGoogle Edge TPUの性能を特徴付け、24のGoogle edge NNモデル(広範囲のNNモデルタイプにまたがる)を使用して各モデル内の各NN層を解析する。
エッジtpuには,(1)ピーク時の計算スループットをかなり下回って動作し,(2)理論的エネルギー効率をかなり下回って動作し,(3)メモリシステムは大きなエネルギーと性能のボトルネックとなっている,という3つの大きな欠点がある。
我々の特徴は、Edge TPUのオールサイズでモノリシックな設計は、異なるNNモデルと同じNNモデル内の異なるNN層の両方で高い均一性を無視し、我々が観察する欠点を生んでいることを示している。
我々はMensaと呼ばれる新しい加速フレームワークを提案する。
Mensaには、複数の異種エッジMLアクセラレータ(オンチップとニアデータアクセラレータの両方を含む)が組み込まれており、それぞれがNNモデルとレイヤの特定のサブセットの特性に対応している。
NN推論では、各NN層に対して、各アクセラレータの最適性と層間通信コストを考慮し、どのアクセラレーターをどのレイヤにスケジュールするかを判断する。
平均24個のGoogleエッジNNモデルにまたがって、MensaはEdge TPUでエネルギー効率とスループットを3.0xと3.1xで改善し、Eyeriss〜v2で2.4xと4.3xで改善した。
関連論文リスト
- Kronecker-Factored Approximate Curvature for Modern Neural Network
Architectures [85.76673783330334]
線形重み付け層の2つの異なる設定がクロネッカー型近似曲率(K-FAC)の2つの風味を動機付けている
重み付けをそれぞれ設定したディープ・リニア・ネットワークに対して正確であることを示す。
グラフニューラルネットワークと視覚変換器の両方をトレーニングするために、これらの2つのK-FACの違いをほとんど観測しない。
論文 参考訳(メタデータ) (2023-11-01T16:37:00Z) - Precision-aware Latency and Energy Balancing on Multi-Accelerator
Platforms for DNN Inference [22.9834921448069]
我々は,チップ上で異なるアクセラレーター間で細粒度マッピングを行うハードウェア認識ツールであるODiMOを提案する。
ODiMOは,手動マッピングと比較して,限界精度低下(-0.53%/-0.32%)で,最大33%/31%のエネルギー/遅延を減少させることを示した。
論文 参考訳(メタデータ) (2023-06-08T09:23:46Z) - Edge Inference with Fully Differentiable Quantized Mixed Precision
Neural Networks [1.131071436917293]
パラメータと演算をビット精度の低いものに量子化することで、ニューラルネットワークの推論にかなりのメモリとエネルギーを節約できる。
本稿では,エッジ計算を対象とする混合精度畳み込みニューラルネットワーク(CNN)の量子化手法を提案する。
論文 参考訳(メタデータ) (2022-06-15T18:11:37Z) - E3NE: An End-to-End Framework for Accelerating Spiking Neural Networks
with Emerging Neural Encoding on FPGAs [6.047137174639418]
エンドツーエンドフレームワークのE3NEはFPGAのための効率的なSNN推論ロジックを生成する。
E3NEはハードウェアリソースの50%未満を消費し、20%の電力を消費する一方で、レイテンシを桁違いに低減する。
論文 参考訳(メタデータ) (2021-11-19T04:01:19Z) - Mitigating Edge Machine Learning Inference Bottlenecks: An Empirical
Study on Accelerating Google Edge Models [9.411450503567975]
24のGoogleエッジNNモデルを使用して商用Edge TPUを分析します。
Mensaという新しいアクセラレーションフレームワークを提案する。
すべての24のGoogleエッジモデルで平均されるMensaは、Edge TPU上で3.0xと3.1x、最先端のアクセラレータであるEyeriss v2上で2.4xと4.3xでエネルギー効率とスループットを改善します。
論文 参考訳(メタデータ) (2021-03-01T05:49:32Z) - An Evaluation of Edge TPU Accelerators for Convolutional Neural Networks [2.7584363116322863]
Edge TPUは低消費電力のエッジデバイス用のアクセラレータで、CoralやPixelなどのさまざまなGoogle製品で広く使用されている。
私たちは、エッジtpusの3つのクラスを広範囲に評価し、さまざまなコンピューティングエコシステムをカバーしました。
我々は、アクセラレーターの主要なパフォーマンス指標を推定するために、高精度な学習機械学習モデルの開発に取り組みます。
論文 参考訳(メタデータ) (2021-02-20T19:25:09Z) - Learning N:M Fine-grained Structured Sparse Neural Networks From Scratch [75.69506249886622]
ディープニューラルネットワーク(DNN)におけるスパーシティは、資源制約された環境でモデルを圧縮し、加速するために広く研究されている。
本稿では,N:M細粒構造スパースネットワークのスクラッチからトレーニングを初めて行う。
論文 参考訳(メタデータ) (2021-02-08T05:55:47Z) - Binary Graph Neural Networks [69.51765073772226]
グラフニューラルネットワーク(gnns)は、不規則データに対する表現学習のための強力で柔軟なフレームワークとして登場した。
本稿では,グラフニューラルネットワークのバイナライゼーションのための異なる戦略を提示し,評価する。
モデルの慎重な設計とトレーニングプロセスの制御によって、バイナリグラフニューラルネットワークは、挑戦的なベンチマークの精度において、適度なコストでトレーニングできることを示しています。
論文 参考訳(メタデータ) (2020-12-31T18:48:58Z) - Optimizing Memory Placement using Evolutionary Graph Reinforcement
Learning [56.83172249278467]
大規模検索空間を対象とした進化グラフ強化学習(EGRL)を提案する。
我々は、推論のために、Intel NNP-Iチップ上で、我々のアプローチを直接訓練し、検証する。
また,NNP-Iコンパイラと比較して28~78%の高速化を実現している。
論文 参考訳(メタデータ) (2020-07-14T18:50:12Z) - When Residual Learning Meets Dense Aggregation: Rethinking the
Aggregation of Deep Neural Networks [57.0502745301132]
我々は,グローバルな残差学習と局所的なマイクロセンスアグリゲーションを備えた新しいアーキテクチャであるMicro-Dense Netsを提案する。
我々のマイクロセンスブロックはニューラルアーキテクチャ検索に基づくモデルと統合して性能を向上させることができる。
論文 参考訳(メタデータ) (2020-04-19T08:34:52Z) - EdgeNets:Edge Varying Graph Neural Networks [179.99395949679547]
本稿では、EdgeNetの概念を通じて、最先端グラフニューラルネットワーク(GNN)を統一する一般的なフレームワークを提案する。
EdgeNetはGNNアーキテクチャであり、異なるノードが異なるパラメータを使って異なる隣人の情報を測定することができる。
これは、ノードが実行でき、既存のグラフ畳み込みニューラルネットワーク(GCNN)とグラフアテンションネットワーク(GAT)の1つの定式化の下で包含できる一般的な線形で局所的な操作である。
論文 参考訳(メタデータ) (2020-01-21T15:51:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。