論文の概要: Mitigating Edge Machine Learning Inference Bottlenecks: An Empirical
Study on Accelerating Google Edge Models
- arxiv url: http://arxiv.org/abs/2103.00768v1
- Date: Mon, 1 Mar 2021 05:49:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-03 15:54:51.569293
- Title: Mitigating Edge Machine Learning Inference Bottlenecks: An Empirical
Study on Accelerating Google Edge Models
- Title(参考訳): エッジ機械学習推論ボットのマイグレーション: Google Edgeモデルの高速化に関する実証的研究
- Authors: Amirali Boroumand, Saugata Ghose, Berkin Akin, Ravi Narayanaswami,
Geraldo F. Oliveira, Xiaoyu Ma, Eric Shiu, Onur Mutlu
- Abstract要約: 24のGoogleエッジNNモデルを使用して商用Edge TPUを分析します。
Mensaという新しいアクセラレーションフレームワークを提案する。
すべての24のGoogleエッジモデルで平均されるMensaは、Edge TPU上で3.0xと3.1x、最先端のアクセラレータであるEyeriss v2上で2.4xと4.3xでエネルギー効率とスループットを改善します。
- 参考スコア(独自算出の注目度): 9.411450503567975
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As the need for edge computing grows, many modern consumer devices now
contain edge machine learning (ML) accelerators that can compute a wide range
of neural network (NN) models while still fitting within tight resource
constraints. We analyze a commercial Edge TPU using 24 Google edge NN models
(including CNNs, LSTMs, transducers, and RCNNs), and find that the accelerator
suffers from three shortcomings, in terms of computational throughput, energy
efficiency, and memory access handling. We comprehensively study the
characteristics of each NN layer in all of the Google edge models, and find
that these shortcomings arise from the one-size-fits-all approach of the
accelerator, as there is a high amount of heterogeneity in key layer
characteristics both across different models and across different layers in the
same model.
We propose a new acceleration framework called Mensa. Mensa incorporates
multiple heterogeneous ML edge accelerators (including both on-chip and
near-data accelerators), each of which caters to the characteristics of a
particular subset of models. At runtime, Mensa schedules each layer to run on
the best-suited accelerator, accounting for both efficiency and inter-layer
dependencies. As we analyze the Google edge NN models, we discover that all of
the layers naturally group into a small number of clusters, which allows us to
design an efficient implementation of Mensa for these models with only three
specialized accelerators. Averaged across all 24 Google edge models, Mensa
improves energy efficiency and throughput by 3.0x and 3.1x over the Edge TPU,
and by 2.4x and 4.3x over Eyeriss v2, a state-of-the-art accelerator.
- Abstract(参考訳): エッジコンピューティングの必要性が拡大するにつれて、現代の多くのコンシューマデバイスには、厳しいリソース制約に収まることなく、幅広いニューラルネットワーク(NN)モデルを計算可能なエッジ機械学習(ML)アクセラレータが含まれている。
私たちは24のGoogleエッジNNモデル(CNN、LSTM、トランスデューサ、RCNNを含む)を使用して商用Edge TPUを分析し、アクセラレータが計算スループット、エネルギー効率、およびメモリアクセス処理の3つの欠点に苦しんでいることを見つけます。
我々は,各NN層の特徴を全Googleエッジモデルで包括的に研究し,これらの欠点は,異なるモデルと同一モデル内の異なるレイヤにまたがる鍵層特性に多量の不均一性が存在するため,アクセルのすべてのサイズに適合するアプローチから生じることを見出した。
Mensaという新しいアクセラレーションフレームワークを提案する。
Mensaは複数の異種MLエッジアクセラレータ(オンチップとニアデータアクセラレータの両方を含む)を組み込んでおり、それぞれがモデルの特定のサブセットの特性に対応します。
実行時、mensaは、効率と層間依存性の両方を考慮して、最善のアクセラレーターで実行するように各レイヤをスケジュールする。
GoogleのエッジNNモデルを分析すると、すべてのレイヤが自然に少数のクラスタにグループ化されていることが分かり、これらのモデルに対するMensaの効率的な実装を3つの特別なアクセラレータで設計することができます。
すべての24のGoogleエッジモデルで平均されるMensaは、Edge TPU上で3.0xと3.1x、最先端のアクセラレータであるEyeriss v2上で2.4xと4.3xでエネルギー効率とスループットを改善します。
関連論文リスト
- FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - Realtime Facial Expression Recognition: Neuromorphic Hardware vs. Edge AI Accelerators [0.5492530316344587]
本稿では,社会ロボティクスなどの実世界の様々な応用における重要な要素として,リアルタイム表情認識(FER)システムに焦点をあてる。
フェース機械学習(ML)モデルをエッジに展開するためのハードウェアオプションとして,ニューロモルフィックハードウェアとエッジAIアクセラレータの2つについて検討する。
論文 参考訳(メタデータ) (2024-01-30T16:12:20Z) - DLAS: An Exploration and Assessment of the Deep Learning Acceleration
Stack [3.7873597471903935]
私たちはDeep Learning Acceleration Stack (DLAS)で機械学習とシステム技術を組み合わせています。
2つのデータセット間でDLASのパラメータが異なる場合の精度と推定時間への影響を評価した。
全体として、圧縮技術によって提供されるスピードアップは、非常にハードウェアに依存している。
論文 参考訳(メタデータ) (2023-11-15T12:26:31Z) - Precision-aware Latency and Energy Balancing on Multi-Accelerator
Platforms for DNN Inference [22.9834921448069]
我々は,チップ上で異なるアクセラレーター間で細粒度マッピングを行うハードウェア認識ツールであるODiMOを提案する。
ODiMOは,手動マッピングと比較して,限界精度低下(-0.53%/-0.32%)で,最大33%/31%のエネルギー/遅延を減少させることを示した。
論文 参考訳(メタデータ) (2023-06-08T09:23:46Z) - Edge-MoE: Memory-Efficient Multi-Task Vision Transformer Architecture
with Task-level Sparsity via Mixture-of-Experts [60.1586169973792]
M$3$ViTは、Mix-of-experts (MoE)を導入した最新のマルチタスクViTモデルである。
MoEは精度の向上と80%以上の削減計算を実現しているが、FPGAに効率的なデプロイを行う上での課題は残されている。
Edge-MoEと呼ばれる私たちの研究は、アーキテクチャの革新の集合を伴って、マルチタスクのViTのための最初のエンドツーエンドFPGAアクセラレータを導入するという課題を解決します。
論文 参考訳(メタデータ) (2023-05-30T02:24:03Z) - EdgeNeXt: Efficiently Amalgamated CNN-Transformer Architecture for
Mobile Vision Applications [68.35683849098105]
入力テンソルを複数のチャネルグループに分割するSDTAエンコーダを導入する。
1.3Mパラメータを持つEdgeNeXtモデルでは、ImageNet-1Kで71.2%のTop-1精度を実現している。
パラメータ5.6MのEdgeNeXtモデルでは、ImageNet-1Kで79.4%のTop-1精度を実現しています。
論文 参考訳(メタデータ) (2022-06-21T17:59:56Z) - FPGA-optimized Hardware acceleration for Spiking Neural Networks [69.49429223251178]
本研究は,画像認識タスクに適用したオフライントレーニングによるSNN用ハードウェアアクセラレータの開発について述べる。
この設計はXilinx Artix-7 FPGAをターゲットにしており、利用可能なハードウェアリソースの40%を合計で使用している。
分類時間を3桁に短縮し、ソフトウェアと比較すると精度にわずか4.5%の影響を与えている。
論文 参考訳(メタデータ) (2022-01-18T13:59:22Z) - Google Neural Network Models for Edge Devices: Analyzing and Mitigating
Machine Learning Inference Bottlenecks [9.411450503567975]
我々は、商用のGoogle Edge TPUの性能を、24のGoogle Edge NNモデルを用いて特徴づける。
Edge TPUには3つの大きな欠点があります。
我々は、Mensaと呼ばれる新しいアクセラレーションフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-29T10:16:53Z) - An Evaluation of Edge TPU Accelerators for Convolutional Neural Networks [2.7584363116322863]
Edge TPUは低消費電力のエッジデバイス用のアクセラレータで、CoralやPixelなどのさまざまなGoogle製品で広く使用されている。
私たちは、エッジtpusの3つのクラスを広範囲に評価し、さまざまなコンピューティングエコシステムをカバーしました。
我々は、アクセラレーターの主要なパフォーマンス指標を推定するために、高精度な学習機械学習モデルの開発に取り組みます。
論文 参考訳(メタデータ) (2021-02-20T19:25:09Z) - Learning N:M Fine-grained Structured Sparse Neural Networks From Scratch [75.69506249886622]
ディープニューラルネットワーク(DNN)におけるスパーシティは、資源制約された環境でモデルを圧縮し、加速するために広く研究されている。
本稿では,N:M細粒構造スパースネットワークのスクラッチからトレーニングを初めて行う。
論文 参考訳(メタデータ) (2021-02-08T05:55:47Z) - SmartExchange: Trading Higher-cost Memory Storage/Access for Lower-cost
Computation [97.78417228445883]
We present SmartExchange, a algorithm- hardware co-design framework for energy- efficient inference of Deep Neural Network (DNNs)。
そこで我々は,非零要素がすべてパワー・オブ・ツーである小さな基底行列と大きなスパース係数行列の積として,各重み行列を格納できる,特別に好ましいDNN重み構造を強制する新しいアルゴリズムを開発した。
さらに、SmartExchange強化重量をフル活用し、エネルギー効率と遅延性能の両方を改善するための専用のアクセラレータを設計する。
論文 参考訳(メタデータ) (2020-05-07T12:12:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。