論文の概要: MATCH: Model-Aware TVM-based Compilation for Heterogeneous Edge Devices
- arxiv url: http://arxiv.org/abs/2410.08855v1
- Date: Fri, 11 Oct 2024 14:32:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 21:35:51.512334
- Title: MATCH: Model-Aware TVM-based Compilation for Heterogeneous Edge Devices
- Title(参考訳): MATCH:不均一エッジデバイスのためのモデル対応TVMベースのコンパイル
- Authors: Mohamed Amine Hamdi, Francesco Daghero, Giuseppe Maria Sarda, Josse Van Delm, Arne Symons, Luca Benini, Marian Verhelst, Daniele Jahier Pagliari, Alessio Burrello,
- Abstract要約: MATCHはTVMベースの新しいフレームワークで、様々なMCUプロセッサやアクセラレーターを簡単にアジャイルにデプロイできるように設計されている。
ハードウェアコストモデルで強化された汎用的かつ再ターゲット可能なマッピングフレームワークが,ツールチェーンと競合し,さらにはカスタムツールチェーンも可能であることを示す。
Tiny スイート MATCH の4つのモデルでは、通常のTVM と比較して、DIANA のレイテンシを 60.88 倍に削減している。
- 参考スコア(独自算出の注目度): 13.489996429628837
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Streamlining the deployment of Deep Neural Networks (DNNs) on heterogeneous edge platforms, coupling within the same micro-controller unit (MCU) instruction processors and hardware accelerators for tensor computations, is becoming one of the crucial challenges of the TinyML field. The best-performing DNN compilation toolchains are usually deeply customized for a single MCU family, and porting to a different heterogeneous MCU family implies labor-intensive re-development of almost the entire compiler. On the opposite side, retargetable toolchains, such as TVM, fail to exploit the capabilities of custom accelerators, resulting in the generation of general but unoptimized code. To overcome this duality, we introduce MATCH, a novel TVM-based DNN deployment framework designed for easy agile retargeting across different MCU processors and accelerators, thanks to a customizable model-based hardware abstraction. We show that a general and retargetable mapping framework enhanced with hardware cost models can compete with and even outperform custom toolchains on diverse targets while only needing the definition of an abstract hardware model and a SoC-specific API. We tested MATCH on two state-of-the-art heterogeneous MCUs, GAP9 and DIANA. On the four DNN models of the MLPerf Tiny suite MATCH reduces inference latency by up to 60.88 times on DIANA, compared to using the plain TVM, thanks to the exploitation of the on-board HW accelerator. Compared to HTVM, a fully customized toolchain for DIANA, we still reduce the latency by 16.94%. On GAP9, using the same benchmarks, we improve the latency by 2.15 times compared to the dedicated DORY compiler, thanks to our heterogeneous DNN mapping approach that synergically exploits the DNN accelerator and the eight-cores cluster available on board.
- Abstract(参考訳): ヘテロジニアスエッジプラットフォームへのディープニューラルネットワーク(DNN)の展開の合理化、同じマイクロコントローラユニット(MCU)命令プロセッサとテンソル計算のためのハードウェアアクセラレータの結合は、TinyML分野における重要な課題の1つとなっている。
最高のパフォーマンスのDNNコンパイルツールチェーンは、通常、単一のMCUファミリに対して深くカスタマイズされており、異なる異種MCUファミリへの移植は、ほぼすべてのコンパイラの労働集約的な再開発を意味する。
一方、TVMのような再ターゲット可能なツールチェーンは、カスタムアクセラレータの能力を活用できず、一般的なコードを生成する。
この双対性を克服するために、MATCHを紹介します。これはTVMベースのDNNデプロイメントフレームワークで、カスタマイズ可能なモデルベースのハードウェア抽象化のおかげで、様々なMCUプロセッサやアクセラレーターを簡単にアジャイルに再ターゲットできるように設計されています。
ハードウェアコストモデルで強化された汎用的かつ再ターゲット可能なマッピングフレームワークは、抽象ハードウェアモデルとSoC固有のAPIの定義を必要とせず、さまざまなターゲット上でカスタムツールチェーンと競合し、さらに性能を向上できることを示す。
MATCHを2種類の異種MCU,GAP9,DIANAで試験した。
MLPerf Tiny スイート MATCH の4つの DNN モデルでは、搭載された HW アクセラレータの活用により、通常の TVM と比較して、DIANA 上での推論遅延を 60.88 倍に削減している。
DIANA用の完全にカスタマイズされたツールチェーンであるHTVMと比較して、レイテンシは依然として16.94%削減しています。
GAP9では、同じベンチマークを使用して、DNNアクセラレータと利用可能な8コアクラスタを相乗的に活用する異種DNNマッピングアプローチのおかげで、専用のDORYコンパイラと比較してレイテンシを2.15倍改善しています。
関連論文リスト
- FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - Optimizing DNN Inference on Multi-Accelerator SoCs at Training-time [5.05866540830123]
我々は,様々なチップのCUの中から,ディープニューラルネットワーク(DNN)の細粒度マッピングを効率的に探索するハードウェア認識ツールであるODiMOを提案する。
ODiMOはDarkside上で実行されるDNNの遅延を、手動のマッピングに比べて最大8倍の精度で削減することを示す。
エネルギーを目標とする場合、ODiMOはより効率的なマッピングを最大50.8倍に生成し、精度は最小限に抑えた。
論文 参考訳(メタデータ) (2024-09-27T09:10:44Z) - Accelerating TinyML Inference on Microcontrollers through Approximate Kernels [3.566060656925169]
本研究では、近似計算とソフトウェアカーネル設計を組み合わせることで、マイクロコントローラ上での近似CNNモデルの推定を高速化する。
CIFAR-10データセットでトレーニングされたSTM32-Nucleoボードと2つの人気のあるCNNによる評価は、最先端の正確な推測と比較すると、平均21%のレイテンシ削減が可能であることを示している。
論文 参考訳(メタデータ) (2024-09-25T11:10:33Z) - Optimizing the Deployment of Tiny Transformers on Low-Power MCUs [12.905978154498499]
この作業は、商用MCU上でのエンコーダTiny Transformersの柔軟性とマルチプラットフォームデプロイメントの実現と最適化を目的としている。
我々のフレームワークは、データの再利用を最大化し、重要な注意ブロックにデータマーシャリング操作を避けるために、カーネルの最適化ライブラリを提供する。
MHSA深度優先のタイリング方式はメモリピークを最大6.19倍に減らし、融合重み付けはランタイムを1.53倍減らし、パラメータ数を25%減らすことを示した。
論文 参考訳(メタデータ) (2024-04-03T14:14:08Z) - DiviML: A Module-based Heuristic for Mapping Neural Networks onto
Heterogeneous Platforms [5.970091958678456]
我々は、ディープニューラルネットワーク(DNN)を複数の相互接続ハードウェアデバイスに分割するコンパイラレベルのアプローチを開発する。
我々のスケジューラは、MILP(Mixed integer linear programming)の定式化とモジュラリティベースのランタイムを通じて、正確な解法と統合する。
複数の異種サーバにまたがる大規模な言語モデルをスケジュールするために、フレームワークをどのように拡張できるかを示します。
論文 参考訳(メタデータ) (2023-07-31T19:46:49Z) - Adaptable Butterfly Accelerator for Attention-based NNs via Hardware and
Algorithm Co-design [66.39546326221176]
多くのAIタスクにおいて、注意に基づくニューラルネットワークが普及している。
注意機構とフィードフォワードネットワーク(FFN)の使用は、過剰な計算とメモリ資源を必要とする。
本稿では,注目機構とFFNの両方を近似するために,バタフライの分散パターンを統一したハードウェアフレンドリーな変種を提案する。
論文 参考訳(メタデータ) (2022-09-20T09:28:26Z) - LegoNN: Building Modular Encoder-Decoder Models [117.47858131603112]
最先端のエンコーダ・デコーダモデルは、原子単位として構築され、訓練されたエンドツーエンドである。
モデルのどのコンポーネントも他のコンポーネントなしでは(再)使用できないため、部品の共有は不可能です。
LegoNNは、エンコーダ-デコーダアーキテクチャを、微調整を必要とせずに、その部品を他のタスクに適用できる方法で構築する手順である。
論文 参考訳(メタデータ) (2022-06-07T14:08:07Z) - MAPLE-X: Latency Prediction with Explicit Microprocessor Prior Knowledge [87.41163540910854]
ディープニューラルネットワーク(DNN)レイテンシのキャラクタリゼーションは、時間を要するプロセスである。
ハードウェアデバイスの事前知識とDNNアーキテクチャのレイテンシを具体化し,MAPLEを拡張したMAPLE-Xを提案する。
論文 参考訳(メタデータ) (2022-05-25T11:08:20Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - DORY: Automatic End-to-End Deployment of Real-World DNNs on Low-Cost IoT
MCUs [6.403349961091506]
低コストのMCUベースのエンドノードはオンチップメモリが限られており、キャッシュをスクラッチパッドで置き換えることが多い。
DORYは、通常1MB以下のオンチップメモリを持つ低価格のMCUにデプロイする自動ツールである。
論文 参考訳(メタデータ) (2020-08-17T07:30:54Z) - PatDNN: Achieving Real-Time DNN Execution on Mobile Devices with
Pattern-based Weight Pruning [57.20262984116752]
粗粒構造の内部に新しい次元、きめ細かなプルーニングパターンを導入し、これまで知られていなかった設計空間の点を明らかにした。
きめ細かいプルーニングパターンによって高い精度が実現されているため、コンパイラを使ってハードウェア効率を向上し、保証することがユニークな洞察である。
論文 参考訳(メタデータ) (2020-01-01T04:52:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。