論文の概要: MATCHA: Efficient Deployment of Deep Neural Networks on Multi-Accelerator Heterogeneous Edge SoCs
- arxiv url: http://arxiv.org/abs/2604.09124v1
- Date: Fri, 10 Apr 2026 09:04:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 17:57:53.789139
- Title: MATCHA: Efficient Deployment of Deep Neural Networks on Multi-Accelerator Heterogeneous Edge SoCs
- Title(参考訳): MATCHA: マルチ加速度異種エッジSoCへのディープニューラルネットワークの効率的な展開
- Authors: Enrico Russo, Mohamed Amine Hamdi, Alessandro Ottaviano, Francesco Conti, Angelo Garofalo, Daniele Jahier Pagliari, Maurizio Palesi, Luca Benini, Alessio Burrello,
- Abstract要約: MATCHAは並列な異種加速器のための高度に並列なスケジュールを生成する。
Tinyerfベンチマークでは、MATCHAはアクセラレータ使用率を改善し、レイテンシを最大35%削減する。
- 参考スコア(独自算出の注目度): 45.487954219664026
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deploying DNNs on System-on-Chips (SoC) with multiple heterogeneous acceleration engines is challenging, and the majority of deployment frameworks cannot fully exploit heterogeneity. We present MATCHA, a unified DNN deployment framework that generates highly concurrent schedules for parallel, heterogeneous accelerators and uses constraint programming to optimize L3/L2 memory allocation and scheduling. Using pattern matching, tiling, and mapping across individual HW units enables parallel execution and high accelerator utilization. On the MLPerf Tiny benchmark, using a SoC with two heterogeneous accelerators, MATCHA improves accelerator utilization and reduces inference latency by up to 35% with respect to the the state-of-the-art MATCH compiler.
- Abstract(参考訳): システムオンチップ(SoC)に複数の異種加速エンジンでDNNをデプロイすることは難しい。
並列で異種なアクセラレータの並列スケジュールを並列に生成し,制約プログラミングを用いてL3/L2メモリ割り当てとスケジューリングを最適化する,統合DNNデプロイメントフレームワークであるMATCHAを提案する。
パターンマッチング、タイリング、および個々のHWユニット間のマッピングを使用することで、並列実行と高いアクセラレータ利用が可能になる。
MLPerf Tinyベンチマークでは、2つの異種アクセラレータを持つSoCを使用して、MATCHAはアクセラレータ利用を改善し、最先端のMATCHコンパイラに関して、推論レイテンシを最大35%削減する。
関連論文リスト
- AdaFuse: Accelerating Dynamic Adapter Inference via Token-Level Pre-Gating and Fused Kernel Optimization [84.25316984309725]
動的スパース構造とパラメータ効率のよいアダプタ(例えばLoRA)の統合は、大規模言語モデル(LLM)を拡張するための強力な技術である。
計算負荷は最小限に抑えられるが、計算のレイテンシが急上昇し、復号速度が2.5倍以上遅くなる。
AdaFuseはアルゴリズムと基盤となるハードウェアシステムとの緊密な協調設計に基づいて構築されたフレームワークで、効率的な動的アダプタ実行を実現する。
論文 参考訳(メタデータ) (2026-03-12T12:46:42Z) - Eliminating Multi-GPU Performance Taxes: A Systems Approach to Efficient Distributed LLMs [61.953548065938385]
分析フレームワークとして'3つの税'(バルク同期、カーネル間データローカリティ、カーネルローンチオーバーヘッド)を紹介した。
我々は、分散GPU実行におけるキー非効率に対処するために、厳密なBSPモデルを超えて移動することを提案する。
BSPベースのアプローチによるエンドツーエンドのレイテンシの10-20%の高速化を観察する。
論文 参考訳(メタデータ) (2025-11-04T01:15:44Z) - Taming the Tail: NoI Topology Synthesis for Mixed DL Workloads on Chiplet-Based Accelerators [8.493759841403682]
CPU/GPUと新興技術(HBM/DRAM)の異種チップレットベースシステムによるスケール向上
しかし、このパッケージ上のデアグリゲーションはNetwork-on-Interposer(NoI)に遅延をもたらす
論文 参考訳(メタデータ) (2025-10-28T06:36:44Z) - FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - MARS: Exploiting Multi-Level Parallelism for DNN Workloads on Adaptive
Multi-Accelerator Systems [27.490645446510033]
本稿では,並列性を最大化するために,計算対応アクセラレータ選択と通信対応シャーディング戦略の適用が可能な新しいマッピングフレームワークを提案する。
その結果,MARS はベースラインと比較して DNN のワークロードの平均で32.2% のレイテンシ削減を達成でき,またヘテロジニアスモデルでは59.4% のレイテンシ削減を実現している。
論文 参考訳(メタデータ) (2023-07-23T05:50:37Z) - Precision-aware Latency and Energy Balancing on Multi-Accelerator
Platforms for DNN Inference [22.9834921448069]
我々は,チップ上で異なるアクセラレーター間で細粒度マッピングを行うハードウェア認識ツールであるODiMOを提案する。
ODiMOは,手動マッピングと比較して,限界精度低下(-0.53%/-0.32%)で,最大33%/31%のエネルギー/遅延を減少させることを示した。
論文 参考訳(メタデータ) (2023-06-08T09:23:46Z) - Teal: Learning-Accelerated Optimization of WAN Traffic Engineering [68.7863363109948]
本稿では,GPUの並列処理能力を活用してTE制御を高速化する学習型TEアルゴリズムTealを提案する。
問題スケールの削減と学習のトラクタビリティ向上のために,Tealはマルチエージェント強化学習(RL)アルゴリズムを用いて,各トラフィック要求を独立に割り当てる。
他のTE加速方式と比較して、Tealは需要を6~32%増やし、197~625倍のスピードアップを達成している。
論文 参考訳(メタデータ) (2022-10-25T04:46:30Z) - H-GCN: A Graph Convolutional Network Accelerator on Versal ACAP
Architecture [13.149863422504332]
H-GCNはその固有の不均一性に基づいてグラフを3つの部分グラフに分割し、それぞれPLとAIEを使用して処理する。
最先端のGNNアクセラレータと比較して、H-GCNは平均して1.12.3Xのスピードアップを達成する。
論文 参考訳(メタデータ) (2022-06-28T03:37:31Z) - Domain-specific Genetic Algorithm for Multi-tenant DNNAccelerator
Scheduling [3.8530020696501794]
複数のサブアクセラレータコア/チップを備えた大型アクセラレータを構築する傾向が強まっている。
この研究は、このようなアクセラレータでマルチテナントをサポートする問題を検討する。
我々は,G#アコストム演算子と呼ばれる特殊な遺伝的アルゴリズムを開発し,構造的サンプル効率探索を実現する。
論文 参考訳(メタデータ) (2021-04-28T19:57:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。