Fugu-MT 論文翻訳(概要): Optimizing Multi-DNN Inference on Mobile Devices through Heterogeneous Processor Co-Execution

論文の概要: Optimizing Multi-DNN Inference on Mobile Devices through Heterogeneous Processor Co-Execution

arxiv url: http://arxiv.org/abs/2503.21109v1
Date: Thu, 27 Mar 2025 03:03:09 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-28 18:49:11.368554
Title: Optimizing Multi-DNN Inference on Mobile Devices through Heterogeneous Processor Co-Execution
Title（参考訳）: 不均一プロセッサ共実行によるモバイルデバイス上でのマルチDNN推論の最適化
Authors: Yunquan Gao, Zhiguo Zhang, Praveen Kumar Donta, Chinmaya Kumar Dehury, Xiujun Wang, Dusit Niyato, Qiyang Zhang,
Abstract要約: Deep Neural Networks(DNN)は、さまざまな産業に展開され、モバイルデバイスのサポートの需要が高まっている。既存のモバイル推論フレームワークは、ハードウェアの使用を制限し、最適性能とエネルギー効率を引き起こすため、モデルごとにひとつのプロセッサに依存していることが多い。本稿では,モバイルヘテロジニアスプロセッサ上でのマルチDNN推論を最適化するためのAdvanced Multi-DNN Model Scheduling (ADMS) 戦略を提案する。
参考スコア（独自算出の注目度）: 39.033040759452504
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Deep Neural Networks (DNNs) are increasingly deployed across diverse industries, driving demand for mobile device support. However, existing mobile inference frameworks often rely on a single processor per model, limiting hardware utilization and causing suboptimal performance and energy efficiency. Expanding DNN accessibility on mobile platforms requires adaptive, resource-efficient solutions to meet rising computational needs without compromising functionality. Parallel inference of multiple DNNs on heterogeneous processors remains challenging. Some works partition DNN operations into subgraphs for parallel execution across processors, but these often create excessive subgraphs based only on hardware compatibility, increasing scheduling complexity and memory overhead. To address this, we propose an Advanced Multi-DNN Model Scheduling (ADMS) strategy for optimizing multi-DNN inference on mobile heterogeneous processors. ADMS constructs an optimal subgraph partitioning strategy offline, balancing hardware operation support and scheduling granularity, and uses a processor-state-aware algorithm to dynamically adjust workloads based on real-time conditions. This ensures efficient workload distribution and maximizes processor utilization. Experiments show ADMS reduces multi-DNN inference latency by 4.04 times compared to vanilla frameworks.
Abstract（参考訳）: Deep Neural Networks(DNN)は、さまざまな産業に展開され、モバイルデバイスのサポートの需要が高まっている。しかし、既存のモバイル推論フレームワークは、ハードウェアの使用を制限し、最適性能とエネルギー効率を引き起こすため、モデルごとにひとつのプロセッサに依存していることが多い。モバイルプラットフォーム上でのDNNアクセシビリティの拡大には、機能に妥協することなく、増大する計算ニーズを満たすための適応的でリソース効率のよいソリューションが必要である。異種プロセッサ上での複数のDNNの並列推論は依然として困難である。プロセッサ間で並列実行するためにDNN操作をサブグラフに分割する作業もあるが、ハードウェア互換性のみに基づいて過剰なサブグラフを生成し、スケジューリングの複雑さとメモリオーバーヘッドを増大させる。そこで本研究では,モバイルヘテロジニアスプロセッサ上でのマルチDNN推論を最適化するためのAdvanced Multi-DNN Model Scheduling (ADMS) 戦略を提案する。 ADMSは最適なサブグラフ分割戦略をオフラインで構築し、ハードウェア操作のサポートとスケジューリングの粒度をバランスさせ、プロセッサ状態認識アルゴリズムを使用してリアルタイム条件に基づいてワークロードを動的に調整する。これにより、効率的なワークロードの分散が保証され、プロセッサの利用が最大になる。 ADMSは、バニラフレームワークと比較して、マルチDNN推論遅延を4.04倍削減する。

関連論文リスト

Benchmarking Edge AI Platforms for High-Performance ML Inference [0.0]
エッジコンピューティングは、通信遅延を減らし、リアルタイム処理を可能にする能力から、高性能で異質なSystem-on-Chipソリューションの興隆を促進している。現在のアプローチでは、現代的なハードウェアをスケールダウンすることが多いが、ニューラルネットワークワークロードのパフォーマンス特性は、大きく異なる場合がある。我々は、CPUのみ、CPU/GPU、CPU/NPU統合ソリューション間で、様々な線形代数およびニューラルネットワーク推論タスクのレイテンシとスループットを比較した。
論文参考訳（メタデータ） (2024-09-23T08:27:27Z)
A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical Computation Offloading [62.34538208323411]
共有バックボーンと複数の予測ヘッド(PH)を組み合わせたマルチヘッドマルチタスク学習(MEMTL)手法を提案する。 MEMTLは、追加のトレーニングデータを必要とせず、推測精度と平均平方誤差の両方でベンチマーク手法より優れている。
論文参考訳（メタデータ） (2023-09-02T11:01:16Z)
Adaptive DNN Surgery for Selfish Inference Acceleration with On-demand Edge Resource [25.274288063300844]
ディープニューラルネットワーク(DNN)は、モバイルデバイス上のインテリジェントアプリケーションの精度を大幅に改善した。 DNN手術は、モバイルデバイスの計算能力に制限があるにもかかわらず、リアルタイムの推論を可能にする。本稿では,分散DNN手術(Decentralized DNN Surgery, DDS)フレームワークについて紹介する。
論文参考訳（メタデータ） (2023-06-21T11:32:28Z)
Energy-efficient Task Adaptation for NLP Edge Inference Leveraging Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文参考訳（メタデータ） (2023-03-25T14:40:59Z)
Dynamic Split Computing for Efficient Deep Edge Intelligence [78.4233915447056]
通信チャネルの状態に基づいて最適な分割位置を動的に選択する動的分割計算を導入する。本研究では,データレートとサーバ負荷が時間とともに変化するエッジコンピューティング環境において,動的スプリットコンピューティングが高速な推論を実現することを示す。
論文参考訳（メタデータ） (2022-05-23T12:35:18Z)
A Heterogeneous In-Memory Computing Cluster For Flexible End-to-End Inference of Real-World Deep Neural Networks [12.361842554233558]
最新のTinyMLタスクを小さなバッテリに制約されたIoTデバイスにデプロイするには、高い計算エネルギー効率が必要である。非揮発性メモリ(NVM)を使用したアナログメモリコンピューティング(IMC)は、ディープニューラルネットワーク(DNN)推論の大幅な効率向上を実現する。 8つのRISC-Vコア、インメモリ・コンピューティング・アクセラレータ(IMA)、デジタル・アクセラレータを統合した異種密結合アーキテクチャを提案する。
論文参考訳（メタデータ） (2022-01-04T11:12:01Z)
Efficient Algorithms for Device Placement of DNN Graph Operators [12.871398348743591]
現代の機械学習ワークロードは、実行に非常にコストがかかる複雑な構造を持つ大規模なモデルを使用する。複雑なモデルを実行するデバイスは、CPUに加えて、ハードウェアアクセラレータとして提供されるドメイン固有のアクセラレータが盛んになるにつれて、ますます異質になりつつある。近年の研究では、モデルの並列性、すなわちニューラルネットワークの計算グラフを複数のデバイスに分割することで、大きな利益が得られることが示されている。本稿では,DNN演算子のデバイス配置のコアとなる構造的最適化問題を,特に現代のパイプライン環境において,推論とトレーニングの両方のために同定し,分離する。
論文参考訳（メタデータ） (2020-06-29T22:45:01Z)
Towards Real-Time DNN Inference on Mobile Platforms with Model Pruning and Compiler Optimization [56.3111706960878]
ハイエンドなモバイルプラットフォームは、幅広いDeep Neural Network (DNN)アプリケーションのための主要なコンピューティングデバイスとして機能する。これらのデバイス上の制約付き計算とストレージリソースは、リアルタイムの推論実行に重大な課題をもたらす。モバイル端末上でのDNN実行を高速化するハードウェアフレンドリーな構造化モデルプルーニングとコンパイラ最適化手法を提案する。
論文参考訳（メタデータ） (2020-04-22T03:18:23Z)
PatDNN: Achieving Real-Time DNN Execution on Mobile Devices with Pattern-based Weight Pruning [57.20262984116752]
粗粒構造の内部に新しい次元、きめ細かなプルーニングパターンを導入し、これまで知られていなかった設計空間の点を明らかにした。きめ細かいプルーニングパターンによって高い精度が実現されているため、コンパイラを使ってハードウェア効率を向上し、保証することがユニークな洞察である。
論文参考訳（メタデータ） (2020-01-01T04:52:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。