論文の概要: Intra-DP: A High Performance Collaborative Inference System for Mobile Edge Computing
- arxiv url: http://arxiv.org/abs/2507.05829v1
- Date: Tue, 08 Jul 2025 09:50:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-09 16:34:37.842648
- Title: Intra-DP: A High Performance Collaborative Inference System for Mobile Edge Computing
- Title(参考訳): モバイルエッジコンピューティングのための高速協調推論システムIntra-DP
- Authors: Zekai Sun, Xiuxian Guan, Zheng Lin, Zihan Fang, Xiangming Cai, Zhe Chen, Fangming Liu, Heming Cui, Jie Xiong, Wei Ni, Chau Yuen,
- Abstract要約: Intra-DPはモバイルデバイス上でのディープニューラルネットワーク(DNN)に最適化された高性能な協調推論システムである。
推論毎のレイテンシを最大50%削減し、最先端のベースラインと比較してエネルギー消費量を最大75%削減する。
評価の結果,DP内の遅延は,最先端のベースラインと比較して最大50%,エネルギー消費は最大75%減少することがわかった。
- 参考スコア(独自算出の注目度): 38.187358106473894
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deploying deep neural networks (DNNs) on resource-constrained mobile devices presents significant challenges, particularly in achieving real-time performance while simultaneously coping with limited computational resources and battery life. While Mobile Edge Computing (MEC) offers collaborative inference with GPU servers as a promising solution, existing approaches primarily rely on layer-wise model partitioning and undergo significant transmission bottlenecks caused by the sequential execution of DNN operations. To address this challenge, we present Intra-DP, a high-performance collaborative inference system optimized for DNN inference on MEC. Intra DP employs a novel parallel computing technique based on local operators (i.e., operators whose minimum unit input is not the entire input tensor, such as the convolution kernel). By decomposing their computations (operations) into several independent sub-operations and overlapping the computation and transmission of different sub-operations through parallel execution, Intra-DP mitigates transmission bottlenecks in MEC, achieving fast and energy-efficient inference. The evaluation demonstrates that Intra-DP reduces per-inference latency by up to 50% and energy consumption by up to 75% compared to state-of-the-art baselines, without sacrificing accuracy.
- Abstract(参考訳): リソース制約のあるモバイルデバイスにディープニューラルネットワーク(DNN)をデプロイすることは、特に、限られた計算リソースとバッテリ寿命に同時に対処しながら、リアルタイムのパフォーマンスを達成する上で、大きな課題となる。
Mobile Edge Computing(MEC)はGPUサーバとの協調推論を有望なソリューションとして提供するが、既存のアプローチは主にレイヤワイドモデルのパーティショニングに依存しており、DNN操作のシーケンシャルな実行によって引き起こされる重要な送信ボトルネックを負っている。
そこで本研究では,MEC上でのDNN推論に最適化された高性能な協調推論システムであるIntra-DPを提案する。
DP内部では、ローカル演算子(すなわち、最小単位入力が畳み込みカーネルのような入力テンソル全体ではない演算子)に基づく新しい並列計算技術を採用している。
計算(操作)を複数の独立したサブオペレーションに分解し、並列実行を通じて異なるサブオペレーションの計算と送信を重複させることで、内部DPはMECにおける送信ボトルネックを軽減し、高速でエネルギー効率のよい推論を実現する。
評価の結果,DP 内は精度を犠牲にすることなく,推論毎の遅延を最大50%削減し,エネルギー消費量を最大75%削減できることがわかった。
関連論文リスト
- The Larger the Merrier? Efficient Large AI Model Inference in Wireless Edge Networks [56.37880529653111]
大規模計算モデル(LAIM)サービスの需要は、従来のクラウドベースの推論から、低レイテンシでプライバシ保護のアプリケーションのためのエッジベースの推論へのパラダイムシフトを推進している。
本稿では,事前学習したLAIMをデバイス上のサブモデルとサーバ上のサブモデルに分割して配置するLAIM推論方式について検討する。
論文 参考訳(メタデータ) (2025-05-14T08:18:55Z) - Task-Oriented Feature Compression for Multimodal Understanding via Device-Edge Co-Inference [49.77734021302196]
本稿では,マルチモーダル理解のためのタスク指向特徴圧縮(TOFC)手法を提案する。
圧縮効率を向上させるために、視覚特徴の特性に基づいて複数のエントロピーモデルを適応的に選択する。
その結果,TOFCはデータ転送オーバヘッドの最大60%削減,システム遅延の50%削減を実現している。
論文 参考訳(メタデータ) (2025-03-17T08:37:22Z) - Split Learning in Computer Vision for Semantic Segmentation Delay Minimization [25.0679083637967]
分割学習(SL)を用いたセマンティックセグメンテーションにおける推論遅延を最小化する新しい手法を提案する。
SLはリソース制約のあるデバイスのためのリアルタイムコンピュータビジョン(CV)アプリケーションのニーズに合わせて調整されている。
論文 参考訳(メタデータ) (2024-12-18T19:07:25Z) - Robust Communication and Computation using Deep Learning via Joint Uncertainty Injection [15.684142238738797]
コミュニケーションと計算の収束と機械学習と人工知能の統合は、第6世代通信システム(6G)の鍵となる力となる。
本稿では,空間多重化を用いた複数のデバイスを同時に運用する1つの基地局のネットワークについて考察する。
そこで本稿では,チャネル情報と計算状態情報の両面での不確実性の中で,通信と計算機のパワーを同時に管理する,革新的なディープラーニングベースのアプローチを提案する。
論文 参考訳(メタデータ) (2024-06-05T18:00:09Z) - A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical
Computation Offloading [62.34538208323411]
共有バックボーンと複数の予測ヘッド(PH)を組み合わせたマルチヘッドマルチタスク学習(MEMTL)手法を提案する。
MEMTLは、追加のトレーニングデータを必要とせず、推測精度と平均平方誤差の両方でベンチマーク手法より優れている。
論文 参考訳(メタデータ) (2023-09-02T11:01:16Z) - Slimmable Encoders for Flexible Split DNNs in Bandwidth and Resource
Constrained IoT Systems [12.427821850039448]
本稿では,スリム化可能なアンサンブルエンコーダに基づく分割計算手法を提案する。
私たちの設計の主な利点は、計算負荷と送信データサイズを最小限のオーバーヘッドと時間でリアルタイムで適応できることです。
本モデルでは,圧縮効率や実行時間,特にモバイルデバイスの弱い状況において,既存のソリューションよりも優れています。
論文 参考訳(メタデータ) (2023-06-22T06:33:12Z) - Receptive Field-based Segmentation for Distributed CNN Inference
Acceleration in Collaborative Edge Computing [93.67044879636093]
協調エッジコンピューティングネットワークにおける分散畳み込みニューラルネットワーク(CNN)を用いた推論高速化について検討する。
我々は,CNNモデルを複数の畳み込み層に分割するために,融合層並列化を用いた新しい協調エッジコンピューティングを提案する。
論文 参考訳(メタデータ) (2022-07-22T18:38:11Z) - Dynamic Split Computing for Efficient Deep Edge Intelligence [78.4233915447056]
通信チャネルの状態に基づいて最適な分割位置を動的に選択する動的分割計算を導入する。
本研究では,データレートとサーバ負荷が時間とともに変化するエッジコンピューティング環境において,動的スプリットコンピューティングが高速な推論を実現することを示す。
論文 参考訳(メタデータ) (2022-05-23T12:35:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。