論文の概要: The Larger the Merrier? Efficient Large AI Model Inference in Wireless Edge Networks
- arxiv url: http://arxiv.org/abs/2505.09214v1
- Date: Wed, 14 May 2025 08:18:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-15 21:44:09.401431
- Title: The Larger the Merrier? Efficient Large AI Model Inference in Wireless Edge Networks
- Title(参考訳): メリットは大きいか? 無線エッジネットワークにおける効率的なAIモデル推論
- Authors: Zhonghao Lyu, Ming Xiao, Jie Xu, Mikael Skoglund, Marco Di Renzo,
- Abstract要約: 大規模計算モデル(LAIM)サービスの需要は、従来のクラウドベースの推論から、低レイテンシでプライバシ保護のアプリケーションのためのエッジベースの推論へのパラダイムシフトを推進している。
本稿では,事前学習したLAIMをデバイス上のサブモデルとサーバ上のサブモデルに分割して配置するLAIM推論方式について検討する。
- 参考スコア(独自算出の注目度): 56.37880529653111
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The growing demand for large artificial intelligence model (LAIM) services is driving a paradigm shift from traditional cloud-based inference to edge-based inference for low-latency, privacy-preserving applications. In particular, edge-device co-inference, which partitions LAIMs between edge devices and servers, has emerged as a promising strategy for resource-efficient LAIM execution in wireless networks. In this paper, we investigate a pruning-aware LAIM co-inference scheme, where a pre-trained LAIM is pruned and partitioned into on-device and on-server sub-models for deployment. For analysis, we first prove that the LAIM output distortion is upper bounded by its parameter distortion. Then, we derive a lower bound on parameter distortion via rate-distortion theory, analytically capturing the relationship between pruning ratio and co-inference performance. Next, based on the analytical results, we formulate an LAIM co-inference distortion bound minimization problem by jointly optimizing the pruning ratio, transmit power, and computation frequency under system latency, energy, and available resource constraints. Moreover, we propose an efficient algorithm to tackle the considered highly non-convex problem. Finally, extensive simulations demonstrate the effectiveness of the proposed design. In particular, model parameter distortion is shown to provide a reliable bound on output distortion. Also, the proposed joint pruning ratio and resource management design achieves superior performance in balancing trade-offs among inference performance, system latency, and energy consumption compared with benchmark schemes, such as fully on-device and on-server inference. Moreover, the split point is shown to play a critical role in system performance optimization under heterogeneous and resource-limited edge environments.
- Abstract(参考訳): 大規模人工知能モデル(LAIM)サービスの需要の増加は、従来のクラウドベースの推論から、低レイテンシでプライバシ保護のアプリケーションに対するエッジベースの推論へのパラダイムシフトを加速させている。
特に、エッジデバイスとサーバ間でLAIMを分割するエッジデバイスコ推論は、無線ネットワークにおけるリソース効率の高いLAIM実行のための有望な戦略として現れている。
本稿では,事前学習したLAIMをデバイス上のサブモデルとサーバ上のサブモデルに分割して配置する,プルーニング対応のLAIMコ推論方式について検討する。
解析のために、まず、LAIM出力の歪みがそのパラメータの歪みによって上界にあることを証明した。
次に, プルーニング比と共推論性能の関係を解析的に把握し, パラメータ歪みの低い値を求める。
次に,解析結果に基づいて,システム遅延,エネルギ,利用可能な資源制約の下で,プルーニング比,送信電力,計算周波数を共同最適化することにより,LAIM共参照歪み境界最小化問題を定式化する。
さらに,非凸問題に対処する効率的なアルゴリズムを提案する。
最後に,提案手法の有効性をシミュレーションにより検証した。
特に、モデルパラメータの歪みは、出力の歪みに信頼できる境界を与える。
また,提案した連作プルーニング比と資源管理設計は,完全なオンデバイスおよびオンサーバ推論などのベンチマーク手法と比較して,推論性能,システム遅延,エネルギー消費のトレードオフのバランスをとる上で,優れた性能を実現する。
さらに、異種およびリソース制限エッジ環境下でのシステム性能最適化において、スプリットポイントが重要な役割を担っていることが示されている。
関連論文リスト
- Communication-Efficient Federated Learning by Quantized Variance Reduction for Heterogeneous Wireless Edge Networks [55.467288506826755]
フェデレーテッド・ラーニング(FL)は、無線エッジネットワークにおけるローカル・プライバシ・アウェア・コラボレーティブ・モデルトレーニングの有効なソリューションとして認識されている。
既存の通信効率の高いFLアルゴリズムは、デバイス間の大きなばらつきを低減できない。
本稿では,高度分散還元方式に依存する新しい通信効率FLアルゴリズムであるFedQVRを提案する。
論文 参考訳(メタデータ) (2025-01-20T04:26:21Z) - Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - Heterogeneity-Aware Resource Allocation and Topology Design for Hierarchical Federated Edge Learning [9.900317349372383]
Federated Learning (FL)は、モバイルデバイス上で機械学習モデルをトレーニングするためのプライバシー保護フレームワークを提供する。
従来のFLアルゴリズム、例えばFedAvgはこれらのデバイスに重い通信負荷を課す。
エッジデバイスをエッジサーバに接続し,エッジサーバをピアツーピア(P2P)エッジバックホールを介して相互接続する2層HFELシステムを提案する。
我々の目標は、戦略的資源配分とトポロジ設計により、HFELシステムの訓練効率を向上させることである。
論文 参考訳(メタデータ) (2024-09-29T01:48:04Z) - Resource Management for Low-latency Cooperative Fine-tuning of Foundation Models at the Network Edge [35.40849522296486]
大規模ファウンデーションモデル(FoMos)は、人間のような知性を実現することができる。
FoMosは微調整技術により、特定の下流タスクに適応する必要がある。
デバイスエッジ協調微調整パラダイムにおける多デバイス連携を提唱する。
論文 参考訳(メタデータ) (2024-07-13T12:47:14Z) - High Efficiency Inference Accelerating Algorithm for NOMA-based Mobile
Edge Computing [23.88527790721402]
デバイス、エッジサーバ、クラウド間の推論モデルを分割することで、EIの性能を大幅に向上させることができる。
B5G/6Gのキーとなる技術であるNOMAは、膨大な接続と高スペクトル効率を実現することができる。
本稿では,エッジでのモデル推論を高速化する効果的な通信資源割当アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-12-26T02:05:52Z) - Gradient Sparsification for Efficient Wireless Federated Learning with
Differential Privacy [25.763777765222358]
フェデレートラーニング(FL)により、分散クライアントは、生データを互いに共有することなく、機械学習モデルを協調的にトレーニングできる。
モデルのサイズが大きくなるにつれて、送信帯域の制限によるトレーニングのレイテンシが低下し、個人情報が劣化すると同時に、差分プライバシ(DP)保護を使用する。
我々は、収束性能を犠牲にすることなく、トレーニング効率を向上させるために、FLフレームワーク無線チャネルのスペース化を提案する。
論文 参考訳(メタデータ) (2023-04-09T05:21:15Z) - Design and Prototyping Distributed CNN Inference Acceleration in Edge
Computing [85.74517957717363]
HALPはエッジコンピューティングにおけるエッジデバイス(ED)間のシームレスなコラボレーションを設計することで推論を加速する。
実験により、分散推論HALPはVGG-16に対して1.7倍の推論加速を達成することが示された。
分散推論HALPを用いたモデル選択は,サービスの信頼性を著しく向上させることができる。
論文 参考訳(メタデータ) (2022-11-24T19:48:30Z) - Adaptive Subcarrier, Parameter, and Power Allocation for Partitioned
Edge Learning Over Broadband Channels [69.18343801164741]
パーティショニングエッジ学習(PARTEL)は、無線ネットワークにおいてよく知られた分散学習手法であるパラメータサーバトレーニングを実装している。
本稿では、いくつかの補助変数を導入してParticleELを用いてトレーニングできるディープニューラルネットワーク(DNN)モデルについて考察する。
論文 参考訳(メタデータ) (2020-10-08T15:27:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。