論文の概要: Resource-Efficient Generative AI Model Deployment in Mobile Edge Networks
- arxiv url: http://arxiv.org/abs/2409.05303v1
- Date: Mon, 9 Sep 2024 03:17:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-10 16:00:52.341270
- Title: Resource-Efficient Generative AI Model Deployment in Mobile Edge Networks
- Title(参考訳): モバイルエッジネットワークにおける資源効率の良い生成AIモデル展開
- Authors: Yuxin Liang, Peng Yang, Yuanyuan He, Feng Lyu,
- Abstract要約: エッジ上の利用可能なリソースの不足は、生成AIモデルをデプロイする上で大きな課題を生じさせる。
我々は、エッジ上に生成するAIモデルのデプロイメントを適切に管理することを目的とした、協調的なエッジクラウドフレームワークを提案する。
- 参考スコア(独自算出の注目度): 15.958822667638405
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The surging development of Artificial Intelligence-Generated Content (AIGC) marks a transformative era of the content creation and production. Edge servers promise attractive benefits, e.g., reduced service delay and backhaul traffic load, for hosting AIGC services compared to cloud-based solutions. However, the scarcity of available resources on the edge pose significant challenges in deploying generative AI models. In this paper, by characterizing the resource and delay demands of typical generative AI models, we find that the consumption of storage and GPU memory, as well as the model switching delay represented by I/O delay during the preloading phase, are significant and vary across models. These multidimensional coupling factors render it difficult to make efficient edge model deployment decisions. Hence, we present a collaborative edge-cloud framework aiming to properly manage generative AI model deployment on the edge. Specifically, we formulate edge model deployment problem considering heterogeneous features of models as an optimization problem, and propose a model-level decision selection algorithm to solve it. It enables pooled resource sharing and optimizes the trade-off between resource consumption and delay in edge generative AI model deployment. Simulation results validate the efficacy of the proposed algorithm compared with baselines, demonstrating its potential to reduce overall costs by providing feature-aware model deployment decisions.
- Abstract(参考訳): AIGC(Artificial Intelligence-Generated Content)は、コンテンツ制作と制作の変革期である。
エッジサーバは、例えば、クラウドベースのソリューションと比較してAIGCサービスのホスティングにおいて、サービス遅延とバックホールトラフィック負荷の削減といった魅力的なメリットを約束します。
しかし、エッジで利用可能なリソースの不足は、生成AIモデルをデプロイする上で大きな課題を生じさせる。
本稿では、一般的な生成型AIモデルのリソースと遅延要求を特徴付けることにより、プリロードフェーズにおけるI/O遅延で表されるモデル切替遅延と同様に、ストレージとGPUメモリの消費が、モデル間で有意かつ異なることが分かる。
これらの多次元結合因子は、効率的なエッジモデルの配置決定を困難にします。
そこで我々は,エッジ上に生成するAIモデルのデプロイメントを適切に管理することを目的とした,協調的なエッジクラウドフレームワークを提案する。
具体的には、最適化問題としてモデルの異種性を考慮したエッジモデル配置問題を定式化し、それを解決するためのモデルレベル決定アルゴリズムを提案する。
プールされたリソース共有を可能にし、エッジ生成AIモデルのデプロイメントにおけるリソース消費と遅延の間のトレードオフを最適化する。
シミュレーションの結果,提案アルゴリズムの有効性をベースラインと比較し,特徴を考慮したモデル展開決定を提供することで,全体のコスト削減の可能性を示した。
関連論文リスト
- Explainable AI for Enhancing Efficiency of DL-based Channel Estimation [1.0136215038345013]
人工知能に基づく意思決定のサポートは、将来の6Gネットワークの重要な要素である。
このようなアプリケーションでは、ブラックボックスモデルとしてAIを使用するのは危険で難しい。
本稿では,無線通信におけるチャネル推定を目的とした新しいXAI-CHESTフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-09T16:24:21Z) - Online Resource Allocation for Edge Intelligence with Colocated Model Retraining and Inference [5.6679198251041765]
我々は、トレーニングモデルと推論の精度を適応的にバランスするリソース割り当てを最適化するために、ORRICというオンライン近似アルゴリズムを導入する。
ORRICの競合比は従来の推論オンリーパラダイムよりも優れている。
論文 参考訳(メタデータ) (2024-05-25T03:05:19Z) - TrimCaching: Parameter-sharing AI Model Caching in Wireless Edge Networks [36.39118138582416]
次世代のモバイルネットワークは、エンドユーザへの高速なAIモデルダウンロードを容易にすることが期待されている。
エッジサーバにモデルをキャッシュすることで、モバイルネットワークは、低レイテンシでエンドユーザにモデルを配信することができる。
我々はパラメータ共有モデルキャッシング(TrimCaching)と呼ばれる新しいモデル配置方式を開発する。
論文 参考訳(メタデータ) (2024-05-07T04:08:49Z) - Multi-Agent RL-Based Industrial AIGC Service Offloading over Wireless Edge Networks [19.518346220904732]
本稿では,モデル駆動型産業用AIGC協調エッジラーニングフレームワークを提案する。
このフレームワークは、現実的なサンプル合成とエッジベースの最適化機能を活用することにより、効率的な数ショット学習を容易にすることを目的としている。
論文 参考訳(メタデータ) (2024-05-05T15:31:47Z) - Towards Robust and Efficient Cloud-Edge Elastic Model Adaptation via Selective Entropy Distillation [56.79064699832383]
Cloud-Edge Elastic Model Adaptation (CEMA)パラダイムを確立し、エッジモデルが前方伝播のみを実行するようにします。
CEMAでは,通信負担を軽減するため,不要なサンプルをクラウドにアップロードすることを避けるための2つの基準を考案した。
論文 参考訳(メタデータ) (2024-02-27T08:47:19Z) - Offloading and Quality Control for AI Generated Content Services in 6G Mobile Edge Computing Networks [18.723955271182007]
本稿では, 逆拡散段階における拡散モデルのオフロード決定, 計算時間, 拡散ステップに対する共同最適化アルゴリズムを提案する。
実験結果から,提案アルゴリズムはベースラインよりも優れた継手最適化性能が得られることが示された。
論文 参考訳(メタデータ) (2023-12-11T08:36:27Z) - Guiding AI-Generated Digital Content with Wireless Perception [69.51950037942518]
本稿では,AIGC(AIGC)と無線認識を統合し,デジタルコンテンツ制作の質を向上させる。
このフレームワークは、単語の正確な記述が難しいユーザの姿勢を読み取るために、新しいマルチスケール認識技術を採用し、それをスケルトン画像としてAIGCモデルに送信する。
生産プロセスはAIGCモデルの制約としてユーザの姿勢を強制するため、生成されたコンテンツはユーザの要求に適合する。
論文 参考訳(メタデータ) (2023-03-26T04:39:03Z) - Enabling AI-Generated Content (AIGC) Services in Wireless Edge Networks [68.00382171900975]
無線エッジネットワークでは、不正に生成されたコンテンツの送信はネットワークリソースを不要に消費する可能性がある。
我々は、AIGC-as-a-serviceの概念を示し、エッジネットワークにAをデプロイする際の課題について議論する。
最適なASP選択のための深層強化学習可能なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-01-09T09:30:23Z) - Optimizing Explanations by Network Canonization and Hyperparameter
Search [74.76732413972005]
ルールベースで修正されたバックプロパゲーションXAIアプローチは、モダンなモデルアーキテクチャに適用される場合、しばしば課題に直面します。
モデルカノン化は、基礎となる機能を変更することなく問題のあるコンポーネントを無視してモデルを再構成するプロセスである。
本研究では、一般的なディープニューラルネットワークアーキテクチャに適用可能な、現在関連するモデルブロックのカノン化を提案する。
論文 参考訳(メタデータ) (2022-11-30T17:17:55Z) - Reconfigurable Intelligent Surface Assisted Mobile Edge Computing with
Heterogeneous Learning Tasks [53.1636151439562]
モバイルエッジコンピューティング(MEC)は、AIアプリケーションに自然なプラットフォームを提供します。
再構成可能なインテリジェントサーフェス(RIS)の助けを借りて、MECで機械学習タスクを実行するインフラストラクチャを提示します。
具体的には,モバイルユーザの送信パワー,基地局のビームフォーミングベクトル,risの位相シフト行列を共同で最適化することにより,参加ユーザの学習誤差を最小化する。
論文 参考訳(メタデータ) (2020-12-25T07:08:50Z) - Adaptive Subcarrier, Parameter, and Power Allocation for Partitioned
Edge Learning Over Broadband Channels [69.18343801164741]
パーティショニングエッジ学習(PARTEL)は、無線ネットワークにおいてよく知られた分散学習手法であるパラメータサーバトレーニングを実装している。
本稿では、いくつかの補助変数を導入してParticleELを用いてトレーニングできるディープニューラルネットワーク(DNN)モデルについて考察する。
論文 参考訳(メタデータ) (2020-10-08T15:27:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。