論文の概要: Resource-Efficient Generative AI Model Deployment in Mobile Edge Networks
- arxiv url: http://arxiv.org/abs/2409.05303v1
- Date: Mon, 9 Sep 2024 03:17:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-10 16:00:52.341270
- Title: Resource-Efficient Generative AI Model Deployment in Mobile Edge Networks
- Title(参考訳): モバイルエッジネットワークにおける資源効率の良い生成AIモデル展開
- Authors: Yuxin Liang, Peng Yang, Yuanyuan He, Feng Lyu,
- Abstract要約: エッジ上の利用可能なリソースの不足は、生成AIモデルをデプロイする上で大きな課題を生じさせる。
我々は、エッジ上に生成するAIモデルのデプロイメントを適切に管理することを目的とした、協調的なエッジクラウドフレームワークを提案する。
- 参考スコア(独自算出の注目度): 15.958822667638405
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The surging development of Artificial Intelligence-Generated Content (AIGC) marks a transformative era of the content creation and production. Edge servers promise attractive benefits, e.g., reduced service delay and backhaul traffic load, for hosting AIGC services compared to cloud-based solutions. However, the scarcity of available resources on the edge pose significant challenges in deploying generative AI models. In this paper, by characterizing the resource and delay demands of typical generative AI models, we find that the consumption of storage and GPU memory, as well as the model switching delay represented by I/O delay during the preloading phase, are significant and vary across models. These multidimensional coupling factors render it difficult to make efficient edge model deployment decisions. Hence, we present a collaborative edge-cloud framework aiming to properly manage generative AI model deployment on the edge. Specifically, we formulate edge model deployment problem considering heterogeneous features of models as an optimization problem, and propose a model-level decision selection algorithm to solve it. It enables pooled resource sharing and optimizes the trade-off between resource consumption and delay in edge generative AI model deployment. Simulation results validate the efficacy of the proposed algorithm compared with baselines, demonstrating its potential to reduce overall costs by providing feature-aware model deployment decisions.
- Abstract(参考訳): AIGC(Artificial Intelligence-Generated Content)は、コンテンツ制作と制作の変革期である。
エッジサーバは、例えば、クラウドベースのソリューションと比較してAIGCサービスのホスティングにおいて、サービス遅延とバックホールトラフィック負荷の削減といった魅力的なメリットを約束します。
しかし、エッジで利用可能なリソースの不足は、生成AIモデルをデプロイする上で大きな課題を生じさせる。
本稿では、一般的な生成型AIモデルのリソースと遅延要求を特徴付けることにより、プリロードフェーズにおけるI/O遅延で表されるモデル切替遅延と同様に、ストレージとGPUメモリの消費が、モデル間で有意かつ異なることが分かる。
これらの多次元結合因子は、効率的なエッジモデルの配置決定を困難にします。
そこで我々は,エッジ上に生成するAIモデルのデプロイメントを適切に管理することを目的とした,協調的なエッジクラウドフレームワークを提案する。
具体的には、最適化問題としてモデルの異種性を考慮したエッジモデル配置問題を定式化し、それを解決するためのモデルレベル決定アルゴリズムを提案する。
プールされたリソース共有を可能にし、エッジ生成AIモデルのデプロイメントにおけるリソース消費と遅延の間のトレードオフを最適化する。
シミュレーションの結果,提案アルゴリズムの有効性をベースラインと比較し,特徴を考慮したモデル展開決定を提供することで,全体のコスト削減の可能性を示した。
関連論文リスト
- Optimizing Edge AI: A Comprehensive Survey on Data, Model, and System Strategies [14.115655986504411]
5Gとエッジコンピューティングハードウェアは、人工知能に大きな変化をもたらした。
リソース制約のあるエッジデバイスに最先端のAIモデルをデプロイすることは、大きな課題に直面している。
本稿では,効率的かつ信頼性の高いエッジAIデプロイメントのための最適化トライアドを提案する。
論文 参考訳(メタデータ) (2025-01-04T06:17:48Z) - Accelerating AIGC Services with Latent Action Diffusion Scheduling in Edge Networks [27.961536719427205]
現在のAIGCモデルは、主に集中型のフレームワーク内のコンテンツ品質に焦点を当てており、高いサービス遅延とネガティブなユーザエクスペリエンスをもたらす。
高速AIGCサービスのための複数のエッジサーバを編成する新しい遅延アクション拡散に基づくタスクスケジューリング手法であるLAD-TSを提案する。
また,AIGCモデルを改良したプロトタイプエッジシステムであるDEdgeAIを開発し,LAD-TS法の実装と評価を行った。
論文 参考訳(メタデータ) (2024-12-24T06:40:13Z) - Efficient Fine-Tuning and Concept Suppression for Pruned Diffusion Models [93.76814568163353]
本稿では,2段階の拡散モデルに対する新しい最適化フレームワークを提案する。
このフレームワークは、微調整と未学習のプロセスを統一的なフェーズに統合する。
様々なプルーニングや概念未学習の手法と互換性がある。
論文 参考訳(メタデータ) (2024-12-19T19:13:18Z) - Two-Timescale Model Caching and Resource Allocation for Edge-Enabled AI-Generated Content Services [55.0337199834612]
Generative AI(GenAI)は、カスタマイズされたパーソナライズされたAI生成コンテンツ(AIGC)サービスを可能にするトランスフォーメーション技術として登場した。
これらのサービスは数十億のパラメータを持つGenAIモデルの実行を必要とし、リソース制限の無線エッジに重大な障害を生じさせる。
我々は、AIGC品質とレイテンシメトリクスのトレードオフをバランスさせるために、AIGCサービスのジョイントモデルキャッシングとリソースアロケーションの定式化を導入する。
論文 参考訳(メタデータ) (2024-11-03T07:01:13Z) - DiffSG: A Generative Solver for Network Optimization with Diffusion Model [75.27274046562806]
拡散生成モデルはより広い範囲の解を考えることができ、学習パラメータによるより強力な一般化を示す。
拡散生成モデルの本質的な分布学習を利用して高品質な解を学習する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-13T07:56:21Z) - Multi-Agent RL-Based Industrial AIGC Service Offloading over Wireless Edge Networks [19.518346220904732]
本稿では,モデル駆動型産業用AIGC協調エッジラーニングフレームワークを提案する。
このフレームワークは、現実的なサンプル合成とエッジベースの最適化機能を活用することにより、効率的な数ショット学習を容易にすることを目的としている。
論文 参考訳(メタデータ) (2024-05-05T15:31:47Z) - Towards Robust and Efficient Cloud-Edge Elastic Model Adaptation via Selective Entropy Distillation [56.79064699832383]
Cloud-Edge Elastic Model Adaptation (CEMA)パラダイムを確立し、エッジモデルが前方伝播のみを実行するようにします。
CEMAでは,通信負担を軽減するため,不要なサンプルをクラウドにアップロードすることを避けるための2つの基準を考案した。
論文 参考訳(メタデータ) (2024-02-27T08:47:19Z) - Offloading and Quality Control for AI Generated Content Services in 6G Mobile Edge Computing Networks [18.723955271182007]
本稿では, 逆拡散段階における拡散モデルのオフロード決定, 計算時間, 拡散ステップに対する共同最適化アルゴリズムを提案する。
実験結果から,提案アルゴリズムはベースラインよりも優れた継手最適化性能が得られることが示された。
論文 参考訳(メタデータ) (2023-12-11T08:36:27Z) - Enabling AI-Generated Content (AIGC) Services in Wireless Edge Networks [68.00382171900975]
無線エッジネットワークでは、不正に生成されたコンテンツの送信はネットワークリソースを不要に消費する可能性がある。
我々は、AIGC-as-a-serviceの概念を示し、エッジネットワークにAをデプロイする際の課題について議論する。
最適なASP選択のための深層強化学習可能なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-01-09T09:30:23Z) - Adaptive Subcarrier, Parameter, and Power Allocation for Partitioned
Edge Learning Over Broadband Channels [69.18343801164741]
パーティショニングエッジ学習(PARTEL)は、無線ネットワークにおいてよく知られた分散学習手法であるパラメータサーバトレーニングを実装している。
本稿では、いくつかの補助変数を導入してParticleELを用いてトレーニングできるディープニューラルネットワーク(DNN)モデルについて考察する。
論文 参考訳(メタデータ) (2020-10-08T15:27:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。