Fugu-MT 論文翻訳(概要): Resource-Efficient Generative AI Model Deployment in Mobile Edge Networks

論文の概要: Resource-Efficient Generative AI Model Deployment in Mobile Edge Networks

arxiv url: http://arxiv.org/abs/2409.05303v1
Date: Mon, 9 Sep 2024 03:17:28 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-10 16:00:52.341270
Title: Resource-Efficient Generative AI Model Deployment in Mobile Edge Networks
Title（参考訳）: モバイルエッジネットワークにおける資源効率の良い生成AIモデル展開
Authors: Yuxin Liang, Peng Yang, Yuanyuan He, Feng Lyu,
Abstract要約: エッジ上の利用可能なリソースの不足は、生成AIモデルをデプロイする上で大きな課題を生じさせる。我々は、エッジ上に生成するAIモデルのデプロイメントを適切に管理することを目的とした、協調的なエッジクラウドフレームワークを提案する。
参考スコア（独自算出の注目度）: 15.958822667638405
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The surging development of Artificial Intelligence-Generated Content (AIGC) marks a transformative era of the content creation and production. Edge servers promise attractive benefits, e.g., reduced service delay and backhaul traffic load, for hosting AIGC services compared to cloud-based solutions. However, the scarcity of available resources on the edge pose significant challenges in deploying generative AI models. In this paper, by characterizing the resource and delay demands of typical generative AI models, we find that the consumption of storage and GPU memory, as well as the model switching delay represented by I/O delay during the preloading phase, are significant and vary across models. These multidimensional coupling factors render it difficult to make efficient edge model deployment decisions. Hence, we present a collaborative edge-cloud framework aiming to properly manage generative AI model deployment on the edge. Specifically, we formulate edge model deployment problem considering heterogeneous features of models as an optimization problem, and propose a model-level decision selection algorithm to solve it. It enables pooled resource sharing and optimizes the trade-off between resource consumption and delay in edge generative AI model deployment. Simulation results validate the efficacy of the proposed algorithm compared with baselines, demonstrating its potential to reduce overall costs by providing feature-aware model deployment decisions.
Abstract（参考訳）: AIGC(Artificial Intelligence-Generated Content)は、コンテンツ制作と制作の変革期である。エッジサーバは、例えば、クラウドベースのソリューションと比較してAIGCサービスのホスティングにおいて、サービス遅延とバックホールトラフィック負荷の削減といった魅力的なメリットを約束します。しかし、エッジで利用可能なリソースの不足は、生成AIモデルをデプロイする上で大きな課題を生じさせる。本稿では、一般的な生成型AIモデルのリソースと遅延要求を特徴付けることにより、プリロードフェーズにおけるI/O遅延で表されるモデル切替遅延と同様に、ストレージとGPUメモリの消費が、モデル間で有意かつ異なることが分かる。これらの多次元結合因子は、効率的なエッジモデルの配置決定を困難にします。そこで我々は,エッジ上に生成するAIモデルのデプロイメントを適切に管理することを目的とした,協調的なエッジクラウドフレームワークを提案する。具体的には、最適化問題としてモデルの異種性を考慮したエッジモデル配置問題を定式化し、それを解決するためのモデルレベル決定アルゴリズムを提案する。プールされたリソース共有を可能にし、エッジ生成AIモデルのデプロイメントにおけるリソース消費と遅延の間のトレードオフを最適化する。シミュレーションの結果,提案アルゴリズムの有効性をベースラインと比較し,特徴を考慮したモデル展開決定を提供することで,全体のコスト削減の可能性を示した。

関連論文リスト

The Larger the Merrier? Efficient Large AI Model Inference in Wireless Edge Networks [56.37880529653111]
大規模計算モデル(LAIM)サービスの需要は、従来のクラウドベースの推論から、低レイテンシでプライバシ保護のアプリケーションのためのエッジベースの推論へのパラダイムシフトを推進している。本稿では,事前学習したLAIMをデバイス上のサブモデルとサーバ上のサブモデルに分割して配置するLAIM推論方式について検討する。
論文参考訳（メタデータ） (2025-05-14T08:18:55Z)
Privacy-Aware Joint DNN Model Deployment and Partition Optimization for Delay-Efficient Collaborative Edge Inference [14.408050197587654]
エッジ推論(EI)は、クラウドベースのDeep Neural Network(DNN)推論における遅延応答時間、スケーラビリティの制限、プライバシに関する問題に対処する上で、重要なソリューションである。本稿では,資源およびプライバシ制約下での長期平均推論遅延を最小限に抑えるために,プライバシを意識した共同DNNモデルの配置と分割最適化のための新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-02-22T05:27:24Z)
Network Resource Optimization for ML-Based UAV Condition Monitoring with Vibration Analysis [54.550658461477106]
条件監視(CM)は機械学習(ML)モデルを使用して異常および異常な条件を識別する。本研究では,MLベースのUAV CMフレームワークにおけるネットワークリソースの最適化について検討する。次元削減技術を活用することで、ネットワークリソース消費の99.9%が削減される。
論文参考訳（メタデータ） (2025-02-21T14:36:12Z)
Optimizing Edge AI: A Comprehensive Survey on Data, Model, and System Strategies [14.115655986504411]
5Gとエッジコンピューティングハードウェアは、人工知能に大きな変化をもたらした。リソース制約のあるエッジデバイスに最先端のAIモデルをデプロイすることは、大きな課題に直面している。本稿では,効率的かつ信頼性の高いエッジAIデプロイメントのための最適化トライアドを提案する。
論文参考訳（メタデータ） (2025-01-04T06:17:48Z)
Accelerating AIGC Services with Latent Action Diffusion Scheduling in Edge Networks [27.961536719427205]
現在のAIGCモデルは、主に集中型のフレームワーク内のコンテンツ品質に焦点を当てており、高いサービス遅延とネガティブなユーザエクスペリエンスをもたらす。高速AIGCサービスのための複数のエッジサーバを編成する新しい遅延アクション拡散に基づくタスクスケジューリング手法であるLAD-TSを提案する。また,AIGCモデルを改良したプロトタイプエッジシステムであるDEdgeAIを開発し,LAD-TS法の実装と評価を行った。
論文参考訳（メタデータ） (2024-12-24T06:40:13Z)
Efficient Fine-Tuning and Concept Suppression for Pruned Diffusion Models [93.76814568163353]
本稿では,2段階の拡散モデルに対する新しい最適化フレームワークを提案する。このフレームワークは、微調整と未学習のプロセスを統一的なフェーズに統合する。様々なプルーニングや概念未学習の手法と互換性がある。
論文参考訳（メタデータ） (2024-12-19T19:13:18Z)
Two-Timescale Model Caching and Resource Allocation for Edge-Enabled AI-Generated Content Services [55.0337199834612]
Generative AI(GenAI)は、カスタマイズされたパーソナライズされたAI生成コンテンツ(AIGC)サービスを可能にするトランスフォーメーション技術として登場した。これらのサービスは数十億のパラメータを持つGenAIモデルの実行を必要とし、リソース制限の無線エッジに重大な障害を生じさせる。我々は、AIGC品質とレイテンシメトリクスのトレードオフをバランスさせるために、AIGCサービスのジョイントモデルキャッシングとリソースアロケーションの定式化を導入する。
論文参考訳（メタデータ） (2024-11-03T07:01:13Z)
Profiling AI Models: Towards Efficient Computation Offloading in Heterogeneous Edge AI Systems [0.2357055571094446]
本稿では、AIモデルのプロファイリング、モデルタイプと基盤となるハードウェアに関するデータ収集、リソース利用とタスク完了時間の予測に焦点を当てた研究ロードマップを提案する。 3,000以上の実行での実験は、リソース割り当ての最適化とEdge AIのパフォーマンス向上を約束している。
論文参考訳（メタデータ） (2024-10-30T16:07:14Z)
Dual-Model Distillation for Efficient Action Classification with Hybrid Edge-Cloud Solution [1.8029479474051309]
我々は、より大規模で正確なクラウドベースモデルに必要に応じて遅延しながら、より小さなモデルのローカル処理効率を活用するハイブリッドエッジクラウドソリューションを設計する。具体的には、エッジモデルの出力が不確かである場合に予測可能な軽量スイッチャーモデルをトレーニングするための、新しい教師なしデータ生成手法であるDual-Model Distillation(DMD)を提案する。動作分類タスクの実験結果から,我々のフレームワークは計算オーバーヘッドを少なくするだけでなく,大規模モデルのみを使用する場合と比較して精度も向上することが示された。
論文参考訳（メタデータ） (2024-10-16T02:06:27Z)
DiffSG: A Generative Solver for Network Optimization with Diffusion Model [75.27274046562806]
拡散生成モデルはより広い範囲の解を考えることができ、学習パラメータによるより強力な一般化を示す。拡散生成モデルの本質的な分布学習を利用して高品質な解を学習する新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-08-13T07:56:21Z)
Multi-Agent RL-Based Industrial AIGC Service Offloading over Wireless Edge Networks [19.518346220904732]
本稿では,モデル駆動型産業用AIGC協調エッジラーニングフレームワークを提案する。このフレームワークは、現実的なサンプル合成とエッジベースの最適化機能を活用することにより、効率的な数ショット学習を容易にすることを目的としている。
論文参考訳（メタデータ） (2024-05-05T15:31:47Z)
Towards Robust and Efficient Cloud-Edge Elastic Model Adaptation via Selective Entropy Distillation [56.79064699832383]
Cloud-Edge Elastic Model Adaptation (CEMA)パラダイムを確立し、エッジモデルが前方伝播のみを実行するようにします。 CEMAでは,通信負担を軽減するため,不要なサンプルをクラウドにアップロードすることを避けるための2つの基準を考案した。
論文参考訳（メタデータ） (2024-02-27T08:47:19Z)
Offloading and Quality Control for AI Generated Content Services in 6G Mobile Edge Computing Networks [18.723955271182007]
本稿では, 逆拡散段階における拡散モデルのオフロード決定, 計算時間, 拡散ステップに対する共同最適化アルゴリズムを提案する。実験結果から,提案アルゴリズムはベースラインよりも優れた継手最適化性能が得られることが示された。
論文参考訳（メタデータ） (2023-12-11T08:36:27Z)
Enabling AI-Generated Content (AIGC) Services in Wireless Edge Networks [68.00382171900975]
無線エッジネットワークでは、不正に生成されたコンテンツの送信はネットワークリソースを不要に消費する可能性がある。我々は、AIGC-as-a-serviceの概念を示し、エッジネットワークにAをデプロイする際の課題について議論する。最適なASP選択のための深層強化学習可能なアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-01-09T09:30:23Z)
Reconfigurable Intelligent Surface Assisted Mobile Edge Computing with Heterogeneous Learning Tasks [53.1636151439562]
モバイルエッジコンピューティング(MEC)は、AIアプリケーションに自然なプラットフォームを提供します。再構成可能なインテリジェントサーフェス(RIS)の助けを借りて、MECで機械学習タスクを実行するインフラストラクチャを提示します。具体的には,モバイルユーザの送信パワー,基地局のビームフォーミングベクトル,risの位相シフト行列を共同で最適化することにより,参加ユーザの学習誤差を最小化する。
論文参考訳（メタデータ） (2020-12-25T07:08:50Z)
Adaptive Subcarrier, Parameter, and Power Allocation for Partitioned Edge Learning Over Broadband Channels [69.18343801164741]
パーティショニングエッジ学習(PARTEL)は、無線ネットワークにおいてよく知られた分散学習手法であるパラメータサーバトレーニングを実装している。本稿では、いくつかの補助変数を導入してParticleELを用いてトレーニングできるディープニューラルネットワーク(DNN)モデルについて考察する。
論文参考訳（メタデータ） (2020-10-08T15:27:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。