論文の概要: Intelligent Orchestration of Distributed Large Foundation Model Inference at the Edge
- arxiv url: http://arxiv.org/abs/2504.03668v2
- Date: Mon, 30 Jun 2025 15:26:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 19:22:02.082584
- Title: Intelligent Orchestration of Distributed Large Foundation Model Inference at the Edge
- Title(参考訳): エッジにおける分散型大規模基盤モデル推論のインテリジェントオーケストレーション
- Authors: Fernando Koch, Aladin Djuhera, Alecio Binotto,
- Abstract要約: Large Foundation Models (LFMs)は、次世代のEdge AIアプリケーションの新機能をアンロックすることを約束する。
現在の分割推論戦略では、ノード間でLPM層を分割するが、変動するワークロードに適応するようには設計されていない。
本稿では, LFM層を実行時可変変数に配置し, 分割する, 適応型分割推論オーケストレーションフレームワークを提案する。
- 参考スコア(独自算出の注目度): 46.1232919707345
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Foundation Models (LFMs), including multi-modal and generative models, promise to unlock new capabilities for next-generation Edge AI applications. However, performing inference with LFMs in resource-constrained and heterogeneous edge environments, such as Multi-access Edge Computing (MEC), presents significant challenges for workload orchestration due to time-varying network, compute, and storage conditions. In particular, current split inference strategies, which partition LFM layers across nodes, are not designed to adapt to fluctuating workloads, dynamic bandwidth conditions, or evolving privacy constraints in high-utilization MEC environments. In this work, we propose a novel adaptive split inference orchestration framework that elevates both the placement and partitioning of LFM layers to runtime-tunable variables. Specifically, our framework enables real-time, quality-of-service (QoS)-aware management of inference workloads by extending conventional orchestrators with three key services: (1) Capacity-aware workload distribution, which continuously profiles node resources and selects an optimal subset of MEC nodes; (2) Dynamic partition migration, which transparently relocates pre-cut LFM segments in response to changes in utilization or network conditions; (3) Real-time reconfiguration, which dynamically re-splits LFM layers to balance latency, throughput, and privacy. We formalize the joint placement-partitioning problem, outline a reference architecture and algorithmic workflow, and discuss applicability in representative smart city, V2X, and industrial edge scenarios.
- Abstract(参考訳): マルチモーダルおよびジェネレーティブモデルを含むLarge Foundation Models(LFM)は、次世代のEdge AIアプリケーションに新機能をアンロックすることを約束する。
しかし、Multi- Access Edge Computing (MEC) のようなリソース制約や異種エッジ環境における LFM による推論は、時間とともに変化するネットワーク、計算、ストレージ条件によるワークロードのオーケストレーションに重大な課題をもたらす。
特に、ノード間でLPM層を分割する現在の分割推論戦略は、変動するワークロード、動的な帯域幅条件、高ユーティリティMEC環境でのプライバシー制約の進化に適応するようには設計されていない。
本研究では, LFM層の配置と分割を, 実行時可変変数に高める適応型分割推論オーケストレーションフレームワークを提案する。
具体的には,1)ノードリソースを継続的にプロファイリングし,MECノードの最適サブセットを選択するキャパシティ・アウェアなワークロード分散,2)利用状況やネットワーク条件の変化に応じて,LFMセグメントを透過的に再配置する動的パーティションマイグレーション,3) LFMレイヤを動的にリスプリットしてレイテンシ,スループット,プライバシのバランスをとるリアルタイム再構成,という3つの重要なサービスで,従来のオーケストレータを拡張して,推論ワークロードのリアルタイム品質(QoS)対応管理を可能にする。
我々は,共同配置分割問題を形式化し,参照アーキテクチャとアルゴリズムワークフローを概説し,代表的スマートシティ,V2X,産業的エッジシナリオの適用性について議論する。
関連論文リスト
- UniSTD: Towards Unified Spatio-Temporal Learning across Diverse Disciplines [64.84631333071728]
本稿では,時間的モデリングのためのトランスフォーマーベースの統合フレームワークであるbfUnistageを紹介する。
我々の研究は、タスク固有の視覚テキストが時間学習のための一般化可能なモデルを構築することができることを示した。
また、時間的ダイナミクスを明示的に組み込むための時間的モジュールも導入する。
論文 参考訳(メタデータ) (2025-03-26T17:33:23Z) - DiffMoE: Dynamic Token Selection for Scalable Diffusion Transformers [86.5541501589166]
DiffMoEはバッチレベルのグローバルトークンプールで、トレーニング中に専門家がグローバルトークンの配布にアクセスできるようにする。
ImageNetベンチマークの拡散モデル間での最先端のパフォーマンスを実現する。
このアプローチの有効性は、クラス条件生成を超えて、テキスト・ツー・イメージ生成のようなより困難なタスクにも及んでいる。
論文 参考訳(メタデータ) (2025-03-18T17:57:07Z) - Multi-Objective Bayesian Optimization for Networked Black-Box Systems: A Path to Greener Profits and Smarter Designs [0.0]
MOBONSは、一般関数ネットワークを効率的に最適化できるベイズ最適化に着想を得た新しいアルゴリズムである。
持続可能なプロセス設計を含む2つのケーススタディを通じて,MOBONSの有効性を実証する。
論文 参考訳(メタデータ) (2025-02-19T21:49:05Z) - ModServe: Scalable and Resource-Efficient Large Multimodal Model Serving [19.388562622309838]
大規模なマルチモーダルモデル(LMM)は、画像、ビデオ、音声をテキストを超えて理解する能力を示す。
本稿では,6つの代表的なオープンソースモデルに対して,デコーダのみとクロスアテンションという,2つの著名なLMMアーキテクチャを包括的に解析する。
本稿では,モジュール型LMMサービスシステムであるModServeを提案する。
論文 参考訳(メタデータ) (2025-02-02T22:10:40Z) - Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design [59.00758127310582]
本稿では、事前学習された高密度LCMをより小さなMoEモデルに変換する新しいフレームワークRead-MEを提案する。
当社のアプローチでは,専門家の抽出にアクティベーション空間を用いる。
Read-MEは、同様のスケールの他の人気のあるオープンソース高密度モデルよりも優れています。
論文 参考訳(メタデータ) (2024-10-24T19:48:51Z) - Regularized Conditional Diffusion Model for Multi-Task Preference Alignment [43.86042557447689]
連続的な意思決定は、人間の意図と一致し、様々なタスクにまたがる多角性を示すことが望まれる。
従来は条件付き拡散モデルを用いて軌道分布を直接モデル化し,条件生成プロセスとして定式化していた。
本研究では,シングルタスクとマルチタスクの両意思決定の統一条件として,マルチタスクの選好を採用する。
論文 参考訳(メタデータ) (2024-04-07T11:20:32Z) - A Bayesian Framework of Deep Reinforcement Learning for Joint O-RAN/MEC
Orchestration [12.914011030970814]
マルチアクセスエッジコンピューティング(MEC)は、コモディティプラットフォーム上でOpen Radio Access Network(O-RAN)と一緒に実装することで、低コストなデプロイメントを実現する。
本稿では,ベイジアンディープ強化学習(RL)を用いたO-RAN/MEC協調オーケストレーションを提案する。
論文 参考訳(メタデータ) (2023-12-26T18:04:49Z) - Ensemble Kalman Filtering Meets Gaussian Process SSM for Non-Mean-Field and Online Inference [47.460898983429374]
我々は,非平均場(NMF)変動推定フレームワークにアンサンブルカルマンフィルタ(EnKF)を導入し,潜在状態の後方分布を近似する。
EnKFとGPSSMのこの新しい結婚は、変分分布の学習における広範なパラメータ化の必要性をなくすだけでなく、エビデンスの下限(ELBO)の解釈可能でクローズドな近似を可能にする。
得られたEnKF支援オンラインアルゴリズムは、データ適合精度を確保しつつ、モデル正規化を組み込んで過度適合を緩和し、目的関数を具現化する。
論文 参考訳(メタデータ) (2023-12-10T15:22:30Z) - Orchestration of Emulator Assisted Mobile Edge Tuning for AI Foundation
Models: A Multi-Agent Deep Reinforcement Learning Approach [10.47302625959368]
我々は,モバイルエッジコンピューティングと基礎モデルを統合した画期的なパラダイムを提示する。
私たちのアプローチの中心はイノベーティブなEmulator-Adapterアーキテクチャであり、基礎モデルを2つの凝集モジュールに分割する。
本稿では,分散環境におけるEmulator-Adapter構造のニーズに合わせて微調整された高度なリソース割り当て機構を提案する。
論文 参考訳(メタデータ) (2023-10-26T15:47:51Z) - Slimmable Domain Adaptation [112.19652651687402]
重み付けモデルバンクを用いて、ドメイン間の一般化を改善するためのシンプルなフレームワーク、Slimmable Domain Adaptationを導入する。
私たちのフレームワークは、他の競合するアプローチを、複数のベンチマークにおいて非常に大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-06-14T06:28:04Z) - Edge-assisted Democratized Learning Towards Federated Analytics [67.44078999945722]
本稿では,エッジ支援型民主化学習機構であるEdge-DemLearnの階層的学習構造を示す。
また、Edge-DemLearnを柔軟なモデルトレーニングメカニズムとして検証し、リージョンに分散制御と集約の方法論を構築する。
論文 参考訳(メタデータ) (2020-12-01T11:46:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。