論文の概要: Adaptive Orchestration for Inference of Large Foundation Models at the Edge
- arxiv url: http://arxiv.org/abs/2504.03668v1
- Date: Wed, 19 Mar 2025 15:35:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-13 07:22:38.737181
- Title: Adaptive Orchestration for Inference of Large Foundation Models at the Edge
- Title(参考訳): エッジにおける大規模基礎モデルの推論のための適応的オーケストレーション
- Authors: Fernando Koch, Aladin Djuhera, Alecio Binotto,
- Abstract要約: Large Foundation Models (LFMs)は、次世代のEdge AIアプリケーションの新機能をアンロックすることを約束する。
リソース制約のあるヘテロジニアスエッジ環境におけるLFMによる推論は、ワークロードオーケストレーションにおいて大きな課題となる。
本稿では,分散推論処理の管理に特化して設計された,新しい適応型オーケストレーション手法とシステムを提案する。
- 参考スコア(独自算出の注目度): 46.1232919707345
- License:
- Abstract: Large Foundation Models (LFMs), including multi-modal and generative AI models, promise to unlock new capabilities for next-generation Edge AI applications. However, performing inference with LFMs in resource-constrained and heterogeneous edge environments presents significant challenges for workload orchestration. We propose a novel adaptive orchestration method and system tailored specifically for managing distributed inference workloads across multi-access edge computing (MEC) infrastructures. Our approach enhances traditional workload orchestration by introducing dynamic methods including: (1) adaptive workload distribution that selects optimal, inter-connected edge nodes based on runtime capacity profiling; (2) dynamic redistribution of LFM partitions as operational conditions evolve, and; (3) real-time reconfiguration (e.g., re-splitting) of LFM layers to balance performance and privacy requirements. Our proposed framework introduces an architecture for adaptive split inference, enabling real-time, QoS-aware management of inference workloads. We present a reference architecture, detail operational mechanisms, and demonstrate its application through various use cases in real-world scenarios.
- Abstract(参考訳): マルチモーダルおよび生成AIモデルを含むLarge Foundation Models(LFMs)は、次世代のEdge AIアプリケーションに新機能をアンロックすることを約束する。
しかし、資源制約や異種エッジ環境におけるLFMによる推論は、ワークロードオーケストレーションにおいて大きな課題となる。
本稿では,マルチアクセスエッジコンピューティング(MEC)インフラストラクチャ間の分散推論ワークロードの管理に特化して設計された,新しい適応型オーケストレーション手法とシステムを提案する。
提案手法は,(1)実行時キャパシティプロファイリングに基づく最適なエッジノードの選択を行う適応型ワークロード分散,(2)運用条件の進展に伴うFMパーティションの動的再配布,(3)パフォーマンスとプライバシ要件のバランスをとるためのリアルタイム再設定(再分割など)など,従来のワークロードオーケストレーションを実現する。
提案フレームワークでは,適応型分割推論のアーキテクチャを導入し,リアルタイムなQoS対応の推論処理を実現する。
本稿では,参照アーキテクチャ,詳細な運用機構,実世界のシナリオにおけるさまざまなユースケースを通じてその応用を実証する。
関連論文リスト
- Multi-Objective Bayesian Optimization for Networked Black-Box Systems: A Path to Greener Profits and Smarter Designs [0.0]
MOBONSは、一般関数ネットワークを効率的に最適化できるベイズ最適化に着想を得た新しいアルゴリズムである。
持続可能なプロセス設計を含む2つのケーススタディを通じて,MOBONSの有効性を実証する。
論文 参考訳(メタデータ) (2025-02-19T21:49:05Z) - ModServe: Scalable and Resource-Efficient Large Multimodal Model Serving [19.388562622309838]
大規模なマルチモーダルモデル(LMM)は、画像、ビデオ、音声をテキストを超えて理解する能力を示す。
本稿では,6つの代表的なオープンソースモデルに対して,デコーダのみとクロスアテンションという,2つの著名なLMMアーキテクチャを包括的に解析する。
本稿では,モジュール型LMMサービスシステムであるModServeを提案する。
論文 参考訳(メタデータ) (2025-02-02T22:10:40Z) - Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design [59.00758127310582]
本稿では、事前学習された高密度LCMをより小さなMoEモデルに変換する新しいフレームワークRead-MEを提案する。
当社のアプローチでは,専門家の抽出にアクティベーション空間を用いる。
Read-MEは、同様のスケールの他の人気のあるオープンソース高密度モデルよりも優れています。
論文 参考訳(メタデータ) (2024-10-24T19:48:51Z) - Regularized Conditional Diffusion Model for Multi-Task Preference Alignment [43.86042557447689]
連続的な意思決定は、人間の意図と一致し、様々なタスクにまたがる多角性を示すことが望まれる。
従来は条件付き拡散モデルを用いて軌道分布を直接モデル化し,条件生成プロセスとして定式化していた。
本研究では,シングルタスクとマルチタスクの両意思決定の統一条件として,マルチタスクの選好を採用する。
論文 参考訳(メタデータ) (2024-04-07T11:20:32Z) - A Bayesian Framework of Deep Reinforcement Learning for Joint O-RAN/MEC
Orchestration [12.914011030970814]
マルチアクセスエッジコンピューティング(MEC)は、コモディティプラットフォーム上でOpen Radio Access Network(O-RAN)と一緒に実装することで、低コストなデプロイメントを実現する。
本稿では,ベイジアンディープ強化学習(RL)を用いたO-RAN/MEC協調オーケストレーションを提案する。
論文 参考訳(メタデータ) (2023-12-26T18:04:49Z) - HiNet: Novel Multi-Scenario & Multi-Task Learning with Hierarchical Information Extraction [50.40732146978222]
マルチシナリオとマルチタスク学習は、産業アプリケーションにおける多くのレコメンデーションシステムに広く応用されている。
階層型情報抽出ネットワーク(HiNet)を提案する。
HiNetは、新しい最先端のパフォーマンスを実現し、既存のソリューションを大幅に上回っている。
論文 参考訳(メタデータ) (2023-03-10T17:24:41Z) - Slimmable Domain Adaptation [112.19652651687402]
重み付けモデルバンクを用いて、ドメイン間の一般化を改善するためのシンプルなフレームワーク、Slimmable Domain Adaptationを導入する。
私たちのフレームワークは、他の競合するアプローチを、複数のベンチマークにおいて非常に大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-06-14T06:28:04Z) - Controllable Dynamic Multi-Task Architectures [92.74372912009127]
本稿では,そのアーキテクチャと重みを動的に調整し,所望のタスク選択とリソース制約に適合させる制御可能なマルチタスクネットワークを提案する。
本稿では,タスク親和性と分岐正規化損失を利用した2つのハイパーネットの非交互トレーニングを提案し,入力の嗜好を取り入れ,適応重み付き木構造モデルを予測する。
論文 参考訳(メタデータ) (2022-03-28T17:56:40Z) - Edge-assisted Democratized Learning Towards Federated Analytics [67.44078999945722]
本稿では,エッジ支援型民主化学習機構であるEdge-DemLearnの階層的学習構造を示す。
また、Edge-DemLearnを柔軟なモデルトレーニングメカニズムとして検証し、リージョンに分散制御と集約の方法論を構築する。
論文 参考訳(メタデータ) (2020-12-01T11:46:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。