論文の概要: SLA-Aware Distributed LLM Inference Across Device-RAN-Cloud
- arxiv url: http://arxiv.org/abs/2602.23722v1
- Date: Fri, 27 Feb 2026 06:43:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-02 19:48:24.285784
- Title: SLA-Aware Distributed LLM Inference Across Device-RAN-Cloud
- Title(参考訳): デバイス-RAN-クラウド間のSLA対応分散LLM推論
- Authors: Hariz Yet, Nguyen Thanh Tam, Mao V. Ngo, Lim Yi Shen, Lin Wei, Jihong Park, Binbin Chen, Tony Q. S. Quek,
- Abstract要約: Embodied AIはRadio Access Network(RAN)の近くで秒未満の推論を必要とする
我々は,5G Standalone (SA) AI-RANテストベッドから,リピータビリティのための固定ベースラインポリシーを用いて測定を行った。
- 参考スコア(独自算出の注目度): 44.19683744405876
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Embodied AI requires sub-second inference near the Radio Access Network (RAN), but deployments span heterogeneous tiers (on-device, RAN-edge, cloud) and must not disrupt real-time baseband processing. We report measurements from a 5G Standalone (SA) AI-RAN testbed using a fixed baseline policy for repeatability. The setup includes an on-device tier, a three-node RAN-edge cluster co-hosting a containerized 5G RAN, and a cloud tier. We find that on-device execution remains multi-second and fails to meet sub-second budgets. At the RAN edge, SLA feasibility is primarily determined by model variant choice: quantized models concentrate below 0.5\,s, while unquantized and some larger quantized models incur deadline misses due to stalls and queuing. In the cloud tier, meeting a 0.5\,s deadline is challenging on the measured WAN path (up to 32.9\% of requests complete within 0.5\,s), but all evaluated variants meet a 1.0\,s deadline (100\% within 1.0\,s). Under saturated downlink traffic and up to $N{=}20$ concurrent inference clients, Multi-Instance GPU (MIG) isolation preserves baseband timing-health proxies, supporting safe co-location under fixed partitioning.
- Abstract(参考訳): Embodied AIはRadio Access Network(RAN)の近くでサブ秒の推論を必要とするが、デプロイメントは異種層(オンデバイス、RANエッジ、クラウド)にまたがるため、リアルタイムベースバンド処理を中断する必要はない。
我々は,5G Standalone (SA) AI-RANテストベッドから,リピータビリティのための固定ベースラインポリシーを用いて測定を行った。
セットアップには、オンデバイス層、コンテナ化された5G RANを共ホストする3ノードRAN-edgeクラスタ、クラウド層が含まれる。
デバイス上での実行はマルチ秒であり、サブ秒の予算に間に合わないことが分かっています。
量子化モデルは0.5\,s以下に集中するが、非定量化され、いくつかの大きな量子化モデルはストールとキューイングによって期限がずれている。
クラウド層では、0.5\,sの期限を満たすことは、測定されたWANパス(0.5\,s以内の要求の最大32.9\%)では困難であるが、評価されたすべてのバリエーションは1.0\,sの期限(1.0\,s以内の100\%)を満たす。
飽和ダウンリンクトラフィックと最大$N{=}20$同時推論クライアントの下では、Multi-Instance GPU(MIG)アイソレーションはベースバンドタイミングヘルスプロキシを保持し、固定パーティショニングの下で安全なコロケーションをサポートする。
関連論文リスト
- HALO: Semantic-Aware Distributed LLM Inference in Lossy Edge Network [50.33808558714122]
エッジでの大規模言語モデル(LLM)推論は、ユーザのプライバシを保護すると同時に、サービスの応答性を促進する。
損失エッジネットワークにおける分散LLM推論を向上する新しいフレームワークであるHALOを提案する。
Raspberry Piクラスタによる実験の結果、HALOは信頼性の低いネットワーク条件下でLLaMAシリーズLLMの3.41倍のエンドツーエンドのスピードアップを達成した。
論文 参考訳(メタデータ) (2026-01-16T07:37:23Z) - One-Shot Federated Ridge Regression: Exact Recovery via Sufficient Statistic Aggregation [0.7106986689736825]
フェデレート・リッジ回帰(Federated ridge regression)は、各クライアントが局所的な十分な統計を計算し、一度送信する分散平衡問題である。
我々は、クライアント1回に1回ノイズが注入された場合の差分プライバシー保証を確立し、マルチラウンドプロトコルのプライバシを低下させる構成ペナルティを排除した。
合成ヘテロジニアス回帰の実験では、単発核融合はFedAvgの精度と一致し、通信コストは最大38時間以下であることが示されている。
論文 参考訳(メタデータ) (2026-01-13T04:47:22Z) - From Static to Dynamic: A Streaming RAG Approach to Real-time Knowledge Base [0.0]
Streaming RAGは、コサインスクリーニング、ミニバッチクラスタリング、およびコンパクトなプロトタイプセットを維持するためにヘビーヒッターフィルタを組み合わせた統一パイプラインである。
8つのリアルタイムストリームの実験では、Recall@10(最大3ポイント、p 0.01)、エンドツーエンドのレイテンシが15ミリ秒未満、スループットが150MBの予算で毎秒900ドキュメント以上である。
論文 参考訳(メタデータ) (2025-07-31T14:03:19Z) - Distributed Training under Packet Loss [8.613477072763404]
信頼性の低いコネクションを利用するとレイテンシが低下するが、パケットを落としてモデルの精度と収束を犠牲にする可能性がある。
そこで本研究では,パケット損失の正確性と収束性を保証する原理的なエンドツーエンドソリューションを提案する。
この研究は、コミュニケーション効率の高いプロトコルと、現代の大規模モデルの訓練で要求される精度と保証のギャップを埋めるものである。
論文 参考訳(メタデータ) (2025-07-02T11:07:20Z) - Generative AI on the Edge: Architecture and Performance Evaluation [0.3999851878220877]
6GのAIネイティブビジョンであるアドバンストインテリジェンスをネットワークに組み込むには、エッジデバイス上のジェネレーティブAI(GenAI)モデルを体系的に評価する必要がある。
本研究では,ORANのエッジテストベッドとして機能する1つのコモディティRaspberry Pi上でのLLM(Large Language Models)推論の計算要求について検討する。
論文 参考訳(メタデータ) (2024-11-18T16:09:01Z) - Towards Communication-efficient Federated Learning via Sparse and Aligned Adaptive Optimization [90.08459757321405]
Federated Adam (FedAdam) アルゴリズムはアップリンク通信オーバーヘッドの3倍の増大に悩まされている。
我々はFedAdam-SSMと呼ばれる新しいスパースなFedAdamアルゴリズムを提案する。
我々は,FedAdam-SSMが訓練したモデルと集中型Adamの差異を最小化することにより,スペーシフィケーションエラーによる学習性能劣化を軽減するためにSSMを最適化する。
論文 参考訳(メタデータ) (2024-05-28T07:56:49Z) - DASA: Delay-Adaptive Multi-Agent Stochastic Approximation [64.32538247395627]
我々は,N$エージェントが並列に動作し,中央サーバと通信することで,一般的な近似問題を高速化することを目的とした設定を考える。
遅延とストラグラーの効果を軽減するために,マルチエージェント近似のための遅延適応アルゴリズムである textttDASA を提案する。
論文 参考訳(メタデータ) (2024-03-25T22:49:56Z) - Peer-to-Peer Deep Learning for Beyond-5G IoT [10.425510512462628]
P2PLは、エッジサーバやクラウドからの調整を必要としないマルチデバイスピアツーピアディープラーニングアルゴリズムである。
これにより、P2PLはスマートシティのような5G以上のコンピューティング環境に適している。
論文 参考訳(メタデータ) (2023-10-29T01:18:45Z) - Timely Asynchronous Hierarchical Federated Learning: Age of Convergence [59.96266198512243]
クライアント-エッジ-クラウドフレームワークを用いた非同期階層型フェデレーション学習環境について検討する。
クライアントはトレーニングされたパラメータをエッジサーバと交換し、ローカルに集約されたモデルを更新する。
各クライアントの目標は、クライアントのタイムラインを維持しながら、グローバルモデルに収束することだ。
論文 参考訳(メタデータ) (2023-06-21T17:39:16Z) - Convergence of Update Aware Device Scheduling for Federated Learning at
the Wireless Edge [84.55126371346452]
遠隔パラメータサーバ(PS)の助けを借りて、ローカルデータセットを持つパワー制限デバイスが共同でジョイントモデルを訓練する無線エッジにおけるフェデレーション学習について研究する。
各ラウンドで送信するデバイスのサブセットを決定する新しいスケジューリングとリソース割り当てポリシーを設計する。
数値実験の結果,提案したスケジューリングポリシーは,チャネル条件と局所モデル更新の重要性の両方に基づいており,両者の指標のみに基づくスケジューリングポリシーよりも長期的性能がよいことがわかった。
論文 参考訳(メタデータ) (2020-01-28T15:15:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。