論文の概要: Dynamic Quality-Latency Aware Routing for LLM Inference in Wireless Edge-Device Networks
- arxiv url: http://arxiv.org/abs/2508.11291v1
- Date: Fri, 15 Aug 2025 07:55:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-18 14:51:23.791595
- Title: Dynamic Quality-Latency Aware Routing for LLM Inference in Wireless Edge-Device Networks
- Title(参考訳): 無線エッジデバイスネットワークにおけるLCM推論のための動的品質レイテンシアウェアルーティング
- Authors: Rui Bao, Nan Xue, Yaping Sun, Zhiyong Chen,
- Abstract要約: 無線通信とLLM(Large Language Models)の統合は、ユビキタスなインテリジェントなサービスをアンロックする。
無線のエッジデバイス共同環境にデプロイすることは、推論品質とエンドツーエンドのレイテンシの間に重要なトレードオフをもたらす。
本稿では,モバイルデバイス上の軽量モデルとエッジサーバ上の強力なモデルとの推論をオーケストレーションする,動的で品質に配慮したルーティングフレームワークを提案する。
- 参考スコア(独自算出の注目度): 10.499051136134192
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The integration of wireless communications and Large Language Models (LLMs) is poised to unlock ubiquitous intelligent services, yet deploying them in wireless edge-device collaborative environments presents a critical trade-off between inference quality and end-to-end latency. A fundamental mismatch exists between task complexity and resource allocation: offloading simple queries invites prohibitive latency, while on-device models lack the capacity for demanding computations. To address this challenge, we propose a dynamic, quality-latency aware routing framework that orchestrates inference between a lightweight model on the mobile device and a powerful model on the edge server. Our framework employs two distinct cost models: for single-turn queries, it fuses a BERT-predicted semantic score with communication and computation overheads; for multi-turn dialogues, it further quantifies context-aware costs arising from model switching and KV-cache management. While maintaining full inference quality, extensive experiments demonstrate that our framework cuts average response latency by 5-15% and reduces large model invocations by 10-20% against competitive baselines on MMLU, GSM8K, and MT-Bench-101 benchmarks.
- Abstract(参考訳): 無線通信とLLM(Large Language Models)の統合は、ユビキタスなインテリジェントなサービスをアンロックする一方で、無線のエッジデバイス協調環境にそれらをデプロイすることで、推論品質とエンドツーエンドのレイテンシの間に重要なトレードオフをもたらす。
タスクの複雑さとリソース割り当ての間には根本的なミスマッチがある:単純なクエリをオフロードすると遅延が禁止され、オンデバイスモデルは計算の要求能力が不足する。
この課題に対処するために、モバイルデバイス上の軽量モデルとエッジサーバ上の強力なモデルとの推論をオーケストレーションする、動的で品質に配慮したルーティングフレームワークを提案する。
単一ターンクエリでは、BERT予測されたセマンティックスコアを通信と計算のオーバーヘッドで融合させ、マルチターン対話では、モデル切替とKVキャッシュ管理によるコンテキスト認識コストをさらに定量化する。
完全な推論品質を維持しながら、我々のフレームワークは平均応答レイテンシを5~15%削減し、MMLU、GSM8K、MT-Bench-101ベンチマークの競合ベースラインに対して10~20%削減することを示した。
関連論文リスト
- Multi-Agentic AI for Fairness-Aware and Accelerated Multi-modal Large Model Inference in Real-world Mobile Edge Networks [4.018860391090846]
モバイルエッジネットワークにおける遅延と公平性を考慮したマルチモーダルLM推論のためのマルチエージェントAIフレームワークを提案する。
我々のソリューションには、長期計画エージェント、短期プロンプトスケジューリングエージェント、複数ノードLMデプロイメントエージェントが含まれる。
実験により、我々のソリューションは平均遅延を80%以上削減し、他のベースラインと比較して公正性(ノーマル化ジャイナ指数)を0.90に改善することを示した。
論文 参考訳(メタデータ) (2026-02-06T21:52:49Z) - ComAgent: Multi-LLM based Agentic AI Empowered Intelligent Wireless Networks [62.031889234230725]
6Gネットワークは複雑な層間最適化に依存している。
数学の定式化に高レベルの意図を手動で翻訳することは、まだボトルネックである。
我々はマルチLLMエージェントAIフレームワークであるComAgentを紹介する。
論文 参考訳(メタデータ) (2026-01-27T13:43:59Z) - Reliable LLM-Based Edge-Cloud-Expert Cascades for Telecom Knowledge Systems [54.916243942641444]
大規模言語モデル(LLM)は、通信などの分野において、自動化の鍵となる存在として浮上している。
本研究では,問合せパイプラインによる意思決定を支援する,エッジクラウドに精通したLLMベースの知識システムについて検討する。
論文 参考訳(メタデータ) (2025-12-23T03:10:09Z) - Collaborative Large Language Model Inference via Resource-Aware Parallel Speculative Decoding [6.130486652666936]
投機的復号化は、モバイルデバイスの軽量ドラフトモデルとエッジサーバの強力なターゲットモデルとの間にトークン生成を分割することで、有望なソリューションを提供する。
本稿では,効率的な並列投機的復号化を支援するために,ユーザアソシエーションとリソースアロケーションを協調的に最適化する統合フレームワークを初めて提案する。
その結果,提案手法は推定精度を損なうことなく,最大28.0%,平均23.7%のレイテンシ削減を実現していることがわかった。
論文 参考訳(メタデータ) (2025-11-03T16:04:44Z) - CollaPipe: Adaptive Segment-Optimized Pipeline Parallelism for Collaborative LLM Training in Heterogeneous Edge Networks [57.95170323315603]
CollaPipeは、コラボレーティブパイプライン並列性とフェデレーションアグリゲーションを統合し、自己進化型ネットワークをサポートする分散学習フレームワークである。
CollaPipeでは、エンコーダ部分は可変サイズのセグメントに適応的に分割され、パイプライン並列トレーニングのためにモバイルデバイスにデプロイされ、デコーダは生成タスクを処理するためにエッジサーバにデプロイされる。
トレーニング効率を向上させるために,モデルセグメント,マイクロバッチ,帯域幅,送信電力を適応的に割り当てる共同最適化問題を定式化する。
論文 参考訳(メタデータ) (2025-09-24T07:54:01Z) - CSGO: Generalized Optimization for Cold Start in Wireless Collaborative Edge LLM Systems [62.24576366776727]
本稿では,全体の推論遅延を最小限に抑えるために,遅延を考慮したスケジューリングフレームワークを提案する。
提案手法は,ベースライン戦略と比較して,コールドスタート遅延を著しく低減することを示す。
論文 参考訳(メタデータ) (2025-08-15T07:49:22Z) - Pangu Embedded: An Efficient Dual-system LLM Reasoner with Metacognition [95.54406667705999]
Pangu Embeddedは、Ascend Neural Processing Units (NPU) 上で開発された効率的なLarge Language Model (LLM) 推論器である。
既存の推論最適化 LLM でよく見られる計算コストと推論遅延の問題に対処する。
単一の統一モデルアーキテクチャ内で、迅速な応答と最先端の推論品質を提供する。
論文 参考訳(メタデータ) (2025-05-28T14:03:02Z) - The Larger the Merrier? Efficient Large AI Model Inference in Wireless Edge Networks [56.37880529653111]
大規模計算モデル(LAIM)サービスの需要は、従来のクラウドベースの推論から、低レイテンシでプライバシ保護のアプリケーションのためのエッジベースの推論へのパラダイムシフトを推進している。
本稿では,事前学習したLAIMをデバイス上のサブモデルとサーバ上のサブモデルに分割して配置するLAIM推論方式について検討する。
論文 参考訳(メタデータ) (2025-05-14T08:18:55Z) - Intelligent Task Offloading: Advanced MEC Task Offloading and Resource Management in 5G Networks [6.725133919174076]
5G技術は、高速で信頼性が高く、低レイテンシな通信、モバイルブロードバンドの革新、大規模なIoT接続をサポートする業界を強化します。
User Equipment上のアプリケーションの複雑さが増すにつれて、リソース集約的なタスクを堅牢なサーバにオフロードすることは、レイテンシとスピードを改善する上で不可欠である。
本稿では,各UE間の通信資源を効率的に配分する手法を提案する。
5G技術の進化によって引き起こされる課題に対して、堅牢で効率的な解決策を提供する。
論文 参考訳(メタデータ) (2025-01-08T16:19:44Z) - Hierarchical Federated Learning in Wireless Networks: Pruning Tackles Bandwidth Scarcity and System Heterogeneity [32.321021292376315]
我々はヘテロジニアスネットワーク(HetNets)におけるプルーニング可能な階層型フェデレーションラーニング(PHFL)を提案する。
まず、モデルプルーニングと無線通信の影響を明確に示す収束率の上限を導出する。
提案するPHFLアルゴリズムの有効性を,テスト精度,壁面時計時間,エネルギー消費,帯域幅要件の観点から検証した。
論文 参考訳(メタデータ) (2023-08-03T07:03:33Z) - Artificial Intelligence Empowered Multiple Access for Ultra Reliable and
Low Latency THz Wireless Networks [76.89730672544216]
テラヘルツ(THz)無線ネットワークは、第5世代(B5G)以上の時代を触媒すると予想されている。
いくつかのB5Gアプリケーションの超信頼性と低レイテンシ要求を満たすためには、新しいモビリティ管理アプローチが必要である。
本稿では、インテリジェントなユーザアソシエーションとリソースアロケーションを実現するとともに、フレキシブルで適応的なモビリティ管理を可能にする、全体論的MAC層アプローチを提案する。
論文 参考訳(メタデータ) (2022-08-17T03:00:24Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Low-Latency Federated Learning over Wireless Channels with Differential
Privacy [142.5983499872664]
フェデレートラーニング(FL)では、モデルトレーニングはクライアントに分散し、ローカルモデルは中央サーバによって集約される。
本稿では,各クライアントの差分プライバシ(DP)要件だけでなく,全体としてのトレーニング性能に制約された無線チャネル上でのFLトレーニング遅延を最小限に抑えることを目的とする。
論文 参考訳(メタデータ) (2021-06-20T13:51:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。