論文の概要: Dynamic Quality-Latency Aware Routing for LLM Inference in Wireless Edge-Device Networks
- arxiv url: http://arxiv.org/abs/2508.11291v1
- Date: Fri, 15 Aug 2025 07:55:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-18 14:51:23.791595
- Title: Dynamic Quality-Latency Aware Routing for LLM Inference in Wireless Edge-Device Networks
- Title(参考訳): 無線エッジデバイスネットワークにおけるLCM推論のための動的品質レイテンシアウェアルーティング
- Authors: Rui Bao, Nan Xue, Yaping Sun, Zhiyong Chen,
- Abstract要約: 無線通信とLLM(Large Language Models)の統合は、ユビキタスなインテリジェントなサービスをアンロックする。
無線のエッジデバイス共同環境にデプロイすることは、推論品質とエンドツーエンドのレイテンシの間に重要なトレードオフをもたらす。
本稿では,モバイルデバイス上の軽量モデルとエッジサーバ上の強力なモデルとの推論をオーケストレーションする,動的で品質に配慮したルーティングフレームワークを提案する。
- 参考スコア(独自算出の注目度): 10.499051136134192
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The integration of wireless communications and Large Language Models (LLMs) is poised to unlock ubiquitous intelligent services, yet deploying them in wireless edge-device collaborative environments presents a critical trade-off between inference quality and end-to-end latency. A fundamental mismatch exists between task complexity and resource allocation: offloading simple queries invites prohibitive latency, while on-device models lack the capacity for demanding computations. To address this challenge, we propose a dynamic, quality-latency aware routing framework that orchestrates inference between a lightweight model on the mobile device and a powerful model on the edge server. Our framework employs two distinct cost models: for single-turn queries, it fuses a BERT-predicted semantic score with communication and computation overheads; for multi-turn dialogues, it further quantifies context-aware costs arising from model switching and KV-cache management. While maintaining full inference quality, extensive experiments demonstrate that our framework cuts average response latency by 5-15% and reduces large model invocations by 10-20% against competitive baselines on MMLU, GSM8K, and MT-Bench-101 benchmarks.
- Abstract(参考訳): 無線通信とLLM(Large Language Models)の統合は、ユビキタスなインテリジェントなサービスをアンロックする一方で、無線のエッジデバイス協調環境にそれらをデプロイすることで、推論品質とエンドツーエンドのレイテンシの間に重要なトレードオフをもたらす。
タスクの複雑さとリソース割り当ての間には根本的なミスマッチがある:単純なクエリをオフロードすると遅延が禁止され、オンデバイスモデルは計算の要求能力が不足する。
この課題に対処するために、モバイルデバイス上の軽量モデルとエッジサーバ上の強力なモデルとの推論をオーケストレーションする、動的で品質に配慮したルーティングフレームワークを提案する。
単一ターンクエリでは、BERT予測されたセマンティックスコアを通信と計算のオーバーヘッドで融合させ、マルチターン対話では、モデル切替とKVキャッシュ管理によるコンテキスト認識コストをさらに定量化する。
完全な推論品質を維持しながら、我々のフレームワークは平均応答レイテンシを5~15%削減し、MMLU、GSM8K、MT-Bench-101ベンチマークの競合ベースラインに対して10~20%削減することを示した。
関連論文リスト
- CSGO: Generalized Optimization for Cold Start in Wireless Collaborative Edge LLM Systems [62.24576366776727]
本稿では,全体の推論遅延を最小限に抑えるために,遅延を考慮したスケジューリングフレームワークを提案する。
提案手法は,ベースライン戦略と比較して,コールドスタート遅延を著しく低減することを示す。
論文 参考訳(メタデータ) (2025-08-15T07:49:22Z) - Pangu Embedded: An Efficient Dual-system LLM Reasoner with Metacognition [95.54406667705999]
Pangu Embeddedは、Ascend Neural Processing Units (NPU) 上で開発された効率的なLarge Language Model (LLM) 推論器である。
既存の推論最適化 LLM でよく見られる計算コストと推論遅延の問題に対処する。
単一の統一モデルアーキテクチャ内で、迅速な応答と最先端の推論品質を提供する。
論文 参考訳(メタデータ) (2025-05-28T14:03:02Z) - The Larger the Merrier? Efficient Large AI Model Inference in Wireless Edge Networks [56.37880529653111]
大規模計算モデル(LAIM)サービスの需要は、従来のクラウドベースの推論から、低レイテンシでプライバシ保護のアプリケーションのためのエッジベースの推論へのパラダイムシフトを推進している。
本稿では,事前学習したLAIMをデバイス上のサブモデルとサーバ上のサブモデルに分割して配置するLAIM推論方式について検討する。
論文 参考訳(メタデータ) (2025-05-14T08:18:55Z) - Intelligent Task Offloading: Advanced MEC Task Offloading and Resource Management in 5G Networks [6.725133919174076]
5G技術は、高速で信頼性が高く、低レイテンシな通信、モバイルブロードバンドの革新、大規模なIoT接続をサポートする業界を強化します。
User Equipment上のアプリケーションの複雑さが増すにつれて、リソース集約的なタスクを堅牢なサーバにオフロードすることは、レイテンシとスピードを改善する上で不可欠である。
本稿では,各UE間の通信資源を効率的に配分する手法を提案する。
5G技術の進化によって引き起こされる課題に対して、堅牢で効率的な解決策を提供する。
論文 参考訳(メタデータ) (2025-01-08T16:19:44Z) - Hierarchical Federated Learning in Wireless Networks: Pruning Tackles Bandwidth Scarcity and System Heterogeneity [32.321021292376315]
我々はヘテロジニアスネットワーク(HetNets)におけるプルーニング可能な階層型フェデレーションラーニング(PHFL)を提案する。
まず、モデルプルーニングと無線通信の影響を明確に示す収束率の上限を導出する。
提案するPHFLアルゴリズムの有効性を,テスト精度,壁面時計時間,エネルギー消費,帯域幅要件の観点から検証した。
論文 参考訳(メタデータ) (2023-08-03T07:03:33Z) - Artificial Intelligence Empowered Multiple Access for Ultra Reliable and
Low Latency THz Wireless Networks [76.89730672544216]
テラヘルツ(THz)無線ネットワークは、第5世代(B5G)以上の時代を触媒すると予想されている。
いくつかのB5Gアプリケーションの超信頼性と低レイテンシ要求を満たすためには、新しいモビリティ管理アプローチが必要である。
本稿では、インテリジェントなユーザアソシエーションとリソースアロケーションを実現するとともに、フレキシブルで適応的なモビリティ管理を可能にする、全体論的MAC層アプローチを提案する。
論文 参考訳(メタデータ) (2022-08-17T03:00:24Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Low-Latency Federated Learning over Wireless Channels with Differential
Privacy [142.5983499872664]
フェデレートラーニング(FL)では、モデルトレーニングはクライアントに分散し、ローカルモデルは中央サーバによって集約される。
本稿では,各クライアントの差分プライバシ(DP)要件だけでなく,全体としてのトレーニング性能に制約された無線チャネル上でのFLトレーニング遅延を最小限に抑えることを目的とする。
論文 参考訳(メタデータ) (2021-06-20T13:51:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。