論文の概要: Quality-of-Service Aware LLM Routing for Edge Computing with Multiple Experts
- arxiv url: http://arxiv.org/abs/2508.00234v1
- Date: Fri, 01 Aug 2025 00:45:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-04 18:08:53.696584
- Title: Quality-of-Service Aware LLM Routing for Edge Computing with Multiple Experts
- Title(参考訳): 複数のエキスパートによるエッジコンピューティングのためのLLMルーティングの品質評価
- Authors: Jin Yang, Qiong Wu, Zhiying Feng, Zhi Zhou, Deke Guo, Xu Chen,
- Abstract要約: 大きな言語モデル(LLM)は目覚ましい機能を示しており、LLMサービスのユーザ需要が大幅に増加した。
しかしながら、クラウドベースのLLMサービスは、高いレイテンシ、不安定な応答性、プライバシの懸念に悩まされることが多い。
本稿では,持続的高品質LLMサービスのための深層強化学習に基づくルーティングフレームワークを提案する。
- 参考スコア(独自算出の注目度): 18.479200918676575
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have demonstrated remarkable capabilities, leading to a significant increase in user demand for LLM services. However, cloud-based LLM services often suffer from high latency, unstable responsiveness, and privacy concerns. Therefore, multiple LLMs are usually deployed at the network edge to boost real-time responsiveness and protect data privacy, particularly for many emerging smart mobile and IoT applications. Given the varying response quality and latency of LLM services, a critical issue is how to route user requests from mobile and IoT devices to an appropriate LLM service (i.e., edge LLM expert) to ensure acceptable quality-of-service (QoS). Existing routing algorithms fail to simultaneously address the heterogeneity of LLM services, the interference among requests, and the dynamic workloads necessary for maintaining long-term stable QoS. To meet these challenges, in this paper we propose a novel deep reinforcement learning (DRL)-based QoS-aware LLM routing framework for sustained high-quality LLM services. Due to the dynamic nature of the global state, we propose a dynamic state abstraction technique to compactly represent global state features with a heterogeneous graph attention network (HAN). Additionally, we introduce an action impact estimator and a tailored reward function to guide the DRL agent in maximizing QoS and preventing latency violations. Extensive experiments on both Poisson and real-world workloads demonstrate that our proposed algorithm significantly improves average QoS and computing resource efficiency compared to existing baselines.
- Abstract(参考訳): 大きな言語モデル(LLM)は目覚ましい機能を示しており、LLMサービスのユーザ需要が大幅に増加した。
しかしながら、クラウドベースのLLMサービスは、高いレイテンシ、不安定な応答性、プライバシの懸念に悩まされることが多い。
したがって、複数のLDMは、通常、リアルタイムの応答性を高め、データプライバシを保護するために、ネットワークエッジにデプロイされる。
LLMサービスの応答品質とレイテンシが変化していることを考えると、モバイルやIoTデバイスから適切なLLMサービス(エッジLLMの専門家)にユーザ要求をルーティングして、許容可能なQoS(Quality-of-Service)を保証する方法が重要な問題である。
既存のルーティングアルゴリズムは、LLMサービスの異種性、リクエスト間の干渉、長期安定QoSを維持するために必要な動的ワークロードに同時に対処することができない。
これらの課題に対処するため,本稿では,高品質なLLMサービスを実現するための,DRLに基づくQoS対応LLMルーティングフレームワークを提案する。
グローバルな状態の動的性質から,異種グラフアテンションネットワーク(HAN)を用いて,グローバルな状態特徴をコンパクトに表現する動的状態抽象化手法を提案する。
さらに、QoSの最大化と遅延違反防止のためにDRLエージェントを誘導するアクションインパクト推定器と調整された報酬関数を導入する。
Poissonと現実世界の両方のワークロードに対する大規模な実験により、提案アルゴリズムは既存のベースラインと比較して平均QoSと計算資源効率を大幅に改善することを示した。
関連論文リスト
- Federated Learning-Enabled Hybrid Language Models for Communication-Efficient Token Transmission [87.68447072141402]
ハイブリッド言語モデル(HLM)は、エッジデバイス上でのSLM(Small Language Model)の低レイテンシ効率と、集中型サーバ上でのLLM(Large Language Model)の高精度を組み合わせたものである。
我々は、不確実性を考慮した推論とフェデレートラーニング(FL)を統合する通信効率の高いHLMフレームワークであるFedHLMを提案する。
論文 参考訳(メタデータ) (2025-06-30T02:56:11Z) - VLM Q-Learning: Aligning Vision-Language Models for Interactive Decision-Making [45.02997774119763]
視覚言語モデル(VLM)は、大規模言語モデル(LLM)をマルチモーダルデータに拡張する。
我々の研究は、オフラインからオンラインへの強化学習(RL)の観点から、これらの課題にアプローチする。
論文 参考訳(メタデータ) (2025-05-06T04:51:57Z) - MixLLM: Dynamic Routing in Mixed Large Language Models [57.309520357563215]
大規模言語モデル(LLM)は、最近、人工知能の可能性を秘めている。
問合せ-LLM代入のための動的コンテキスト帯域ベースのルーティングシステムであるMixLLMを開発した。
論文 参考訳(メタデータ) (2025-02-09T02:26:15Z) - Confident or Seek Stronger: Exploring Uncertainty-Based On-device LLM Routing From Benchmarking to Generalization [61.02719787737867]
大規模言語モデル(LLM)はますますエッジデバイスにデプロイされ、民主化されている。
1つの有望な解決策は不確実性に基づくSLMルーティングであり、SLM上での低信頼応答が発生すると、高い要求を強いLCMにオフロードする。
我々は1500以上の設定でSLMからLLMへの不確実性駆動型ルーティング戦略のベンチマークと一般化を包括的に調査する。
論文 参考訳(メタデータ) (2025-02-06T18:59:11Z) - Resource Allocation for Stable LLM Training in Mobile Edge Computing [11.366306689957353]
本稿では,モバイルユーザとエッジサーバを統合し,リソース割り当てを最適化する協調トレーニングフレームワークについて検討する。
学習中のエネルギー消費と遅延の総量を最小限に抑えるために,多目的最適化問題を定式化する。
また,モデルの安定性向上を目的関数に組み込むことにより,モデル性能の不安定性の共通問題にも対処する。
論文 参考訳(メタデータ) (2024-09-30T12:36:27Z) - LlamaDuo: LLMOps Pipeline for Seamless Migration from Service LLMs to Small-Scale Local LLMs [11.664088080448593]
LLMOpsパイプライン"LlamaDuo"を導入して,サービス指向のLLMから,より小さく,ローカルに管理可能なモデルへの,知識と能力のシームレスな移行を実現した。
LlamaDuoは、後者によって生成された合成データセットを使用して、サービスLLMに対して小さな言語モデルを微調整する。
このマルチターンプロセスは、小さなモデルが特定の下流タスクにおいて最終的にLLMの能力と一致するか、さらに超えることを保証します。
論文 参考訳(メタデータ) (2024-08-24T05:03:08Z) - Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。
LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。
本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文 参考訳(メタデータ) (2024-06-20T13:08:09Z) - VELO: A Vector Database-Assisted Cloud-Edge Collaborative LLM QoS Optimization Framework [10.716259527813522]
大規模言語モデル (LLM) は広く普及し、様々な領域で広く利用されている。
ほとんどのLDMデプロイメントは、クラウドデータセンタ内で発生し、相当な応答遅延と高いコストが発生する。
LLM要求結果をエッジに格納するためにベクトルデータベースキャッシュを活用することで、同様の要求に関連する応答遅延とコストを大幅に軽減することができる。
論文 参考訳(メタデータ) (2024-06-19T09:41:37Z) - Efficient Prompting for LLM-based Generative Internet of Things [88.84327500311464]
大規模言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示しており、最近、IoT(Internet of Things)アプリケーションにLLMの能力を統合することが研究の注目を集めている。
セキュリティ上の懸念から、多くの機関は最先端の商用LLMサービスへのアクセスを避け、ローカルネットワーク環境でのオープンソースLLMのデプロイと利用を必要としている。
本研究では,LLMを用いた生成IoT(Generative IoT)システムを提案する。
論文 参考訳(メタデータ) (2024-06-14T19:24:00Z) - Queue management for slo-oriented large language model serving [3.0134961904579094]
大規模言語モデル(LLM)サービスのためのキュー管理システムであるQLMを提案する。
QLMは、異なるモデルとSLOをまたいだバッチおよびインタラクティブなリクエストをリクエストキューで維持する。
リクエスト待ち時間(RWT)推定器を使用し、リクエストキューでのリクエスト待ち時間を推定する。
論文 参考訳(メタデータ) (2024-06-05T21:17:34Z) - AgentBench: Evaluating LLMs as Agents [88.45506148281379]
大規模言語モデル(LLM)は、従来のNLPタスクを超えた現実的な実用的ミッションをターゲットとして、ますます賢く自律的になってきています。
我々は,現在8つの異なる環境からなるベンチマークであるAgentBenchを紹介し,LLM-as-Agentの推論と意思決定能力を評価する。
論文 参考訳(メタデータ) (2023-08-07T16:08:11Z) - A Graph Neural Networks based Framework for Topology-Aware Proactive SLA
Management in a Latency Critical NFV Application Use-case [0.34376560669160383]
5Gと6Gの最近の進歩は、ネットワークシリーズ(NFV)によって実現される遅延クリティカルなアプリケーションの出現につながっている。
本稿では,グラフニューラルネットワーク(GNN)と深層強化学習(DRL)を活用して,効率性と信頼性のトレードオフをバランスさせる,積極的なSLA管理フレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-10T23:22:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。