論文の概要: ConsRoute:Consistency-Aware Adaptive Query Routing for Cloud-Edge-Device Large Language Models
- arxiv url: http://arxiv.org/abs/2603.21237v1
- Date: Sun, 22 Mar 2026 13:54:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.307944
- Title: ConsRoute:Consistency-Aware Adaptive Query Routing for Cloud-Edge-Device Large Language Models
- Title(参考訳): ConsRoute:Consistency-Aware Adaptive Query Routing for Cloud-Edge-Device Large Language Models
- Authors: Haoyu Qiao, Hao Zhang, Shanwen Mao, Siyao Cheng, Jie Liu,
- Abstract要約: ConsRouteは、大規模言語モデルのための軽量でセマンティックな、適応的なルーティングフレームワークである。
ConsRouteは、エンドツーエンドのレイテンシと推論コストを40%近く削減しながら、ほぼクラウドのパフォーマンス(=95%)を達成することを示す。
- 参考スコア(独自算出の注目度): 7.869130026927
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) deliver impressive capabilities but incur substantial inference latency and cost, which hinders their deployment in latency-sensitive and resource-constrained scenarios. Cloud-edge-device collaborative inference has emerged as a promising paradigm by dynamically routing queries to models of different capacities across tiers. In this paper, we propose ConsRoute, a lightweight, semantic-aware, and adaptive routing framework that significantly improves inference efficiency while minimizing impact on response quality. Unlike prior routing methods that rely on predicting coarse-grained output quality gaps, ConsRoute leverages a reranker to directly assess the semantic consistency between responses generated by models at different tiers, yielding fine-grained soft supervision signals for routing. To minimize device-side overhead, ConsRoute reuses hidden states from the LLM prefilling stage as compact query representations, avoiding additional encoders or inference passes. Furthermore, these representations are clustered, and Bayesian optimization is employed to learn cluster-specific routing thresholds that dynamically balance quality, latency, and cost under heterogeneous query distributions. Extensive experiments demonstrate that ConsRoute achieves near-cloud performance (>=95%) while reducing end-to-end latency and inference cost by nearly 40%, consistently outperforming existing routing baselines in both response quality and system efficiency.
- Abstract(参考訳): 大きな言語モデル(LLM)は印象的な機能を提供するが、相当な推論遅延とコストが発生するため、レイテンシに敏感でリソース制約のあるシナリオへのデプロイメントを妨げている。
クラウド-エッジ-デバイス共同推論は、階層毎に異なるキャパシティのモデルにクエリを動的にルーティングすることで、有望なパラダイムとして登場した。
本稿では,応答品質への影響を最小限に抑えつつ,推論効率を大幅に向上する軽量でセマンティックな適応型ルーティングフレームワークであるConsRouteを提案する。
粗い出力品質のギャップを予測する従来のルーティング方法とは異なり、ConsRouteはリランカを利用して、異なる階層のモデルによって生成されたレスポンス間のセマンティック一貫性を直接評価し、ルーティングのためのきめ細かいソフト監視信号を生成する。
デバイス側のオーバーヘッドを最小限に抑えるため、ConsRouteはLLMプリフィルステージから隠れた状態をコンパクトなクエリ表現として再利用し、追加のエンコーダや推論パスを回避する。
さらに、これらの表現はクラスタ化されており、ベイジアン最適化はクラスタ固有のルーティングしきい値の学習に使われ、不均一なクエリ分散の下で品質、レイテンシ、コストを動的にバランスさせる。
大規模な実験では、ConsRouteがほぼクラウドのパフォーマンス(>=95%)を達成しつつ、エンドツーエンドのレイテンシと推論コストを40%近く削減し、応答品質とシステム効率の両方において、既存のルーティングベースラインを一貫して上回っていることが示されている。
関連論文リスト
- Efficient and Interpretable Multi-Agent LLM Routing via Ant Colony Optimization [58.59491516762626]
マルチエージェントシステム(MAS)のための効率的かつ解釈可能なルーティングフレームワークAMRO-Sを提案する。
AMRO-Sは、意味条件付き経路選択問題としてMASルーティングをモデル化し、3つのキーメカニズムを通してルーティング性能を向上させる。
5つの公開ベンチマークと高速ストレステストによる大規模な実験により、AMRO-Sは強いルーティングベースラインに対する品質-コストトレードオフを一貫して改善することを示した。
論文 参考訳(メタデータ) (2026-03-13T12:26:05Z) - SATER: A Self-Aware and Token-Efficient Approach to Routing and Cascading [39.20076289493037]
本稿では,最短応答の選好最適化と信頼度を考慮した拒絶機構を通じて細管モデルをモデル化する二重モード互換手法SATERを紹介する。
SATERは、前世代のルーティングの性能とカスケードルーティングの効率の両方を改善しながら、冗長な出力と応答時間を著しく削減する。
論文 参考訳(メタデータ) (2025-10-04T19:55:36Z) - RadialRouter: Structured Representation for Efficient and Robust Large Language Models Routing [27.481573948464987]
Radialは、大規模言語モデルのルーティングのための新しいフレームワークである。
RadialFormerという名前のラジアル構造を持つ軽量なTransformerベースのバックボーンを使用して、クエリとLLMの関係を明確にする。
バランシングとコストファーストのシナリオでは、既存のルーティングメソッドの9.2%と5.8%を大きく上回っている。
論文 参考訳(メタデータ) (2025-06-04T12:16:41Z) - SpecRouter: Adaptive Routing for Multi-Level Speculative Decoding in Large Language Models [21.933379266533098]
大規模言語モデル(LLM)は、推論品質と計算コストの間に重要なトレードオフをもたらす。
既存のサービス戦略では、固定されたモデルスケールや静的な2段階の投機的デコードを用いることが多い。
本稿では,LLM推論を適応的ルーティング問題として再定義する新しいフレームワークであるsystemnameを紹介する。
論文 参考訳(メタデータ) (2025-05-12T15:46:28Z) - Confident or Seek Stronger: Exploring Uncertainty-Based On-device LLM Routing From Benchmarking to Generalization [61.02719787737867]
大規模言語モデル(LLM)はますますエッジデバイスにデプロイされ、民主化されている。
1つの有望な解決策は不確実性に基づくSLMルーティングであり、SLM上での低信頼応答が発生すると、高い要求を強いLCMにオフロードする。
我々は1500以上の設定でSLMからLLMへの不確実性駆動型ルーティング戦略のベンチマークと一般化を包括的に調査する。
論文 参考訳(メタデータ) (2025-02-06T18:59:11Z) - CITER: Collaborative Inference for Efficient Large Language Model Decoding with Token-Level Routing [74.14816777318033]
Token-lEvel Routing(CITER)との協調推論は、小規模および大規模言語モデルの効率的な協調を可能にするフレームワークである。
ルータの学習をポリシー最適化として定式化し、予測の質と生成の推論コストの両方に基づいて報酬を受け取る。
実験の結果,CITERは高品質な生成を保ちながら推論コストを低減し,リアルタイムおよびリソース制約のあるアプリケーションに対して有望なソリューションを提供することがわかった。
論文 参考訳(メタデータ) (2025-02-04T03:36:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。