論文の概要: Latency-Quality Routing for Functionally Equivalent Tools in LLM Agents
- arxiv url: http://arxiv.org/abs/2605.14241v1
- Date: Thu, 14 May 2026 01:14:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.563166
- Title: Latency-Quality Routing for Functionally Equivalent Tools in LLM Agents
- Title(参考訳): LLMエージェントにおける機能的等価ツールの遅延品質ルーティング
- Authors: Kexin Chu, Dawei Xiang, Wei Zhang,
- Abstract要約: LQM-ContextRouteは,同機能ツールプロバイダ用のコンテキストブロードバンドルータである。
その鍵となる設計は、レイテンシ品質のマッチングであり、低レイテンシのオフセットの回答を付加的な報酬にしない。
メインのウェブ検索負荷ベンチマークでは、LQM-ContextRouteはSW-UCBでF1を+2.18ppで改善している。
- 参考スコア(独自算出の注目度): 2.839606729957112
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tool-augmented LLM agents increasingly access the same tool type through multiple functionally equivalent providers, such as web-search APIs, retrievers, or LLM backends exposed behind a shared interface. This creates a provider-routing problem under runtime load: the router must choose among providers that differ in latency, reliability, and answer quality, often without gold labels at deployment time. We introduce LQM-ContextRoute, a contextual bandit router for same-function tool providers. Its key design is latency-quality matching: instead of letting low latency offset poor answers in an additive reward, the router ranks providers by expected answer quality per service cycle. It combines this capacity-aware score with query-specific quality estimation and LLM-as-judge feedback, allowing it to adapt online to both load changes and provider-quality differences. On the main web-search load benchmark, LQM-ContextRoute improves F1 by +2.18 pp over SW-UCB while staying on the latency-quality frontier. In a high-heterogeneity StrategyQA setting, LQM-ContextRoute avoids additive-reward collapse and improves accuracy by up to +18 pp over SW-UCB; on heterogeneous retriever pools, it improves NDCG by +2.91--+3.22 pp over SW-UCB. These results show that same-function tool routing benefits from treating latency as service capacity, especially when runtime pressure and provider-quality heterogeneity coexist.
- Abstract(参考訳): ツール拡張されたLLMエージェントは、Web検索API、レトリバー、共有インターフェースの裏で公開されたLLMバックエンドなど、複数の機能的に同等のプロバイダを通じて、同じツールタイプにアクセスしやすくなっている。
ルータは、デプロイ時にゴールドラベルなしで、レイテンシ、信頼性、そして品質に異なるプロバイダを選択する必要があります。
LQM-ContextRouteは,同機能ツールプロバイダ用のコンテキストブロードバンドルータである。
レイテンシの低いオフセットの回答を付加的な報酬にするのではなく、ルータはサービスサイクル当たりの回答品質でプロバイダをランク付けする。
このキャパシティアウェアスコアとクエリ固有の品質推定とLCM-as-judgeフィードバックを組み合わせることで、負荷変更とプロバイダ品質の違いの両方にオンラインで適応することができる。
メインのWeb検索負荷ベンチマークでは、LQM-ContextRouteは、レイテンシ品質のフロンティアを維持しながら、SW-UCB上でF1を+2.18pp改善している。
高均一性戦略QA設定では、LQM-ContextRouteは加法逆崩壊を回避し、SW-UCBで最大+18 pp、不均一なレトリバープールでは+2.91--+3.22 ppでNDCGを改善する。
これらの結果から,特にランタイム圧力とプロバイダ品質の不均一性が共存する場合に,レイテンシをサービスキャパシティとして扱うことで,同機能ツールルーティングのメリットが示された。
関連論文リスト
- Learning Agent Routing From Early Experience [55.88886987958933]
バウンダリ(Boundary)は、初期の行動経験とルーリック誘導推論を使用して、クエリに直接推論で答えるか、エージェントにエスカレートするかを決定する、トレーニング不要なルーティングフレームワークである。
また, 直接LLM推定よりも28.6%性能が向上し, 予測時間を60.6%短縮することを示した。
論文 参考訳(メタデータ) (2026-05-08T03:18:40Z) - Agent Capsules: Quality-Gated Granularity Control for Multi-Agent LLM Pipelines [0.0]
Agent Capsulesは、マルチエージェントパイプライン実行を経験的品質制約のある最適化問題として扱う適応実行ランタイムである。
制御された負の結果により、マージされた呼び出しにより多くのコンテキストを注入することで圧縮が軽減される。
フレームワークのエスカレーションはしごは、マージプロンプトを書き換えるのではなく、エージェントごとのディスパッチに移行することで品質を回復する。
論文 参考訳(メタデータ) (2026-05-01T05:08:14Z) - ConsRoute:Consistency-Aware Adaptive Query Routing for Cloud-Edge-Device Large Language Models [7.869130026927]
ConsRouteは、大規模言語モデルのための軽量でセマンティックな、適応的なルーティングフレームワークである。
ConsRouteは、エンドツーエンドのレイテンシと推論コストを40%近く削減しながら、ほぼクラウドのパフォーマンス(=95%)を達成することを示す。
論文 参考訳(メタデータ) (2026-03-22T13:54:12Z) - Efficient and Interpretable Multi-Agent LLM Routing via Ant Colony Optimization [58.59491516762626]
マルチエージェントシステム(MAS)のための効率的かつ解釈可能なルーティングフレームワークAMRO-Sを提案する。
AMRO-Sは、意味条件付き経路選択問題としてMASルーティングをモデル化し、3つのキーメカニズムを通してルーティング性能を向上させる。
5つの公開ベンチマークと高速ストレステストによる大規模な実験により、AMRO-Sは強いルーティングベースラインに対する品質-コストトレードオフを一貫して改善することを示した。
論文 参考訳(メタデータ) (2026-03-13T12:26:05Z) - ProxRouter: Proximity-Weighted LLM Query Routing for Improved Robustness to Outliers [14.831117443453165]
大規模言語モデル(LLM)クエリルータは、現代のAIプラットフォームにとって極めて重要である。
非パラメトリックルータにおけるバイアスと分散のバランスをとるために指数関数的に傾いたアグリゲーション機構を応用したProxを提案する。
論文 参考訳(メタデータ) (2025-10-10T20:28:14Z) - AgentRouter: A Knowledge-Graph-Guided LLM Router for Collaborative Multi-Agent Question Answering [51.07491603393163]
tAgentは知識グラフ誘導ルーティング問題としてマルチエージェントQAを定式化するフレームワークである。
エージェントアウトプットのソフトな監督と重み付けされた集約を活用することで、エージェントは多様なエージェントの相補的な強みを捉える、原則化された協調スキームを学ぶ。
論文 参考訳(メタデータ) (2025-10-06T23:20:49Z) - From Score Distributions to Balance: Plug-and-Play Mixture-of-Experts Routing [52.01745035243826]
Mixture-of-Experts (MoE)モデルは、各トークンを専門家のサブセットにルーティングすることで、パラメータキャパシティをスケールすることができる。
条件付きルーティングは、推論メモリの負荷をシフトし、デバイスごとに専門家の数を制限する。
本稿では,精度を保ちながら負荷のバランスをとるプラグイン・アンド・プレイ型推論時ルーティングアルゴリズムLASERを提案する。
論文 参考訳(メタデータ) (2025-09-29T16:29:17Z) - MixLLM: Dynamic Routing in Mixed Large Language Models [57.309520357563215]
大規模言語モデル(LLM)は、最近、人工知能の可能性を秘めている。
問合せ-LLM代入のための動的コンテキスト帯域ベースのルーティングシステムであるMixLLMを開発した。
論文 参考訳(メタデータ) (2025-02-09T02:26:15Z) - Confident or Seek Stronger: Exploring Uncertainty-Based On-device LLM Routing From Benchmarking to Generalization [61.02719787737867]
大規模言語モデル(LLM)はますますエッジデバイスにデプロイされ、民主化されている。
1つの有望な解決策は不確実性に基づくSLMルーティングであり、SLM上での低信頼応答が発生すると、高い要求を強いLCMにオフロードする。
我々は1500以上の設定でSLMからLLMへの不確実性駆動型ルーティング戦略のベンチマークと一般化を包括的に調査する。
論文 参考訳(メタデータ) (2025-02-06T18:59:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。