論文の概要: Outcome-Aware Tool Selection for Semantic Routers: Latency-Constrained Learning Without LLM Inference
- arxiv url: http://arxiv.org/abs/2603.13426v1
- Date: Fri, 13 Mar 2026 02:13:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.192544
- Title: Outcome-Aware Tool Selection for Semantic Routers: Latency-Constrained Learning Without LLM Inference
- Title(参考訳): 意味的ルータのアウトカム・アウェアツール選択:LLM推論なしのレイテンシ制約学習
- Authors: Huamin Chen, Xunzhuo Liu, Junchen Jiang, Bowei He, Xue Liu,
- Abstract要約: Outcome-Aware Tool Selection (OATS)は、歴史的に成功したクエリのセントロイドへのツール埋め込みを補間する。
MetaTool (199tools, 4,287queries)では、NDCG@5が0.869から0.940に改善されている。
すべてのメソッドは、同じ保持された30%のテストスプリットで評価される。
- 参考スコア(独自算出の注目度): 12.135271159221178
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Semantic routers in LLM inference gateways select tools in the critical request path, where every millisecond of added latency compounds across millions of requests. We propose Outcome-Aware Tool Selection (OATS), which interpolates tool embeddings toward the centroid of queries where they historically succeed -- an offline process that adds no parameters, latency, or GPU cost at serving time. On MetaTool (199~tools, 4,287~queries), this improves NDCG@5 from 0.869 to 0.940; on ToolBench (2,413~APIs), from 0.834 to 0.848. We also evaluate two learned extensions: a 2,625-parameter MLP re-ranker and a 197K-parameter contrastive adapter. The MLP re-ranker hurts or matches baseline when outcome data is sparse relative to the tool set; the contrastive adapter provides comparable gains on MetaTool (NDCG@5: 0.931). All methods are evaluated on the same held-out 30\% test split. The practical takeaway is to start with the zero-cost refinement and add learned components only when data density warrants it. All mechanisms run within single-digit millisecond CPU budgets.
- Abstract(参考訳): LLM推論ゲートウェイのセマンティックルータはクリティカルリクエストパス内のツールを選択する。
我々は、歴史的に成功したクエリのセントロイドに対して、ツールの埋め込みを補間するoutcome-Aware Tool Selection (OATS)を提案する。
MetaTool (199~tools, 4,287〜queries)では、NDCG@5が0.869から0.940に改善され、ToolBench (2,413〜APIs)は0.834から0.848に改善された。
また,2,625パラメーターMLPリランカと197Kパラメーターコントラストアダプタの2つの学習拡張も評価した。
MLPリランカは、ツールセットに対して結果データがスパースである場合にベースラインを損なうか、あるいは一致させる。
すべてのメソッドは、同じ保持された30\%のテストスプリットで評価される。
現実的なポイントは、ゼロコストのリファインメントから始めて、データ密度が保証する場合にのみ、学習したコンポーネントを追加することです。
すべてのメカニズムは、1桁のミリ秒のCPU予算内で実行される。
関連論文リスト
- Try, Check and Retry: A Divide-and-Conquer Framework for Boosting Long-context Tool-Calling Performance of LLMs [78.58042751671393]
Tool-DCは、大規模言語モデルのツール呼び出し性能を高めるためのDivide-and-Conquerフレームワークである。
Tool-DCには2つのバリエーションがある: 1) プラグアンドプレイでフレキシブルなトレーニングフリーツールDC(TF)、2) より推論効率のよいトレーニングベースツールDC(TB)。
広範にわたる実験により、ツール-DC法は両者を明らかなマージンで上回る結果となった。
論文 参考訳(メタデータ) (2026-03-12T03:30:01Z) - PROTEUS: SLA-Aware Routing via Lagrangian RL for Multi-LLM Serving Systems [1.0978496459260902]
本稿では,タウをランタイム入力として正確にターゲットとするルータ PROTEUS を提案する。
単一の訓練されたモデルは、トレーニングをせずに完全な精度のスペクトルを提供する。
RouterBench(11モデル,405Kクエリ)とSPROUT(14モデル,45Kクエリ)について検討する。
論文 参考訳(メタデータ) (2026-01-27T09:38:16Z) - AutoTool: Dynamic Tool Selection and Integration for Agentic Reasoning [79.65732142949014]
エージェント強化学習は、長いチェーン・オブ・シークレット・トラジェクトリを通して推論するために進歩した大規模言語モデル(LLM)である。
既存のアプローチでは、LLMエージェントの適応性を新しいツールセットや進化するツールセットに制限する、固定されたツールの在庫を前提としている。
本稿では, LLMエージェントに動的ツール選択機能を持たせるためのフレームワークであるAutoToolについて述べる。
論文 参考訳(メタデータ) (2025-12-15T12:38:04Z) - TRAJECT-Bench:A Trajectory-Aware Benchmark for Evaluating Agentic Tool Use [74.47746287181383]
大規模言語モデル(LLM)ベースのエージェントは、現実のタスクを完了するためのツールの使用にますます依存している。
LLMのツール使用能力を総合的に評価するためのトラジェクトリ対応ベンチマークであるTRAJECT-Benchを紹介する。
論文 参考訳(メタデータ) (2025-10-06T07:30:25Z) - RLFactory: A Plug-and-Play Reinforcement Learning Post-Training Framework for LLM Multi-Turn Tool-Use [50.52940111891476]
大きな言語モデルは基本的な推論では優れているが、外部ツールとのインタラクションを必要とするタスクには苦労する。
マルチラウンドツール用プラグイン・アンド・プレイ強化学習フレームワークであるRLFactoryを提案する。
論文 参考訳(メタデータ) (2025-08-31T16:47:31Z) - Advancing Tool-Augmented Large Language Models via Meta-Verification and Reflection Learning [63.2198957755528]
本稿では,2つの重要なイノベーションを通じてシステム2推論を包括的に行う新しいツール拡張LDMであるTool-MVRを提案する。
具体的には、まず、API、クエリ、推論トラジェクトリを厳格に検証する体系的なパイプラインであるMulti-Agent Meta-Verification(MAMV)を紹介します。
第2に,ツールフィードバックを活用することで,ツールのリフレクション機能を向上させるExploration-based Reflection Learning (EXPLORE)を提案する。
論文 参考訳(メタデータ) (2025-06-05T04:35:49Z) - MCP-Zero: Active Tool Discovery for Autonomous LLM Agents [13.005899769943442]
ツール発見の自律性を LLM 自体に復元する,アクティブエージェントフレームワークである MCP-Zero を紹介する。
すべての利用可能なツールで圧倒的なモデルを使用する代わりに、CP-Zeroはエージェントが能率ギャップを積極的に識別し、特定のツールをオンデマンドで要求することを可能にする。
公式の Model-Context-Protocol リポジトリから 308 の MCP サーバと 2,797 ツールの包括的なデータセットである MCP-tools を構築した。
論文 参考訳(メタデータ) (2025-06-01T15:48:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。