論文の概要: TwinRouterBench: Fast Static and Live Dynamic Evaluation for Realistic Agentic LLM Routing
- arxiv url: http://arxiv.org/abs/2605.18859v1
- Date: Thu, 14 May 2026 08:58:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:08.678226
- Title: TwinRouterBench: Fast Static and Live Dynamic Evaluation for Realistic Agentic LLM Routing
- Title(参考訳): TwinRouterBench:リアルエージェントLSMルーティングのための高速静的およびライブ動的評価
- Authors: Pei Yang, Wanyi Chen, Tongyun Yang, Pengbin Feng, Jiarong Xing, Wentao Guo, Yuhang Yao, Yuhang Han, Hanchen Li, Xu Wang, Zeyu Wang, Jie Xiao, Anjie Yang, Liang Tian, Lynn Ai, Eric Yang, Tianyu Shi,
- Abstract要約: 2トラックのステップレベルのルーティングベンチマークであるTwinBenchを紹介した。
静的トラックは、SWE-bench、BFCL、mtRAG、QMSum、PinchBenchの520インスタンスから970のルータ可視プレフィックスを提供する。
ダイナミックトラックは、500ケースのSWE-bench Verifiedスイートでルーターを走らせるハーネスを提供する。
- 参考スコア(独自算出の注目度): 24.63595849324157
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LLM routing matters most in long-horizon applications such as coding agents, deep research systems, and computer-use agents, where a single user request triggers many model calls. Routing each call to the cheapest sufficient model can cut costs without sacrificing quality, yet existing router benchmarks evaluate routers only on one-shot prompts. They never expose the router-visible prefix at an intermediate agent step, never test whether a cheaper replacement preserves downstream task success, and often rely on online LLM judges at evaluation time. We introduce TwinRouterBench, a step-level routing benchmark with two tracks. The static track provides 970 router-visible prefixes from 520 instances across SWE-bench, BFCL, mtRAG, QMSum, and PinchBench, each paired with an execution-verified target tier estimated under a released downgrade-and-cascade protocol; scoring is deterministic arithmetic over tier labels, trajectory membership, and token costs, with no online evaluator-side LLM judge. The dynamic track supplies a harness that runs routers on the full 500-case SWE-bench Verified suite; in this paper we report a 100-case held-out evaluation disjoint from the static SWE supervision split. At each LLM call the router selects a concrete model from a locked pool, and success is measured by official task resolution and realized API spend. The two tracks support fast offline iteration followed by end-to-end validation under live agent execution. Code and data are available at https://github.com/CommonstackAI/TwinRouterBench.
- Abstract(参考訳): LLMルーティングは、コーディングエージェント、ディープリサーチシステム、コンピュータ使用エージェントなど、多くのモデル呼び出しを単一ユーザ要求でトリガーする長期的アプリケーションにおいて、最も重要である。
各呼び出しを最も安価なモデルにルーティングすることで、品質を犠牲にすることなくコストを削減することができるが、既存のルータベンチマークでは、ルータをワンショットプロンプトでのみ評価している。
彼らは中間エージェントのステップでルータ可視のプレフィックスを公開することはなく、安価な代替品が下流のタスクの成功を保っているかどうかを決してテストせず、しばしば評価時にオンラインLLM審査員に頼っている。
2トラックのステップレベルのルーティングベンチマークであるTwinRouterBenchを紹介した。
静的トラックは、SWE-bench、BFCL、mtRAG、QMSum、PinchBenchの520インスタンスから970個のルータ可視プレフィックスを提供し、それぞれがリリースされたダウングレード・アンド・カスケードプロトコルで推定される実行検証対象層とペアリングする。
ダイナミックトラックは,500ケースのSWEベンチ検証スイート上でルータを動作させるハーネスを提供する。本稿では,静的SWE監視分割から100ケースのホールドアウト評価を報告する。
LLMコール毎に、ルータはロックされたプールから具体的なモデルを選択し、成功は公式のタスク解決とAPI使用量によって測定される。
2つのトラックは高速なオフラインイテレーションをサポートし、続いてライブエージェント実行時のエンドツーエンドのバリデーションをサポートする。
コードとデータはhttps://github.com/CommonstackAI/TwinRouterBench.comで公開されている。
関連論文リスト
- R2V Agent: Teaching SLMs When to Ask for Help [13.959667066774124]
対話型エージェントのためのリスク校正型SLM-LLMルーティングフレームワークである textbfR2V-Agent を紹介する。
R2Vは、蒸留された小型言語モデル (SLM) ポリシー、より強力な教師 LLM、各ステップで候補アクションをスコアする軽量プロセス検証器、およびキャリブレーションされたステップレベルのルータの4つのコンポーネントを組み合わせている。
論文 参考訳(メタデータ) (2026-05-15T20:10:24Z) - When Are Experts Misrouted? Counterfactual Routing Analysis in Mixture-of-Experts Language Models [27.942734943134983]
Mixture-of-Experts (MoE)言語モデルは、各トークンを専門家の小さなサブセットにルーティングする。
検証された推論軌道において,各標準経路を同一のトークンに対してサンプル化された等価な代替手段と比較し,実効トークンに割り当てる次の確率でスコアする。
標準ルータは信頼性の高いトークンではルートユーティリティと整合性があるが、ハード推論を駆動する脆弱なトークンでは非形式的である。
論文 参考訳(メタデータ) (2026-05-08T05:26:09Z) - Learning Agent Routing From Early Experience [55.88886987958933]
バウンダリ(Boundary)は、初期の行動経験とルーリック誘導推論を使用して、クエリに直接推論で答えるか、エージェントにエスカレートするかを決定する、トレーニング不要なルーティングフレームワークである。
また, 直接LLM推定よりも28.6%性能が向上し, 予測時間を60.6%短縮することを示した。
論文 参考訳(メタデータ) (2026-05-08T03:18:40Z) - RealRoute: Dynamic Query Routing System via Retrieve-then-Verify Paradigm [19.239852494559212]
予測ルーティングからロバストなRetrieve-then-VerifyメカニズムへパラダイムをシフトするフレームワークであるRealRouteを紹介する。
実験により、RealRouteはマルチホップRag推論タスクにおいて予測ベースラインを大幅に上回ることがわかった。
論文 参考訳(メタデータ) (2026-03-02T17:57:46Z) - LLMRouterBench: A Massive Benchmark and Unified Framework for LLM Routing [44.046399484829635]
大規模言語モデル(LLM)ルーティングは、各クエリをアンサンブルから最も適切なモデルに割り当てる。
LLMルーティングのための大規模ベンチマークおよび統合フレームワークであるLLMBenchを紹介する。
21のデータセットと33のモデルから400K以上のインスタンスで構成されている。
論文 参考訳(メタデータ) (2026-01-12T05:01:15Z) - RCR-Router: Efficient Role-Aware Context Routing for Multi-Agent LLM Systems with Structured Memory [57.449129198822476]
RCRは、マルチエージェント大言語モデル(LLM)システムのためのロールアウェアコンテキストルーティングフレームワークである。
役割とタスクステージに基づいて、各エージェントに対して意味的に関連するメモリサブセットを動的に選択する。
軽量スコアリングポリシは、メモリ選択をガイドし、エージェント出力を共有メモリストアに統合する。
論文 参考訳(メタデータ) (2025-08-06T21:59:34Z) - How Robust Are Router-LLMs? Analysis of the Fragility of LLM Routing Capabilities [62.474732677086855]
大規模言語モデル(LLM)ルーティングは,計算コストと性能のバランスをとる上で重要な戦略である。
DSCベンチマークを提案する: Diverse, Simple, and Categorizedは、幅広いクエリタイプでルータのパフォーマンスを分類する評価フレームワークである。
論文 参考訳(メタデータ) (2025-03-20T19:52:30Z) - MasRouter: Learning to Route LLMs for Multi-Agent Systems [14.029698552632107]
LLM(Large Language Models)をベースとしたマルチエージェントシステムは,LLM機能の境界を推し進めることが実証されている。
現在のルーティング手法は、クエリ毎にLLM選択をカスタマイズすることで、単一エージェントシナリオのオーバーヘッドを効果的に削減する。
まず、MASのすべてのコンポーネントを統一的なルーティングフレームワークに統合するマルチエージェントルーティングシステム(MASR)の問題を紹介する。
Mas is a high-perform, achieve a $1.8%sim8.2%$ improve over the state-of-the-art method on MBPP; 2) Economical, reduce overhead to up 52.07%$ than S.
論文 参考訳(メタデータ) (2025-02-16T14:00:59Z) - Tracking by Instance Detection: A Meta-Learning Approach [99.66119903655711]
本稿では,高性能トラッカー構築のための3段階の原理的手法を提案する。
我々は2つの現代的な検出器であるRetinaNetとFCOSをベースに、Retina-MAMLとFCOS-MAMLという2つのトラッカーを構築した。
両方のトラッカーは40FPSでリアルタイムに動作します。
論文 参考訳(メタデータ) (2020-04-02T05:55:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。