論文の概要: LLMRouterBench: A Massive Benchmark and Unified Framework for LLM Routing
- arxiv url: http://arxiv.org/abs/2601.07206v1
- Date: Mon, 12 Jan 2026 05:01:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.218052
- Title: LLMRouterBench: A Massive Benchmark and Unified Framework for LLM Routing
- Title(参考訳): LLMRouterBench - LLMルーティングのための大規模ベンチマークと統一フレームワーク
- Authors: Hao Li, Yiqun Zhang, Zhaoyan Guo, Chenxu Wang, Shengji Tang, Qiaosheng Zhang, Yang Chen, Biqing Qi, Peng Ye, Lei Bai, Zhen Wang, Shuyue Hu,
- Abstract要約: 大規模言語モデル(LLM)ルーティングは、各クエリをアンサンブルから最も適切なモデルに割り当てる。
LLMルーティングのための大規模ベンチマークおよび統合フレームワークであるLLMBenchを紹介する。
21のデータセットと33のモデルから400K以上のインスタンスで構成されている。
- 参考スコア(独自算出の注目度): 44.046399484829635
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language model (LLM) routing assigns each query to the most suitable model from an ensemble. We introduce LLMRouterBench, a large-scale benchmark and unified framework for LLM routing. It comprises over 400K instances from 21 datasets and 33 models. Moreover, it provides comprehensive metrics for both performance-oriented routing and performance-cost trade-off routing, and integrates 10 representative routing baselines. Using LLMRouterBench, we systematically re-evaluate the field. While confirming strong model complementarity-the central premise of LLM routing-we find that many routing methods exhibit similar performance under unified evaluation, and several recent approaches, including commercial routers, fail to reliably outperform a simple baseline. Meanwhile, a substantial gap remains to the Oracle, driven primarily by persistent model-recall failures. We further show that backbone embedding models have limited impact, that larger ensembles exhibit diminishing returns compared to careful model curation, and that the benchmark also enables latency-aware analysis. All code and data are available at https://github.com/ynulihao/LLMRouterBench.
- Abstract(参考訳): 大規模言語モデル(LLM)ルーティングは、各クエリをアンサンブルから最も適切なモデルに割り当てる。
LLMルーティングのための大規模ベンチマークと統合フレームワークであるLLMRouterBenchを紹介する。
21のデータセットと33のモデルから400K以上のインスタンスで構成されている。
さらに、パフォーマンス指向のルーティングとパフォーマンスコストのトレードオフルーティングの両方に包括的なメトリクスを提供し、10の代表的なルーティングベースラインを統合している。
LLMRouterBenchを用いて、フィールドを体系的に再評価する。
LLMルーティングの中心的前提である強いモデルの相補性を確認する一方で、多くのルーティング手法は統一された評価の下で同様の性能を示しており、商用ルータを含む最近のいくつかのアプローチは、単純なベースラインを確実に上回ることができない。
一方、Oracleには、主に永続的なモデル-リコールの失敗によって、大きなギャップが残っている。
さらに、バックボーン埋め込みモデルには影響が限定されていること、より大規模なアンサンブルが、慎重なモデルキュレーションよりも低いリターンを示すこと、また、ベンチマークが遅延認識分析を可能にすること、などが示される。
すべてのコードとデータはhttps://github.com/ynulihao/LLMRouterBench.comで入手できる。
関連論文リスト
- RCR-Router: Efficient Role-Aware Context Routing for Multi-Agent LLM Systems with Structured Memory [57.449129198822476]
RCRは、マルチエージェント大言語モデル(LLM)システムのためのロールアウェアコンテキストルーティングフレームワークである。
役割とタスクステージに基づいて、各エージェントに対して意味的に関連するメモリサブセットを動的に選択する。
軽量スコアリングポリシは、メモリ選択をガイドし、エージェント出力を共有メモリストアに統合する。
論文 参考訳(メタデータ) (2025-08-06T21:59:34Z) - Router-R1: Teaching LLMs Multi-Round Routing and Aggregation via Reinforcement Learning [27.70756702796812]
マルチLLMルーティングとアグリゲーションを逐次決定プロセスとして定式化する強化学習フレームワークである textbf Generalization-R1 を提案する。
学習を容易にするために,形式報酬と最終結果報酬と,性能とコストのバランスを最適化するための新たなコスト報酬からなる軽量なルールベース報酬を用いる。
論文 参考訳(メタデータ) (2025-06-10T17:56:45Z) - Universal Model Routing for Efficient LLM Inference [69.86195589350264]
モデルルーティングは,大規模言語モデル(LLM)の推論コストを削減する手法である
動的ルーティング問題に対する新しいアプローチであるUniRouteを提案する。
これらは理論的に最適なルーティングルールの推定であり、過大なリスクバウンドによってそれらのエラーを定量化する。
論文 参考訳(メタデータ) (2025-02-12T20:30:28Z) - RouterBench: A Benchmark for Multi-LLM Routing System [25.515453832224804]
パフォーマンスとコストのバランスをとる場合、すべてのタスクやアプリケーションに最適に対処できるモデルは存在しない。
この制限により、個々のLSMの制約を克服するために、様々なモデルの強みを組み合わせたLSMルーティングシステムの開発に繋がった。
本稿では LLM ルーティングシステムの有効性を体系的に評価する新しい評価フレームワークである RouterBench を提案する。
論文 参考訳(メタデータ) (2024-03-18T17:59:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。