論文の概要: RouterArena: An Open Platform for Comprehensive Comparison of LLM Routers
- arxiv url: http://arxiv.org/abs/2510.00202v1
- Date: Tue, 30 Sep 2025 19:22:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.2242
- Title: RouterArena: An Open Platform for Comprehensive Comparison of LLM Routers
- Title(参考訳): RouterArena: LLMルータの総合的な比較のためのオープンプラットフォーム
- Authors: Yifan Lu, Rixin Liu, Jiayi Yuan, Xingqi Cui, Shenrun Zhang, Hongyi Liu, Jiarong Xing,
- Abstract要約: RouterArenaはLLMルータの包括的な比較を可能にする最初のオープンプラットフォームである。
1)知識領域を網羅したデータセット,(2)ドメイン毎に識別可能な難易度,(3)評価指標の広範なリスト,(4)リーダボード更新の自動フレームワークを備える。
- 参考スコア(独自算出の注目度): 10.361717655638532
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Today's LLM ecosystem comprises a wide spectrum of models that differ in size, capability, and cost. No single model is optimal for all scenarios; hence, LLM routers have become essential for selecting the most appropriate model under varying circumstances. However, the rapid emergence of various routers makes choosing the right one increasingly challenging. To address this problem, we need a comprehensive router comparison and a standardized leaderboard, similar to those available for models. In this work, we introduce RouterArena, the first open platform enabling comprehensive comparison of LLM routers. RouterArena has (1) a principally constructed dataset with broad knowledge domain coverage, (2) distinguishable difficulty levels for each domain, (3) an extensive list of evaluation metrics, and (4) an automated framework for leaderboard updates. Leveraging our framework, we have produced the initial leaderboard with detailed metrics comparison as shown in Figure 1. We will make our platform open to the public soon.
- Abstract(参考訳): 今日のLLMエコシステムは、サイズ、能力、コストの異なる幅広いモデルで構成されています。
一つのモデルがすべてのシナリオに最適ではないため、LLMルータは様々な状況下で最も適切なモデルを選択するのに欠かせないものとなっている。
しかし、様々なルータの急速な出現により、正しいルータを選択することはますます困難になっている。
この問題に対処するためには、包括的なルータ比較と標準のリーダーボードが必要です。
本研究では, LLMルータを包括的に比較可能な初のオープンプラットフォームである RouterArena を紹介する。
RouterArenaは,(1)知識領域の範囲が広く構築されたデータセット,(2)ドメイン毎に識別可能な難易度,(3)評価指標の広範なリスト,(4)リーダボード更新の自動フレームワークを備えている。
フレームワークを活用して、図1に示すように、詳細なメトリクス比較で最初のリーダーボードを作成しました。
私たちはすぐにプラットフォームを一般公開します。
関連論文リスト
- RCR-Router: Efficient Role-Aware Context Routing for Multi-Agent LLM Systems with Structured Memory [57.449129198822476]
RCRは、マルチエージェント大言語モデル(LLM)システムのためのロールアウェアコンテキストルーティングフレームワークである。
役割とタスクステージに基づいて、各エージェントに対して意味的に関連するメモリサブセットを動的に選択する。
軽量スコアリングポリシは、メモリ選択をガイドし、エージェント出力を共有メモリストアに統合する。
論文 参考訳(メタデータ) (2025-08-06T21:59:34Z) - Router-R1: Teaching LLMs Multi-Round Routing and Aggregation via Reinforcement Learning [12.878608250420832]
マルチLLMルーティングとアグリゲーションを逐次決定プロセスとして定式化する強化学習フレームワークである textbf Generalization-R1 を提案する。
学習を容易にするために,形式報酬と最終結果報酬と,性能とコストのバランスを最適化するための新たなコスト報酬からなる軽量なルールベース報酬を用いる。
論文 参考訳(メタデータ) (2025-06-10T17:56:45Z) - How Robust Are Router-LLMs? Analysis of the Fragility of LLM Routing Capabilities [62.474732677086855]
大規模言語モデル(LLM)ルーティングは,計算コストと性能のバランスをとる上で重要な戦略である。
DSCベンチマークを提案する: Diverse, Simple, and Categorizedは、幅広いクエリタイプでルータのパフォーマンスを分類する評価フレームワークである。
論文 参考訳(メタデータ) (2025-03-20T19:52:30Z) - RouterEval: A Comprehensive Benchmark for Routing LLMs to Explore Model-level Scaling Up in LLMs [45.93874913792025]
大規模言語モデル(LLM)のルーティングにおいて,新しいモデルレベルのスケールアップ現象を示す。
この改善は、プール内の最高のシングルモデルと多くの既存の強力なLCMのパフォーマンスを上回ります。
我々は、ルータ研究に適したベンチマークであるRuterEvalを紹介し、12のLLM評価に対して20,000,000以上のパフォーマンス記録を含む。
論文 参考訳(メタデータ) (2025-03-08T04:07:07Z) - Universal Model Routing for Efficient LLM Inference [69.86195589350264]
モデルルーティングは,大規模言語モデル(LLM)の推論コストを削減する手法である
動的ルーティング問題に対する新しいアプローチであるUniRouteを提案する。
これらは理論的に最適なルーティングルールの推定であり、過大なリスクバウンドによってそれらのエラーを定量化する。
論文 参考訳(メタデータ) (2025-02-12T20:30:28Z) - RouterDC: Query-Based Router by Dual Contrastive Learning for Assembling Large Language Models [24.113223576205932]
この結果から,Dual Contrastive Learning (DC) による問合せベースのルータが大規模言語モデル (LLM) の組み立てに有効であることを示す。
DC は LLM を組み立てるのに有効であり、個々のトップパフォーマンスの LLM と、分布内および分布外の両方のタスクにおける既存のルーティング方法に大きく勝る。
論文 参考訳(メタデータ) (2024-09-30T02:31:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。