論文の概要: RouterEval: A Comprehensive Benchmark for Routing LLMs to Explore Model-level Scaling Up in LLMs
- arxiv url: http://arxiv.org/abs/2503.10657v2
- Date: Tue, 20 May 2025 14:59:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:51.862848
- Title: RouterEval: A Comprehensive Benchmark for Routing LLMs to Explore Model-level Scaling Up in LLMs
- Title(参考訳): RouterEval: LLMのモデルレベルのスケールアップを探索するための総合ベンチマーク
- Authors: Zhongzhan Huang, Guoming Ling, Yupei Lin, Yandong Chen, Shanshan Zhong, Hefeng Wu, Liang Lin,
- Abstract要約: 大規模言語モデル(LLM)のルーティングにおいて,新しいモデルレベルのスケールアップ現象を示す。
この改善は、プール内の最高のシングルモデルと多くの既存の強力なLCMのパフォーマンスを上回ります。
我々は、ルータ研究に適したベンチマークであるRuterEvalを紹介し、12のLLM評価に対して20,000,000以上のパフォーマンス記録を含む。
- 参考スコア(独自算出の注目度): 45.93874913792025
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Routing large language models (LLMs) is a new paradigm that uses a router to recommend the best LLM from a pool of candidates for a given input. In this paper, our comprehensive analysis with more than 8,500 LLMs reveals a novel model-level scaling up phenomenon in Routing LLMs, i.e., a capable router can significantly enhance the performance of this paradigm as the number of candidates increases. This improvement can even surpass the performance of the best single model in the pool and many existing strong LLMs, confirming it a highly promising paradigm. However, the lack of comprehensive and open-source benchmarks for Routing LLMs has hindered the development of routers. In this paper, we introduce RouterEval, a benchmark tailored for router research, which includes over 200,000,000 performance records for 12 popular LLM evaluations across various areas such as commonsense reasoning, semantic understanding, etc., based on over 8,500 various LLMs. Using RouterEval, extensive evaluations of existing Routing LLM methods reveal that most still have significant room for improvement. See https://github.com/MilkThink-Lab/RouterEval for all data, code and tutorial.
- Abstract(参考訳): 大規模言語モデル(LLM)のルーティングは新しいパラダイムであり、与えられた入力に対して候補のプールから最高のLLMを推薦するためにルータを使用する。
本稿では, 8500 LLM 以上の総合的な解析により, ルーティング LLM における新しいモデルレベルのスケールアップ現象,すなわち, 有能なルータにより, 候補数の増加に伴い, このパラダイムの性能を著しく向上させることができることを示す。
この改善は、プール内の最高のシングルモデルと多くの既存の強力なLCMのパフォーマンスを上回り、非常に有望なパラダイムであることを確認できます。
しかし、ルーティング LLM の包括的なオープンソースベンチマークが欠如しているため、ルータの開発が妨げられている。
本稿では, ルータ研究に適したベンチマークであるRuterEvalを紹介する。このベンチマークには, 8500以上のLLMに基づいて, 常識推論や意味理解など, 様々な分野にまたがる12のLLM評価のための20,000,000以上のパフォーマンス記録が含まれている。
RouterEvalを用いることで、既存のRouting LLM手法の広範な評価により、ほとんどの場合改善の余地があることが分かる。
すべてのデータ、コード、チュートリアルについて、https://github.com/MilkThink-Lab/RouterEvalを参照してください。
関連論文リスト
- How Robust Are Router-LLMs? Analysis of the Fragility of LLM Routing Capabilities [62.474732677086855]
大規模言語モデル(LLM)ルーティングは,計算コストと性能のバランスをとる上で重要な戦略である。
DSCベンチマークを提案する: Diverse, Simple, and Categorizedは、幅広いクエリタイプでルータのパフォーマンスを分類する評価フレームワークである。
論文 参考訳(メタデータ) (2025-03-20T19:52:30Z) - Capability Instruction Tuning: A New Paradigm for Dynamic LLM Routing [64.38277118982698]
LLM(Large Language Models)は、人間のような命令追従能力を示す。
本研究では,各命令に対して最高の性能のLCMをルーティングして,全体的な性能を向上させる方法について検討する。
提案手法は,モデル能力表現,ユーザ命令,性能調査プロンプトを用いて,性能評価を行う機能命令を新たに構築する。
論文 参考訳(メタデータ) (2025-02-24T16:10:53Z) - Universal Model Routing for Efficient LLM Inference [72.65083061619752]
我々は,これまで観測されていなかった新しいLLMがテスト時に利用可能となる動的ルーティングの問題を考察する。
本稿では,各LSMを特徴ベクトルとして表現する手法を提案する。
これらの戦略が理論的に最適なルーティングルールの推定であり、エラーを定量化するための過剰なリスクを提供する。
論文 参考訳(メタデータ) (2025-02-12T20:30:28Z) - A Comprehensive Analysis on LLM-based Node Classification Algorithms [21.120619437937382]
我々はLarge Language Models (LLMs) を用いたノード分類のための包括的でテストベッドを開発する。
10のデータセット、8つのLLMベースのアルゴリズム、3つの学習パラダイムを含み、新しいメソッドとデータセットで簡単に拡張できるように設計されている。
パフォーマンスに影響を与える重要な設定を決定するために、広範な実験、トレーニング、および2200以上のモデルの評価を行います。
その結果, LLM法は半教師付き環境で従来の手法を著しく上回り, その利点は教師付き環境ではごくわずかである,という8つの知見が得られた。
論文 参考訳(メタデータ) (2025-02-02T15:56:05Z) - RouterDC: Query-Based Router by Dual Contrastive Learning for Assembling Large Language Models [24.113223576205932]
この結果から,Dual Contrastive Learning (DC) による問合せベースのルータが大規模言語モデル (LLM) の組み立てに有効であることを示す。
DC は LLM を組み立てるのに有効であり、個々のトップパフォーマンスの LLM と、分布内および分布外の両方のタスクにおける既存のルーティング方法に大きく勝る。
論文 参考訳(メタデータ) (2024-09-30T02:31:40Z) - TensorOpera Router: A Multi-Model Router for Efficient LLM Inference [27.2803289964386]
TO-lemmaはモノリシックなLLMクエリシステムである。
様々なLLM専門家をシームレスに単一のクエリインターフェースに統合する。
クエリの要求に基づいて、入力クエリを最も高性能な専門家に動的にルーティングする。
論文 参考訳(メタデータ) (2024-08-22T11:57:07Z) - RouterBench: A Benchmark for Multi-LLM Routing System [25.515453832224804]
パフォーマンスとコストのバランスをとる場合、すべてのタスクやアプリケーションに最適に対処できるモデルは存在しない。
この制限により、個々のLSMの制約を克服するために、様々なモデルの強みを組み合わせたLSMルーティングシステムの開発に繋がった。
本稿では LLM ルーティングシステムの有効性を体系的に評価する新しい評価フレームワークである RouterBench を提案する。
論文 参考訳(メタデータ) (2024-03-18T17:59:04Z) - LLMRec: Benchmarking Large Language Models on Recommendation Task [54.48899723591296]
推奨領域におけるLarge Language Models (LLMs) の適用について, 十分に検討されていない。
我々は、評価予測、シーケンシャルレコメンデーション、直接レコメンデーション、説明生成、レビュー要約を含む5つのレコメンデーションタスクにおいて、市販のLLMをベンチマークする。
ベンチマークの結果,LLMは逐次的・直接的推薦といった精度に基づくタスクにおいて適度な熟練度しか示さないことがわかった。
論文 参考訳(メタデータ) (2023-08-23T16:32:54Z) - LVLM-eHub: A Comprehensive Evaluation Benchmark for Large
Vision-Language Models [55.304181390027274]
本稿では,LVLM評価ハブ(LVLM-eHub)の構築により,一般公開された大規模マルチモーダルモデルの包括的評価を行う。
我々のLVLM-eHubは、InstructBLIPやMiniGPT-4などの代表的LVLMから成り、定量的能力評価とオンラインアリーナプラットフォームによって徹底的に評価されている。
この研究は、いくつかの革新的な発見を明らかにしている。まず、インストラクタBLIPのような膨大なドメイン内データを持つ命令調整型LVLMは、多くの既存のタスクを過度にオーバーフィットさせ、オープンワールドのシナリオでは一般化が不十分である。
論文 参考訳(メタデータ) (2023-06-15T16:39:24Z) - LLM-Adapters: An Adapter Family for Parameter-Efficient Fine-Tuning of
Large Language Models [75.25782573728677]
本稿では,言語モデル(LLM)のPEFT(Adapter-based parameter- efficient fine-tuning)のためのフレームワークを提案する。
このフレームワークには、LLaMA、BLOOM、GPT-Jといった最先端のオープンアクセスLLMや、シリーズアダプタ、パラレルアダプタ、Promptベースの学習、Reparametrizationベースのメソッドなどの広く使われているアダプタが含まれている。
本研究では,2つの異なる推論タスク,算術的推論と常識推論の14種類のデータセットに対するアダプタの有効性を評価する。
論文 参考訳(メタデータ) (2023-04-04T16:31:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。