論文の概要: RouterEval: A Comprehensive Benchmark for Routing LLMs to Explore Model-level Scaling Up in LLMs
- arxiv url: http://arxiv.org/abs/2503.10657v1
- Date: Sat, 08 Mar 2025 04:07:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 22:04:28.919385
- Title: RouterEval: A Comprehensive Benchmark for Routing LLMs to Explore Model-level Scaling Up in LLMs
- Title(参考訳): RouterEval: LLMのモデルレベルのスケールアップを探索するための総合ベンチマーク
- Authors: Zhongzhan Huang, Guoming Ling, Vincent S. Liang, Yupei Lin, Yandong Chen, Shanshan Zhong, Hefeng Wu, Liang Lin,
- Abstract要約: 本稿では,12のLLM評価に対して20,000,000以上のパフォーマンス記録を含むルータ研究のベンチマークであるLuterEvalを紹介する。
RouterEvalを用いることで、既存のRouting LLM手法の広範な評価により、ほとんどの場合改善の余地があることが分かる。
- 参考スコア(独自算出の注目度): 44.273794030829556
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Routing large language models (LLMs) is a novel paradigm that recommends the most suitable LLM from a pool of candidates to process a given input through a well-designed router. Our comprehensive analysis reveals a model-level scaling-up phenomenon in LLMs, i.e., a capable router can significantly enhance the performance of this paradigm as the number of candidates increases. This improvement can even easily surpass the performance of the best single model in the pool and most existing strong LLMs, making it a highly promising paradigm. However, the lack of comprehensive and open-source benchmarks for Routing LLMs has hindered the development of routers. In this paper, we introduce RouterEval, a benchmark designed specifically for router research, which includes over 200,000,000 performance records for 12 popular LLM evaluations across areas such as knowledge-based Q&A, commonsense reasoning, semantic understanding, mathematical reasoning, and instruction following, based on more than 8,500 LLMs. Using RouterEval, extensive evaluations of existing Routing LLM methods reveal that most still have significant room for improvement. See https://github.com/MilkThink-Lab/RouterEval for all data, code, and tutorials.
- Abstract(参考訳): 大規模言語モデル (LLMs) は、適切に設計されたルータを介して与えられた入力を処理するために、候補のプールから最も適切なLLMを推奨する新しいパラダイムである。
包括的解析により,LSMにおけるモデルレベルのスケールアップ現象が明らかになった。すなわち,有能なルータは,候補数の増加に伴い,このパラダイムの性能を大幅に向上させることができる。
この改善は、プール内の最高のシングルモデルと、既存の強力なLLMのパフォーマンスをはるかに上回ることができ、非常に有望なパラダイムになります。
しかし、ルーティング LLM の包括的なオープンソースベンチマークが欠如しているため、ルータの開発が妨げられている。
本稿では,8500 LLMの知識ベースQ&A,コモンセンス推論,意味理解,数学的推論,命令追従といった分野を対象に,12のLLM評価における20,000,000以上のパフォーマンスレコードを含む,ルータ研究専用のベンチマークであるRouterEvalを紹介する。
RouterEvalを用いることで、既存のRouting LLM手法の広範な評価により、ほとんどの場合改善の余地があることが分かる。
すべてのデータ、コード、チュートリアルについて、https://github.com/MilkThink-Lab/RouterEvalを参照してください。
関連論文リスト
- How Robust Are Router-LLMs? Analysis of the Fragility of LLM Routing Capabilities [62.474732677086855]
大規模言語モデル(LLM)ルーティングは,計算コストと性能のバランスをとる上で重要な戦略である。
DSCベンチマークを提案する: Diverse, Simple, and Categorizedは、幅広いクエリタイプでルータのパフォーマンスを分類する評価フレームワークである。
論文 参考訳(メタデータ) (2025-03-20T19:52:30Z) - Capability Instruction Tuning: A New Paradigm for Dynamic LLM Routing [64.38277118982698]
LLM(Large Language Models)は、人間のような命令追従能力を示す。
本研究では,各命令に対して最高の性能のLCMをルーティングして,全体的な性能を向上させる方法について検討する。
提案手法は,モデル能力表現,ユーザ命令,性能調査プロンプトを用いて,性能評価を行う機能命令を新たに構築する。
論文 参考訳(メタデータ) (2025-02-24T16:10:53Z) - Universal Model Routing for Efficient LLM Inference [72.65083061619752]
我々は,これまで観測されていなかった新しいLLMがテスト時に利用可能となる動的ルーティングの問題を考察する。
本稿では,各LSMを特徴ベクトルとして表現する手法を提案する。
これらの戦略が理論的に最適なルーティングルールの推定であり、エラーを定量化するための過剰なリスクを提供する。
論文 参考訳(メタデータ) (2025-02-12T20:30:28Z) - A Comprehensive Analysis on LLM-based Node Classification Algorithms [21.120619437937382]
我々はLarge Language Models (LLMs) を用いたノード分類のための包括的でテストベッドを開発する。
10のデータセット、8つのLLMベースのアルゴリズム、3つの学習パラダイムを含み、新しいメソッドとデータセットで簡単に拡張できるように設計されている。
パフォーマンスに影響を与える重要な設定を決定するために、広範な実験、トレーニング、および2200以上のモデルの評価を行います。
その結果, LLM法は半教師付き環境で従来の手法を著しく上回り, その利点は教師付き環境ではごくわずかである,という8つの知見が得られた。
論文 参考訳(メタデータ) (2025-02-02T15:56:05Z) - RouterDC: Query-Based Router by Dual Contrastive Learning for Assembling Large Language Models [24.113223576205932]
この結果から,Dual Contrastive Learning (DC) による問合せベースのルータが大規模言語モデル (LLM) の組み立てに有効であることを示す。
DC は LLM を組み立てるのに有効であり、個々のトップパフォーマンスの LLM と、分布内および分布外の両方のタスクにおける既存のルーティング方法に大きく勝る。
論文 参考訳(メタデータ) (2024-09-30T02:31:40Z) - TensorOpera Router: A Multi-Model Router for Efficient LLM Inference [27.2803289964386]
TO-lemmaはモノリシックなLLMクエリシステムである。
様々なLLM専門家をシームレスに単一のクエリインターフェースに統合する。
クエリの要求に基づいて、入力クエリを最も高性能な専門家に動的にルーティングする。
論文 参考訳(メタデータ) (2024-08-22T11:57:07Z) - RouterBench: A Benchmark for Multi-LLM Routing System [25.515453832224804]
パフォーマンスとコストのバランスをとる場合、すべてのタスクやアプリケーションに最適に対処できるモデルは存在しない。
この制限により、個々のLSMの制約を克服するために、様々なモデルの強みを組み合わせたLSMルーティングシステムの開発に繋がった。
本稿では LLM ルーティングシステムの有効性を体系的に評価する新しい評価フレームワークである RouterBench を提案する。
論文 参考訳(メタデータ) (2024-03-18T17:59:04Z) - LLMRec: Benchmarking Large Language Models on Recommendation Task [54.48899723591296]
推奨領域におけるLarge Language Models (LLMs) の適用について, 十分に検討されていない。
我々は、評価予測、シーケンシャルレコメンデーション、直接レコメンデーション、説明生成、レビュー要約を含む5つのレコメンデーションタスクにおいて、市販のLLMをベンチマークする。
ベンチマークの結果,LLMは逐次的・直接的推薦といった精度に基づくタスクにおいて適度な熟練度しか示さないことがわかった。
論文 参考訳(メタデータ) (2023-08-23T16:32:54Z) - LVLM-eHub: A Comprehensive Evaluation Benchmark for Large
Vision-Language Models [55.304181390027274]
本稿では,LVLM評価ハブ(LVLM-eHub)の構築により,一般公開された大規模マルチモーダルモデルの包括的評価を行う。
我々のLVLM-eHubは、InstructBLIPやMiniGPT-4などの代表的LVLMから成り、定量的能力評価とオンラインアリーナプラットフォームによって徹底的に評価されている。
この研究は、いくつかの革新的な発見を明らかにしている。まず、インストラクタBLIPのような膨大なドメイン内データを持つ命令調整型LVLMは、多くの既存のタスクを過度にオーバーフィットさせ、オープンワールドのシナリオでは一般化が不十分である。
論文 参考訳(メタデータ) (2023-06-15T16:39:24Z) - LLM-Adapters: An Adapter Family for Parameter-Efficient Fine-Tuning of
Large Language Models [75.25782573728677]
本稿では,言語モデル(LLM)のPEFT(Adapter-based parameter- efficient fine-tuning)のためのフレームワークを提案する。
このフレームワークには、LLaMA、BLOOM、GPT-Jといった最先端のオープンアクセスLLMや、シリーズアダプタ、パラレルアダプタ、Promptベースの学習、Reparametrizationベースのメソッドなどの広く使われているアダプタが含まれている。
本研究では,2つの異なる推論タスク,算術的推論と常識推論の14種類のデータセットに対するアダプタの有効性を評価する。
論文 参考訳(メタデータ) (2023-04-04T16:31:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。