Fugu-MT 論文翻訳(概要): RouterBench: A Benchmark for Multi-LLM Routing System

論文の概要: RouterBench: A Benchmark for Multi-LLM Routing System

arxiv url: http://arxiv.org/abs/2403.12031v2
Date: Thu, 28 Mar 2024 17:56:28 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-29 20:33:12.776830
Title: RouterBench: A Benchmark for Multi-LLM Routing System
Title（参考訳）: RouterBench: マルチLLMルーティングシステムのベンチマーク
Authors: Qitian Jason Hu, Jacob Bieker, Xiuyu Li, Nan Jiang, Benjamin Keigwin, Gaurav Ranganath, Kurt Keutzer, Shriyash Kaustubh Upadhyay,
Abstract要約: パフォーマンスとコストのバランスをとる場合、すべてのタスクやアプリケーションに最適に対処できるモデルは存在しない。この制限により、個々のLSMの制約を克服するために、様々なモデルの強みを組み合わせたLSMルーティングシステムの開発に繋がった。本稿では LLM ルーティングシステムの有効性を体系的に評価する新しい評価フレームワークである RouterBench を提案する。
参考スコア（独自算出の注目度）: 25.515453832224804
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: As the range of applications for Large Language Models (LLMs) continues to grow, the demand for effective serving solutions becomes increasingly critical. Despite the versatility of LLMs, no single model can optimally address all tasks and applications, particularly when balancing performance with cost. This limitation has led to the development of LLM routing systems, which combine the strengths of various models to overcome the constraints of individual LLMs. Yet, the absence of a standardized benchmark for evaluating the performance of LLM routers hinders progress in this area. To bridge this gap, we present RouterBench, a novel evaluation framework designed to systematically assess the efficacy of LLM routing systems, along with a comprehensive dataset comprising over 405k inference outcomes from representative LLMs to support the development of routing strategies. We further propose a theoretical framework for LLM routing, and deliver a comparative analysis of various routing approaches through RouterBench, highlighting their potentials and limitations within our evaluation framework. This work not only formalizes and advances the development of LLM routing systems but also sets a standard for their assessment, paving the way for more accessible and economically viable LLM deployments. The code and data are available at https://github.com/withmartian/routerbench.
Abstract（参考訳）: 大規模言語モデル(LLM)のアプリケーションの範囲が拡大し続けており、効果的なサービスソリューションの需要がますます重要になっている。 LLMの汎用性にもかかわらず、特にパフォーマンスとコストのバランスをとる場合、すべてのタスクやアプリケーションに最適なモデルが存在しない。この制限により、個々のLSMの制約を克服するために、様々なモデルの強みを組み合わせたLSMルーティングシステムの開発に繋がった。しかし,LLMルータの性能評価のための標準ベンチマークが欠如していることは,この分野の進歩を妨げている。このギャップを埋めるため、LuterBenchは、LLMルーティングシステムの有効性を体系的に評価する新しい評価フレームワークである。さらに, LLMルーティングの理論的枠組みを提案し, RouterBench による様々なルーティング手法の比較分析を行い, 評価フレームワークにおけるその可能性と限界を強調した。この作業は、LLMルーティングシステムの開発を形式化し、前進させるだけでなく、その評価基準を設定し、よりアクセスしやすく、経済的に実行可能なLLMデプロイメントの道を開く。コードとデータはhttps://github.com/withmartian/routerbench.comで公開されている。

関連論文リスト

INFERENCEDYNAMICS: Efficient Routing Across LLMs through Structured Capability and Knowledge Profiling [44.309917620936474]
InferenceDynamicsは、モデルの能力と知識をモデル化することによって、柔軟でスケーラブルな多次元ルーティングフレームワークである。包括的データセットであるRouteMixで運用し、グループレベルのルーティングの有効性と一般化性を実証する。
論文参考訳（メタデータ） (2025-05-22T06:56:51Z)
Option Discovery Using LLM-guided Semantic Hierarchical Reinforcement Learning [16.654435148168172]
大規模言語モデル(LLM)は、推論と意思決定において顕著な将来性を示している。サンプル効率,一般化,マルチタスク適応性を向上させるため,LDSCと呼ばれるLCM誘導階層型RLフレームワークを提案する。
論文参考訳（メタデータ） (2025-03-24T15:49:56Z)
RouterEval: A Comprehensive Benchmark for Routing LLMs to Explore Model-level Scaling Up in LLMs [44.273794030829556]
本稿では,12のLLM評価に対して20,000,000以上のパフォーマンス記録を含むルータ研究のベンチマークであるLuterEvalを紹介する。 RouterEvalを用いることで、既存のRouting LLM手法の広範な評価により、ほとんどの場合改善の余地があることが分かる。
論文参考訳（メタデータ） (2025-03-08T04:07:07Z)
Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文参考訳（メタデータ） (2025-02-17T18:49:25Z)
Universal Model Routing for Efficient LLM Inference [72.65083061619752]
我々は,これまで観測されていなかった新しいLLMがテスト時に利用可能となる動的ルーティングの問題を考察する。本稿では,各LSMを特徴ベクトルとして表現する手法を提案する。これらの戦略が理論的に最適なルーティングルールの推定であり、エラーを定量化するための過剰なリスクを提供する。
論文参考訳（メタデータ） (2025-02-12T20:30:28Z)
Doing More with Less: A Survey on Routing Strategies for Resource Optimisation in Large Language Model-Based Systems [1.430963201405577]
LLM(Large Language Model)ベースのシステムは、通常、すべてのユーザクエリを処理するために単一の汎用LLMで設計される。これらのシステムは、異なるクエリが異なるレベルの推論、ドメイン知識、または前処理を必要とするため、非効率である可能性がある。したがって、より小さなまたは特殊なモデルなど、より適切なコンポーネントにクエリをルーティングするためにルーティングメカニズムを使用することができる。
論文参考訳（メタデータ） (2025-02-01T12:08:38Z)
Robust Planning with Compound LLM Architectures: An LLM-Modulo Approach [17.888087571630933]
以前の作業では、計画とスケジューリングタスクにおいて、LLM(Large Language Model)のパフォーマンスを向上しようと試みていた。 LLM-Modulo フレームワークを用いた複合 LLM アーキテクチャの技術的評価を行う。
論文参考訳（メタデータ） (2024-11-20T02:04:09Z)
Revisiting SLO and Goodput Metrics in LLM Serving [17.777554083636716]
サービスレベル目標(SLO)と出力-LLMサービスの性能を評価するために、1秒あたりのSLOを満たす要求数を導入します。既存のメトリクスは、ユーザーエクスペリエンスの性質を捉えていない。本稿では,ユーザエクスペリエンスの性質を反映したSLOとグッドプットを含む,統一されたメトリクスフレームワークスムーズなグッドプットを提案する。
論文参考訳（メタデータ） (2024-10-18T08:05:37Z)
Embodied Agent Interface: Benchmarking LLMs for Embodied Decision Making [85.24399869971236]
我々は,大規模言語モデル(LLM)を具体的意思決定のために評価することを目指している。既存の評価は最終的な成功率にのみ依存する傾向がある。本稿では,様々なタスクの形式化を支援する汎用インタフェース (Embodied Agent Interface) を提案する。
論文参考訳（メタデータ） (2024-10-09T17:59:00Z)
ScaleLLM: A Resource-Frugal LLM Serving Framework by Optimizing End-to-End Efficiency [20.33467627548677]
大規模言語モデル(LLM)は人気が高まり、商用アプリケーションで広く使われている。 LLMサービスシステムにおいて、エンドツーエンドのレイテンシに影響を及ぼす大きなボトルネックを特定するために、詳細な分析を行う。次に,資源効率の高いLLMサービスのための最適化システムであるScaleLLMを提案する。
論文参考訳（メタデータ） (2024-07-23T23:37:29Z)
Efficient Prompting for LLM-based Generative Internet of Things [88.84327500311464]
大規模言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示しており、最近、IoT(Internet of Things)アプリケーションにLLMの能力を統合することが研究の注目を集めている。セキュリティ上の懸念から、多くの機関は最先端の商用LLMサービスへのアクセスを避け、ローカルネットワーク環境でのオープンソースLLMのデプロイと利用を必要としている。本研究では,LLMを用いた生成IoT(Generative IoT)システムを提案する。
論文参考訳（メタデータ） (2024-06-14T19:24:00Z)
From Words to Actions: Unveiling the Theoretical Underpinnings of LLM-Driven Autonomous Systems [59.40480894948944]
大規模言語モデル (LLM) は、物理世界の意思決定問題を解くことができる。このモデルの下で、LLM Plannerは、プロンプトを介して言語ベースのサブゴールを反復的に生成することにより、部分的に観測可能なマルコフ決定プロセス(POMDP)をナビゲートする。我々は,事前学習したLLMプランナーが,文脈内学習を通じてベイズ的集計模倣学習(BAIL)を効果的に行うことを証明した。
論文参考訳（メタデータ） (2024-05-30T09:42:54Z)
An Embarrassingly Simple Approach for LLM with Strong ASR Capacity [56.30595787061546]
我々は,音声基礎エンコーダと大規模言語モデル(LLM)を用いて,音声処理の分野で最も重要な課題の1つを解決することに注力する。最近の研究は、音声エンコーダの出力を時間的に圧縮したり、プロジェクタのモーダルアライメントに対処したり、LLMのパラメータ効率の良い微調整を利用するといった複雑な設計をしている。そこで本研究では,市販の音声エンコーダLLMと,トレーニング可能な唯一の線形プロジェクタの単純な構成がASRタスクに適しているのに対して,繊細な設計は必要ないことを発見した。
論文参考訳（メタデータ） (2024-02-13T23:25:04Z)
Knowledge Fusion of Large Language Models [73.28202188100646]
本稿では,大規模言語モデル(LLM)における知識融合の概念を紹介する。我々は、それらの集合的知識と独特な強みを外部化し、それによってターゲットモデルの能力が、どのソースLLMよりも高められるようにします。この結果から,LLMの融合により,推論やコモンセンス,コード生成など,対象モデルの性能が向上することが確認された。
論文参考訳（メタデータ） (2024-01-19T05:02:46Z)
FederatedScope-LLM: A Comprehensive Package for Fine-tuning Large Language Models in Federated Learning [70.38817963253034]
本稿では, ファインチューニング LLM のこれらの課題について論じ, 本パッケージ FS-LLM を主な貢献として紹介する。我々は、FLシナリオにおける将来の拡張のために、包括的フェデレーションパラメータ効率の良い微調整アルゴリズムの実装と汎用プログラミングインタフェースを提供する。本研究では, FS-LLM の有効性を検証し, FL 設定におけるパラメータ効率の高いパラメータ調整アルゴリズムを用いて, 高度な LLM のベンチマークを行う。
論文参考訳（メタデータ） (2023-09-01T09:40:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。