論文の概要: RouterBench: A Benchmark for Multi-LLM Routing System
- arxiv url: http://arxiv.org/abs/2403.12031v2
- Date: Thu, 28 Mar 2024 17:56:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-29 20:33:12.776830
- Title: RouterBench: A Benchmark for Multi-LLM Routing System
- Title(参考訳): RouterBench: マルチLLMルーティングシステムのベンチマーク
- Authors: Qitian Jason Hu, Jacob Bieker, Xiuyu Li, Nan Jiang, Benjamin Keigwin, Gaurav Ranganath, Kurt Keutzer, Shriyash Kaustubh Upadhyay,
- Abstract要約: パフォーマンスとコストのバランスをとる場合、すべてのタスクやアプリケーションに最適に対処できるモデルは存在しない。
この制限により、個々のLSMの制約を克服するために、様々なモデルの強みを組み合わせたLSMルーティングシステムの開発に繋がった。
本稿では LLM ルーティングシステムの有効性を体系的に評価する新しい評価フレームワークである RouterBench を提案する。
- 参考スコア(独自算出の注目度): 25.515453832224804
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As the range of applications for Large Language Models (LLMs) continues to grow, the demand for effective serving solutions becomes increasingly critical. Despite the versatility of LLMs, no single model can optimally address all tasks and applications, particularly when balancing performance with cost. This limitation has led to the development of LLM routing systems, which combine the strengths of various models to overcome the constraints of individual LLMs. Yet, the absence of a standardized benchmark for evaluating the performance of LLM routers hinders progress in this area. To bridge this gap, we present RouterBench, a novel evaluation framework designed to systematically assess the efficacy of LLM routing systems, along with a comprehensive dataset comprising over 405k inference outcomes from representative LLMs to support the development of routing strategies. We further propose a theoretical framework for LLM routing, and deliver a comparative analysis of various routing approaches through RouterBench, highlighting their potentials and limitations within our evaluation framework. This work not only formalizes and advances the development of LLM routing systems but also sets a standard for their assessment, paving the way for more accessible and economically viable LLM deployments. The code and data are available at https://github.com/withmartian/routerbench.
- Abstract(参考訳): 大規模言語モデル(LLM)のアプリケーションの範囲が拡大し続けており、効果的なサービスソリューションの需要がますます重要になっている。
LLMの汎用性にもかかわらず、特にパフォーマンスとコストのバランスをとる場合、すべてのタスクやアプリケーションに最適なモデルが存在しない。
この制限により、個々のLSMの制約を克服するために、様々なモデルの強みを組み合わせたLSMルーティングシステムの開発に繋がった。
しかし,LLMルータの性能評価のための標準ベンチマークが欠如していることは,この分野の進歩を妨げている。
このギャップを埋めるため、LuterBenchは、LLMルーティングシステムの有効性を体系的に評価する新しい評価フレームワークである。
さらに, LLMルーティングの理論的枠組みを提案し, RouterBench による様々なルーティング手法の比較分析を行い, 評価フレームワークにおけるその可能性と限界を強調した。
この作業は、LLMルーティングシステムの開発を形式化し、前進させるだけでなく、その評価基準を設定し、よりアクセスしやすく、経済的に実行可能なLLMデプロイメントの道を開く。
コードとデータはhttps://github.com/withmartian/routerbench.comで公開されている。
関連論文リスト
- Robust Planning with Compound LLM Architectures: An LLM-Modulo Approach [17.888087571630933]
以前の作業では、計画とスケジューリングタスクにおいて、LLM(Large Language Model)のパフォーマンスを向上しようと試みていた。
LLM-Modulo フレームワークを用いた複合 LLM アーキテクチャの技術的評価を行う。
論文 参考訳(メタデータ) (2024-11-20T02:04:09Z) - Revisiting SLO and Goodput Metrics in LLM Serving [17.777554083636716]
サービスレベル目標(SLO)と出力-LLMサービスの性能を評価するために、1秒あたりのSLOを満たす要求数を導入します。
既存のメトリクスは、ユーザーエクスペリエンスの性質を捉えていない。
本稿では,ユーザエクスペリエンスの性質を反映したSLOとグッドプットを含む,統一されたメトリクスフレームワークスムーズなグッドプットを提案する。
論文 参考訳(メタデータ) (2024-10-18T08:05:37Z) - Embodied Agent Interface: Benchmarking LLMs for Embodied Decision Making [85.24399869971236]
我々は,大規模言語モデル(LLM)を具体的意思決定のために評価することを目指している。
既存の評価は最終的な成功率にのみ依存する傾向がある。
本稿では,様々なタスクの形式化を支援する汎用インタフェース (Embodied Agent Interface) を提案する。
論文 参考訳(メタデータ) (2024-10-09T17:59:00Z) - ScaleLLM: A Resource-Frugal LLM Serving Framework by Optimizing End-to-End Efficiency [20.33467627548677]
大規模言語モデル(LLM)は人気が高まり、商用アプリケーションで広く使われている。
LLMサービスシステムにおいて、エンドツーエンドのレイテンシに影響を及ぼす大きなボトルネックを特定するために、詳細な分析を行う。
次に,資源効率の高いLLMサービスのための最適化システムであるScaleLLMを提案する。
論文 参考訳(メタデータ) (2024-07-23T23:37:29Z) - Efficient Prompting for LLM-based Generative Internet of Things [88.84327500311464]
大規模言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示しており、最近、IoT(Internet of Things)アプリケーションにLLMの能力を統合することが研究の注目を集めている。
セキュリティ上の懸念から、多くの機関は最先端の商用LLMサービスへのアクセスを避け、ローカルネットワーク環境でのオープンソースLLMのデプロイと利用を必要としている。
本研究では,LLMを用いた生成IoT(Generative IoT)システムを提案する。
論文 参考訳(メタデータ) (2024-06-14T19:24:00Z) - From Words to Actions: Unveiling the Theoretical Underpinnings of LLM-Driven Autonomous Systems [59.40480894948944]
大規模言語モデル (LLM) は、物理世界の意思決定問題を解くことができる。
このモデルの下で、LLM Plannerは、プロンプトを介して言語ベースのサブゴールを反復的に生成することにより、部分的に観測可能なマルコフ決定プロセス(POMDP)をナビゲートする。
我々は,事前学習したLLMプランナーが,文脈内学習を通じてベイズ的集計模倣学習(BAIL)を効果的に行うことを証明した。
論文 参考訳(メタデータ) (2024-05-30T09:42:54Z) - An Embarrassingly Simple Approach for LLM with Strong ASR Capacity [56.30595787061546]
我々は,音声基礎エンコーダと大規模言語モデル(LLM)を用いて,音声処理の分野で最も重要な課題の1つを解決することに注力する。
最近の研究は、音声エンコーダの出力を時間的に圧縮したり、プロジェクタのモーダルアライメントに対処したり、LLMのパラメータ効率の良い微調整を利用するといった複雑な設計をしている。
そこで本研究では,市販の音声エンコーダLLMと,トレーニング可能な唯一の線形プロジェクタの単純な構成がASRタスクに適しているのに対して,繊細な設計は必要ないことを発見した。
論文 参考訳(メタデータ) (2024-02-13T23:25:04Z) - Knowledge Fusion of Large Language Models [73.28202188100646]
本稿では,大規模言語モデル(LLM)における知識融合の概念を紹介する。
我々は、それらの集合的知識と独特な強みを外部化し、それによってターゲットモデルの能力が、どのソースLLMよりも高められるようにします。
この結果から,LLMの融合により,推論やコモンセンス,コード生成など,対象モデルの性能が向上することが確認された。
論文 参考訳(メタデータ) (2024-01-19T05:02:46Z) - FederatedScope-LLM: A Comprehensive Package for Fine-tuning Large
Language Models in Federated Learning [70.38817963253034]
本稿では, ファインチューニング LLM のこれらの課題について論じ, 本パッケージ FS-LLM を主な貢献として紹介する。
我々は、FLシナリオにおける将来の拡張のために、包括的フェデレーションパラメータ効率の良い微調整アルゴリズムの実装と汎用プログラミングインタフェースを提供する。
本研究では, FS-LLM の有効性を検証し, FL 設定におけるパラメータ効率の高いパラメータ調整アルゴリズムを用いて, 高度な LLM のベンチマークを行う。
論文 参考訳(メタデータ) (2023-09-01T09:40:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。