Fugu-MT 論文翻訳(概要): OmniRouter: Budget and Performance Controllable Multi-LLM Routing

論文の概要: OmniRouter: Budget and Performance Controllable Multi-LLM Routing

arxiv url: http://arxiv.org/abs/2502.20576v5
Date: Sat, 31 May 2025 18:35:45 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-03 16:22:43.144264
Title: OmniRouter: Budget and Performance Controllable Multi-LLM Routing
Title（参考訳）: OmniRouter: 予算とパフォーマンス管理可能なマルチLLMルーティング
Authors: Kai Mei, Wujiang Xu, Shuhang Lin, Yongfeng Zhang,
Abstract要約: 大規模言語モデル(LLM)は優れた性能を提供するが、かなりの計算資源を必要とし、比較的低効率で運用する。マルチLLMサービスのための制御可能なルーティングフレームワークであるOmniを紹介する。実験の結果、Omniは応答精度を最大6.30%改善し、同時に計算コストを少なくとも10.15%削減した。
参考スコア（独自算出の注目度）: 31.60019342381251
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) deliver superior performance but require substantial computational resources and operate with relatively low efficiency, while smaller models can efficiently handle simpler tasks with fewer resources. LLM routing is a crucial paradigm that dynamically selects the most suitable large language models from a pool of candidates to process diverse inputs, ensuring optimal resource utilization while maintaining response quality. Existing routing frameworks typically model this as a locally optimal decision-making problem, selecting the presumed best-fit LLM for each query individually, which overlook global budget constraints, resulting in ineffective resource allocation. To tackle this problem, we introduce OmniRouter, a fundamentally controllable routing framework for multi-LLM serving. Instead of making per-query greedy choices, OmniRouter models the routing task as a constrained optimization problem, assigning models that minimize total cost while ensuring the required performance level. Specifically, a hybrid retrieval-augmented predictor is designed to predict the capabilities and costs of LLMs and a constrained optimizer is employed to control globally optimal query-model allocation. Experiments show that OmniRouter achieves up to 6.30% improvement in response accuracy while simultaneously reducing computational costs by at least 10.15% compared to competitive router baselines. The code and the dataset are available at https://github.com/agiresearch/OmniRouter.
Abstract（参考訳）: 大規模言語モデル(LLM)は優れた性能を提供するが、かなりの計算資源を必要とし、比較的低効率で運用する。 LLMルーティングは、様々な入力を処理するために候補から最も適した大規模言語モデルを動的に選択し、応答品質を維持しながら最適な資源利用を確保する重要なパラダイムである。既存のルーティングフレームワークは、これを局所的に最適な意思決定問題としてモデル化し、各クエリーに最適なLLMを個別に選択する。この問題に対処するために,マルチLLMサービスのための基本制御可能なルーティングフレームワークであるOmniRouterを紹介する。 OmniRouterは、クエリごとのgreedyの選択を行う代わりに、ルーティングタスクを制約付き最適化問題としてモデル化し、必要なパフォーマンスレベルを確保しながら、総コストを最小化するモデルを割り当てる。具体的には、LLMの能力とコストを予測するためにハイブリッド検索拡張予測器を設計し、グローバルに最適なクエリモデルアロケーションを制御するために制約付きオプティマイザを用いる。実験の結果、OmniRouterは最大6.30%の応答精度の向上を実現し、同時に計算コストを競合するルータベースラインに比べて少なくとも10.15%削減した。コードとデータセットはhttps://github.com/agiresearch/OmniRouter.comで公開されている。

関連論文リスト

RCR-Router: Efficient Role-Aware Context Routing for Multi-Agent LLM Systems with Structured Memory [57.449129198822476]
RCRは、マルチエージェント大言語モデル(LLM)システムのためのロールアウェアコンテキストルーティングフレームワークである。役割とタスクステージに基づいて、各エージェントに対して意味的に関連するメモリサブセットを動的に選択する。軽量スコアリングポリシは、メモリ選択をガイドし、エージェント出力を共有メモリストアに統合する。
論文参考訳（メタデータ） (2025-08-06T21:59:34Z)
RadialRouter: Structured Representation for Efficient and Robust Large Language Models Routing [31.446419903916425]
Radialは、大規模言語モデルのルーティングのための新しいフレームワークである。 RadialFormerという名前のラジアル構造を持つ軽量なTransformerベースのバックボーンを使用して、クエリとLLMの関係を明確にする。バランシングとコストファーストのシナリオでは、既存のルーティングメソッドの9.2%と5.8%を大きく上回っている。
論文参考訳（メタデータ） (2025-06-04T12:16:41Z)
LightRouter: Towards Efficient LLM Collaboration with Minimal Overhead [19.573553157421774]
Lightは、より大きなプールからLLMの小さなサブセットを体系的に選択、統合するために設計された新しいフレームワークである。実験によると、光は広く使われているアンサンブルのベースラインと一致し、25%の精度向上を実現している。本研究は、効率的なLCM選択のための実践的なアプローチを導入し、モデル組み合わせのための最適な戦略に関する貴重な洞察を提供する。
論文参考訳（メタデータ） (2025-05-22T04:46:04Z)
Cost-Optimal Grouped-Query Attention for Long-Context LLMs [64.90662568387683]
効率的なTransformerベースの大規模言語モデル(LLM)の構築が最近研究の焦点となっている。モデル性能,計算コスト,メモリコストの面で,パラメータサイズ,コンテキスト長,アテンションヘッド構成の異なるモデルを比較した。本研究は, 十分に長いシーケンスを処理した場合, より少ないアテンションヘッドを持つモデルでは, 計算コストとメモリコストの低減を図りながら, 損失を低減できることを示した。
論文参考訳（メタデータ） (2025-03-12T17:50:42Z)
Dynamic LLM Routing and Selection based on User Preferences: Balancing Performance, Cost, and Ethics [0.6999740786886538]
本稿では,タスクを最適大言語モデル(LLM)に動的に選択・ルーティングする,高度なモデルルーティングエンジンであるOptiRouteを紹介する。 OptiRouteは、機能的(例えば、精度、速度、コスト)と非機能的(例えば、有用性、無害性、正直性)の両方の基準を捉え、最適なモデルとタスクを効率的に一致させる。これにより、クラウドベースのMLプラットフォーム、パーソナライズされたAIサービス、規制業界におけるリアルタイムアプリケーションに理想的になります。
論文参考訳（メタデータ） (2025-02-23T19:23:22Z)
Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文参考訳（メタデータ） (2025-02-17T18:49:25Z)
Universal Model Routing for Efficient LLM Inference [69.86195589350264]
モデルルーティングは,大規模言語モデル(LLM)の推論コストを削減する手法である動的ルーティング問題に対する新しいアプローチであるUniRouteを提案する。これらは理論的に最適なルーティングルールの推定であり、過大なリスクバウンドによってそれらのエラーを定量化する。
論文参考訳（メタデータ） (2025-02-12T20:30:28Z)
MixLLM: Dynamic Routing in Mixed Large Language Models [57.309520357563215]
大規模言語モデル(LLM)は、最近、人工知能の可能性を秘めている。問合せ-LLM代入のための動的コンテキスト帯域ベースのルーティングシステムであるMixLLMを開発した。
論文参考訳（メタデータ） (2025-02-09T02:26:15Z)
CITER: Collaborative Inference for Efficient Large Language Model Decoding with Token-Level Routing [56.98081258047281]
CITERはトークンレベルのルーティング戦略を通じて、小規模および大規模言語モデル(SLMs & LLMs)間の効率的な協調を可能にする。ルータの学習をポリシー最適化として定式化し、予測の質と生成の推論コストの両方に基づいて報酬を受け取る。実験の結果,CITERは高品質な生成を保ちながら推論コストを低減し,リアルタイムおよびリソース制約のあるアプリケーションに対して有望なソリューションを提供することがわかった。
論文参考訳（メタデータ） (2025-02-04T03:36:44Z)
Doing More with Less: A Survey on Routing Strategies for Resource Optimisation in Large Language Model-Based Systems [1.430963201405577]
LLM(Large Language Model)ベースのシステムは、通常、すべてのユーザクエリを処理するために単一の汎用LLMで設計される。これらのシステムは、異なるクエリが異なるレベルの推論、ドメイン知識、または前処理を必要とするため、非効率である可能性がある。したがって、より小さなまたは特殊なモデルなど、より適切なコンポーネントにクエリをルーティングするためにルーティングメカニズムを使用することができる。
論文参考訳（メタデータ） (2025-02-01T12:08:38Z)
Efficiently Serving LLM Reasoning Programs with Certaindex [4.681117143870077]
Dynasorは、大規模言語モデル(LLM)の推論時間計算を最適化するシステムである。従来のエンジンとは異なり、Dynasorは推論クエリ内で要求を追跡し、スケジュールする。バッチ処理で最大50%削減され、クエリレートが3.3倍、オンラインサービスで4.7倍のレイテンシSLOが持続する。
論文参考訳（メタデータ） (2024-12-30T14:57:53Z)
PickLLM: Context-Aware RL-Assisted Large Language Model Routing [0.5325390073522079]
PickLLMは、RL(Reinforcement Learning)を使用してオンザフライクエリを利用可能なモデルにルーティングする軽量フレームワークである。学習速度の違いに対する収束の速度と,クエリ毎のコストや全体の応答遅延といったハードメトリクスの改善を実証する。
論文参考訳（メタデータ） (2024-12-12T06:27:12Z)
The Effect of Scheduling and Preemption on the Efficiency of LLM Inference Serving [8.552242818726347]
INFERMAXは様々なスケジューラを比較するために推論コストモデルを使用する分析フレームワークである。その結果,プリエンプション要求はプリエンプションを回避するよりもGPUコストを30%削減できることがわかった。
論文参考訳（メタデータ） (2024-11-12T00:10:34Z)
MetaLLM: A High-performant and Cost-efficient Dynamic Framework for Wrapping LLMs [20.793892860721712]
MetaLLMは,各クエリを最適大言語モデル(LLM)に動的かつインテリジェントにルーティングするフレームワークである。多武装バンディットとして選択問題をフレーミングすることで、MetaLLMは不確実性の下で予測精度とコスト効率のバランスをとる。 OpenAI や Together AI などの一般的な LLM プラットフォーム上で実施した実験では,現実世界のシナリオにおいて MetaLLM の有効性を示す。
論文参考訳（メタデータ） (2024-07-15T15:45:07Z)
Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration [70.09561665520043]
本稿では,多エージェント協調のための新しいフレームワークを提案する。これは,効率的な自己調整のための強化アドバンテージフィードバック(Reinforced Advantage feedback, ReAd)を導入する。強化学習における重み付き回帰を多エージェントシステムに拡張して理論的解析を行う。 Over-AIと難解なRoCoBenchの実験は、ReAdが成功率のベースラインを超え、エージェントの相互作用ステップを著しく減少させることを示している。
論文参考訳（メタデータ） (2024-05-23T08:33:19Z)
LLMC: Benchmarking Large Language Model Quantization with a Versatile Compression Toolkit [55.73370804397226]
鍵圧縮技術である量子化は、大きな言語モデルを圧縮し、加速することにより、これらの要求を効果的に軽減することができる。本稿では,プラグアンドプレイ圧縮ツールキットであるLLMCについて,量子化の影響を公平かつ体系的に検討する。この汎用ツールキットによって、我々のベンチマークはキャリブレーションデータ、アルゴリズム(3つの戦略)、データフォーマットの3つの重要な側面をカバーしています。
論文参考訳（メタデータ） (2024-05-09T11:49:05Z)
Hybrid LLM: Cost-Efficient and Quality-Aware Query Routing [53.748685766139715]
大規模言語モデル(LLM)は、ほとんどのNLPタスクで優れていますが、そのサイズのため、デプロイに高価なクラウドサーバも必要です。コスト削減と品質維持のために,それぞれの強みを組み合わせたハイブリッド推論手法を提案する。実験では、反応の品質が低下することなく、最大40%大きなモデルへの呼び出しを削減できます。
論文参考訳（メタデータ） (2024-04-22T23:06:42Z)
Characterization of Large Language Model Development in the Datacenter [55.9909258342639]
大きな言語モデル(LLM)は、いくつかの変換タスクにまたがって素晴らしいパフォーマンスを示している。しかし,大規模クラスタ資源を効率よく利用してLCMを開発することは容易ではない。我々は,GPUデータセンタAcmeから収集した6ヶ月のLDM開発ワークロードの詳細な評価を行った。
論文参考訳（メタデータ） (2024-03-12T13:31:14Z)
SMART: Automatically Scaling Down Language Models with Accuracy Guarantees for Reduced Processing Fees [21.801053526411415]
大規模言語モデル(LLM)は自然言語処理(NLP)タスクの性能を大幅に向上させた。高性能LLMの配備は、主にモデル性能の向上を目的としたパラメータの増大により、かなりのコストがかかる。 SMARTは,NLPタスクの推論コストを最小限に抑えつつ,十分な結果品質を確保するために設計された新しいフレームワークである。
論文参考訳（メタデータ） (2024-03-11T17:45:47Z)
MobiLlama: Towards Accurate and Lightweight Fully Transparent GPT [87.4910758026772]
近年のLarge Language Models (LLM) 開発において,"Bigger the Better" が主流となっている。本稿では、リソース制約のあるデバイスに対して、正確かつ効率的なSLM(Small Language Models)を設計する上での課題に対処し、"less is more"パラダイムについて考察する。
論文参考訳（メタデータ） (2024-02-26T18:59:03Z)
OverPrompt: Enhancing ChatGPT through Efficient In-Context Learning [49.38867353135258]
複数のタスク入力を処理するために,LLMのコンテキスト内学習機能を活用したOverPromptを提案する。本実験により,OverPromptはタスク性能を著しく損なうことなく,コスト効率の良いゼロショット分類を実現することができることがわかった。
論文参考訳（メタデータ） (2023-05-24T10:08:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。