Fugu-MT 論文翻訳(概要): Smart Routing: Cost-Effective Multi-LLM Serving for Multi-Core AIOS

論文の概要: Smart Routing: Cost-Effective Multi-LLM Serving for Multi-Core AIOS

arxiv url: http://arxiv.org/abs/2502.20576v4
Date: Wed, 02 Apr 2025 19:33:06 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-04 15:00:43.208273
Title: Smart Routing: Cost-Effective Multi-LLM Serving for Multi-Core AIOS
Title（参考訳）: スマートルーティング:マルチコアAIOSのための費用効果マルチLLMサービング
Authors: Kai Mei, Wujiang Xu, Shuhang Lin, Yongfeng Zhang,
Abstract要約: 既存のスケジューリングフレームワークは主にレイテンシの最適化をターゲットとしている。本稿では,マルチLLMサービスのための高効率能率協調スケジューリングフレームワークECCOSを提案する。
参考スコア（独自算出の注目度）: 31.60019342381251
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: As large language models (LLMs) are increasingly deployed as service endpoints in systems, the surge in query volume creates significant scheduling challenges. Existing scheduling frameworks mainly target at latency optimization while neglecting the capability of LLMs to serve different level of queries, which could lead to computational resource waste. For example, those simple queries can be safely handled by small, fast and cheap LLMs, while those complex and difficult queries need to be handled by large, slow, and expensive LLMs. This paper addresses this challenge by proposing an efficient capability-cost coordinated scheduling framework, ECCOS, for multi-LLM serving, which explicitly constrains response quality and workload to optimize LLM inference cost. Specifically, it introduces the two-stage scheduling by designing a multi-objective predictor and a constrained optimizer. The predictor estimates both model capabilities and computational costs through training-based and retrieval-based approaches, while the optimizer determines cost-optimal assignments under quality and workload constraints. It also introduces QAServe, a dataset for sample-wise response quality and costs collected by zero-shot prompting different LLMs on knowledge QA and mathematical reasoning. Extensive experiments demonstrate that ECCOS improves success rates by 6.30% while reducing costs by 10.15% compared to existing methods, consuming less than 0.5% of LLM response time. The code is available at: https://github.com/agiresearch/ECCOS, and the proposed smart routing mechanism has been integrated into AIOS, the AI Agent Operating System, at https://github.com/agiresearch/AIOS.
Abstract（参考訳）: システム内のサービスエンドポイントとして大規模言語モデル(LLM)がますますデプロイされるにつれて、クエリボリュームの急増は、大きなスケジュール上の課題を生み出します。既存のスケジューリングフレームワークは主にレイテンシの最適化を目標としているが、LLMが異なるレベルのクエリを提供する能力を無視しているため、計算リソースの浪費につながる可能性がある。例えば、これらの単純なクエリは、小さくて高速で安価にLLMで安全に処理でき、複雑で難しいクエリは、大きくて遅くて高価なLLMで処理する必要がある。本稿では,LLM推論コストを最適化するために,応答品質とワークロードを明示的に制約するマルチLLMサービスのための効率的な機能コスト調整型スケジューリングフレームワークであるECCOSを提案する。具体的には、多目的予測器と制約付き最適化器を設計し、2段階スケジューリングを導入する。予測器は、トレーニングベースおよび検索ベースアプローチにより、モデル能力と計算コストの両方を推定し、最適化器は、品質とワークロードの制約の下で、コスト最適割り当てを決定する。さらにQAServeも導入されている。QAと数学的推論に基づいて,ゼロショットで収集したサンプルの応答品質とコストのデータセットだ。大規模な実験では、ECCOSは従来の方法に比べてコストを10.15%削減し、成功率を6.30%改善し、LCM応答時間の0.5%未満を消費している。コードは、https://github.com/agiresearch/ECCOSで利用可能であり、提案されたスマートルーティングメカニズムは、AI Agent Operating SystemであるAIOSに、https://github.com/agiresearch/AIOSに統合されている。

関連論文リスト

RouteMoA: Dynamic Routing without Pre-Inference Boosts Efficient Mixture-of-Agents [91.0187958746262]
RouteMoAは動的ルーティングを備えた効率的な混合エージェントフレームワークである。軽量スコアラを使用して、クエリから粗い粒度のパフォーマンスを予測することで、初期スクリーニングを行う。既存のモデル出力に基づいて、軽量な自己評価とクロスアセスメントによってこれらのスコアを洗練し、追加の推論なしで後部修正を提供する。
論文参考訳（メタデータ） (2026-01-26T04:22:22Z)
Dr.LLM: Dynamic Layer Routing in LLMs [55.11953638340419]
Dr.LLMは、事前訓練されたモデルに軽量な層ごとのルータを装備し、ブロックをスキップ、実行、繰り返すように決定する、適合性のあるフレームワークである。 ARC(logic)とDART(math)では、Dr.LLMは平均で5つのレイヤを保存しながら、最大3.4%の精度向上を実現している。
論文参考訳（メタデータ） (2025-10-14T17:51:26Z)
Learning to Route LLMs from Bandit Feedback: One Policy, Many Trade-offs [69.2486294522259]
BaRPはBandit Routing-feedback with Preferencesアプローチであり、デプロイと同じ部分フィードバック制限の下でトレーニングされる。提案手法は,学習中のオンラインフィードバック設定をシミュレートし,新たなプロンプトに適応する。
論文参考訳（メタデータ） (2025-10-08T18:24:59Z)
One Head, Many Models: Cross-Attention Routing for Cost-Aware LLM Selection [3.872690949369412]
計算コストと性能プロファイルの異なる大規模言語モデル(LLM)は、現実世界のアプリケーションにスケーラブルでコスト効率の良いデプロイを実現する上で重要な課題である。我々は、単一ヘッドのクロスアテンション機構を利用して、クエリとモデル埋め込みを協調的にモデル化する統一的なルーティングフレームワークを導入する。我々のルータは、きめ細かいクエリモデル相互作用を明示的に把握することにより、応答品質と生成コストの両方を予測し、平均品質改善(AIQ)を6.6%改善し、既存のルータよりも最大性能を2.9%向上させる。
論文参考訳（メタデータ） (2025-09-11T18:29:09Z)
Efficient Training-Free Online Routing for High-Volume Multi-LLM Serving [10.746325451673274]
LLMルーティングは、モデルとクエリ機能に基づいて、クエリを最適LLMに誘導することで、コスト効率のよいソリューションを提供する。既存の作業は主にオフラインシナリオに重点を置いており、オンライン設定への適応に苦慮している。オンラインルーティングシナリオのためのトレーニング不要な最初のアルゴリズムを紹介する。
論文参考訳（メタデータ） (2025-09-02T18:15:03Z)
RCR-Router: Efficient Role-Aware Context Routing for Multi-Agent LLM Systems with Structured Memory [57.449129198822476]
RCRは、マルチエージェント大言語モデル(LLM)システムのためのロールアウェアコンテキストルーティングフレームワークである。役割とタスクステージに基づいて、各エージェントに対して意味的に関連するメモリサブセットを動的に選択する。軽量スコアリングポリシは、メモリ選択をガイドし、エージェント出力を共有メモリストアに統合する。
論文参考訳（メタデータ） (2025-08-06T21:59:34Z)
RadialRouter: Structured Representation for Efficient and Robust Large Language Models Routing [31.446419903916425]
Radialは、大規模言語モデルのルーティングのための新しいフレームワークである。 RadialFormerという名前のラジアル構造を持つ軽量なTransformerベースのバックボーンを使用して、クエリとLLMの関係を明確にする。バランシングとコストファーストのシナリオでは、既存のルーティングメソッドの9.2%と5.8%を大きく上回っている。
論文参考訳（メタデータ） (2025-06-04T12:16:41Z)
LightRouter: Towards Efficient LLM Collaboration with Minimal Overhead [19.573553157421774]
Lightは、より大きなプールからLLMの小さなサブセットを体系的に選択、統合するために設計された新しいフレームワークである。実験によると、光は広く使われているアンサンブルのベースラインと一致し、25%の精度向上を実現している。本研究は、効率的なLCM選択のための実践的なアプローチを導入し、モデル組み合わせのための最適な戦略に関する貴重な洞察を提供する。
論文参考訳（メタデータ） (2025-05-22T04:46:04Z)
Cost-Optimal Grouped-Query Attention for Long-Context LLMs [64.90662568387683]
効率的なTransformerベースの大規模言語モデル(LLM)の構築が最近研究の焦点となっている。モデル性能,計算コスト,メモリコストの面で,パラメータサイズ,コンテキスト長,アテンションヘッド構成の異なるモデルを比較した。本研究は, 十分に長いシーケンスを処理した場合, より少ないアテンションヘッドを持つモデルでは, 計算コストとメモリコストの低減を図りながら, 損失を低減できることを示した。
論文参考訳（メタデータ） (2025-03-12T17:50:42Z)
Dynamic LLM Routing and Selection based on User Preferences: Balancing Performance, Cost, and Ethics [0.6999740786886538]
本稿では,タスクを最適大言語モデル(LLM)に動的に選択・ルーティングする,高度なモデルルーティングエンジンであるOptiRouteを紹介する。 OptiRouteは、機能的(例えば、精度、速度、コスト)と非機能的(例えば、有用性、無害性、正直性)の両方の基準を捉え、最適なモデルとタスクを効率的に一致させる。これにより、クラウドベースのMLプラットフォーム、パーソナライズされたAIサービス、規制業界におけるリアルタイムアプリケーションに理想的になります。
論文参考訳（メタデータ） (2025-02-23T19:23:22Z)
Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文参考訳（メタデータ） (2025-02-17T18:49:25Z)
Universal Model Routing for Efficient LLM Inference [69.86195589350264]
モデルルーティングは,大規模言語モデル(LLM)の推論コストを削減する手法である動的ルーティング問題に対する新しいアプローチであるUniRouteを提案する。これらは理論的に最適なルーティングルールの推定であり、過大なリスクバウンドによってそれらのエラーを定量化する。
論文参考訳（メタデータ） (2025-02-12T20:30:28Z)
MixLLM: Dynamic Routing in Mixed Large Language Models [57.309520357563215]
大規模言語モデル(LLM)は、最近、人工知能の可能性を秘めている。問合せ-LLM代入のための動的コンテキスト帯域ベースのルーティングシステムであるMixLLMを開発した。
論文参考訳（メタデータ） (2025-02-09T02:26:15Z)
CITER: Collaborative Inference for Efficient Large Language Model Decoding with Token-Level Routing [56.98081258047281]
CITERはトークンレベルのルーティング戦略を通じて、小規模および大規模言語モデル(SLMs & LLMs)間の効率的な協調を可能にする。ルータの学習をポリシー最適化として定式化し、予測の質と生成の推論コストの両方に基づいて報酬を受け取る。実験の結果,CITERは高品質な生成を保ちながら推論コストを低減し,リアルタイムおよびリソース制約のあるアプリケーションに対して有望なソリューションを提供することがわかった。
論文参考訳（メタデータ） (2025-02-04T03:36:44Z)
Doing More with Less: A Survey on Routing Strategies for Resource Optimisation in Large Language Model-Based Systems [1.430963201405577]
LLM(Large Language Model)ベースのシステムは、通常、すべてのユーザクエリを処理するために単一の汎用LLMで設計される。これらのシステムは、異なるクエリが異なるレベルの推論、ドメイン知識、または前処理を必要とするため、非効率である可能性がある。したがって、より小さなまたは特殊なモデルなど、より適切なコンポーネントにクエリをルーティングするためにルーティングメカニズムを使用することができる。
論文参考訳（メタデータ） (2025-02-01T12:08:38Z)
Efficiently Serving LLM Reasoning Programs with Certaindex [4.681117143870077]
Dynasorは、大規模言語モデル(LLM)の推論時間計算を最適化するシステムである。従来のエンジンとは異なり、Dynasorは推論クエリ内で要求を追跡し、スケジュールする。バッチ処理で最大50%削減され、クエリレートが3.3倍、オンラインサービスで4.7倍のレイテンシSLOが持続する。
論文参考訳（メタデータ） (2024-12-30T14:57:53Z)
PickLLM: Context-Aware RL-Assisted Large Language Model Routing [0.5325390073522079]
PickLLMは、RL(Reinforcement Learning)を使用してオンザフライクエリを利用可能なモデルにルーティングする軽量フレームワークである。学習速度の違いに対する収束の速度と,クエリ毎のコストや全体の応答遅延といったハードメトリクスの改善を実証する。
論文参考訳（メタデータ） (2024-12-12T06:27:12Z)
The Effect of Scheduling and Preemption on the Efficiency of LLM Inference Serving [8.552242818726347]
INFERMAXは様々なスケジューラを比較するために推論コストモデルを使用する分析フレームワークである。その結果,プリエンプション要求はプリエンプションを回避するよりもGPUコストを30%削減できることがわかった。
論文参考訳（メタデータ） (2024-11-12T00:10:34Z)
MetaLLM: A High-performant and Cost-efficient Dynamic Framework for Wrapping LLMs [20.793892860721712]
MetaLLMは,各クエリを最適大言語モデル(LLM)に動的かつインテリジェントにルーティングするフレームワークである。多武装バンディットとして選択問題をフレーミングすることで、MetaLLMは不確実性の下で予測精度とコスト効率のバランスをとる。 OpenAI や Together AI などの一般的な LLM プラットフォーム上で実施した実験では,現実世界のシナリオにおいて MetaLLM の有効性を示す。
論文参考訳（メタデータ） (2024-07-15T15:45:07Z)
Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration [70.09561665520043]
本稿では,多エージェント協調のための新しいフレームワークを提案する。これは,効率的な自己調整のための強化アドバンテージフィードバック(Reinforced Advantage feedback, ReAd)を導入する。強化学習における重み付き回帰を多エージェントシステムに拡張して理論的解析を行う。 Over-AIと難解なRoCoBenchの実験は、ReAdが成功率のベースラインを超え、エージェントの相互作用ステップを著しく減少させることを示している。
論文参考訳（メタデータ） (2024-05-23T08:33:19Z)
LLMC: Benchmarking Large Language Model Quantization with a Versatile Compression Toolkit [55.73370804397226]
鍵圧縮技術である量子化は、大きな言語モデルを圧縮し、加速することにより、これらの要求を効果的に軽減することができる。本稿では,プラグアンドプレイ圧縮ツールキットであるLLMCについて,量子化の影響を公平かつ体系的に検討する。この汎用ツールキットによって、我々のベンチマークはキャリブレーションデータ、アルゴリズム(3つの戦略)、データフォーマットの3つの重要な側面をカバーしています。
論文参考訳（メタデータ） (2024-05-09T11:49:05Z)
Hybrid LLM: Cost-Efficient and Quality-Aware Query Routing [53.748685766139715]
大規模言語モデル(LLM)は、ほとんどのNLPタスクで優れていますが、そのサイズのため、デプロイに高価なクラウドサーバも必要です。コスト削減と品質維持のために,それぞれの強みを組み合わせたハイブリッド推論手法を提案する。実験では、反応の品質が低下することなく、最大40%大きなモデルへの呼び出しを削減できます。
論文参考訳（メタデータ） (2024-04-22T23:06:42Z)
Characterization of Large Language Model Development in the Datacenter [55.9909258342639]
大きな言語モデル(LLM)は、いくつかの変換タスクにまたがって素晴らしいパフォーマンスを示している。しかし,大規模クラスタ資源を効率よく利用してLCMを開発することは容易ではない。我々は,GPUデータセンタAcmeから収集した6ヶ月のLDM開発ワークロードの詳細な評価を行った。
論文参考訳（メタデータ） (2024-03-12T13:31:14Z)
SMART: Automatically Scaling Down Language Models with Accuracy Guarantees for Reduced Processing Fees [21.801053526411415]
大規模言語モデル(LLM)は自然言語処理(NLP)タスクの性能を大幅に向上させた。高性能LLMの配備は、主にモデル性能の向上を目的としたパラメータの増大により、かなりのコストがかかる。 SMARTは,NLPタスクの推論コストを最小限に抑えつつ,十分な結果品質を確保するために設計された新しいフレームワークである。
論文参考訳（メタデータ） (2024-03-11T17:45:47Z)
MobiLlama: Towards Accurate and Lightweight Fully Transparent GPT [87.4910758026772]
近年のLarge Language Models (LLM) 開発において,"Bigger the Better" が主流となっている。本稿では、リソース制約のあるデバイスに対して、正確かつ効率的なSLM(Small Language Models)を設計する上での課題に対処し、"less is more"パラダイムについて考察する。
論文参考訳（メタデータ） (2024-02-26T18:59:03Z)
OverPrompt: Enhancing ChatGPT through Efficient In-Context Learning [49.38867353135258]
複数のタスク入力を処理するために,LLMのコンテキスト内学習機能を活用したOverPromptを提案する。本実験により,OverPromptはタスク性能を著しく損なうことなく,コスト効率の良いゼロショット分類を実現することができることがわかった。
論文参考訳（メタデータ） (2023-05-24T10:08:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。