論文の概要: Efficient Training-Free Online Routing for High-Volume Multi-LLM Serving
- arxiv url: http://arxiv.org/abs/2509.02718v2
- Date: Mon, 20 Oct 2025 22:47:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:09.815197
- Title: Efficient Training-Free Online Routing for High-Volume Multi-LLM Serving
- Title(参考訳): 高ボリュームマルチLLMサービスのための効率的なトレーニングフリーオンラインルーティング
- Authors: Fangzhou Wu, Sandeep Silwal,
- Abstract要約: LLMルーティングは、モデルとクエリ機能に基づいて、クエリを最適LLMに誘導することで、コスト効率のよいソリューションを提供する。
既存の作業は主にオフラインシナリオに重点を置いており、オンライン設定への適応に苦慮している。
オンラインルーティングシナリオのためのトレーニング不要な最初のアルゴリズムを紹介する。
- 参考スコア(独自算出の注目度): 10.746325451673274
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Increasing demand for Large Language Models (LLMs) services imposes substantial deployment and computation costs on providers. LLM routing offers a cost-efficient solution by directing queries to the optimal LLM based on model and query features. However, existing works primarily focus on offline scenarios and struggle to adapt to online settings with high query volume and constrained token budgets. In this work, we introduce the first training-free algorithm for online routing scenarios. Our algorithm leverages approximate nearest neighbor search to efficiently estimate query features and performs a one-time optimization over a small set of initial queries to learn a routing strategy that guides future routing. We provide theoretical guarantees demonstrating that our algorithm achieves a competitive ratio of $1 - o(1)$ under natural assumptions, which is further validated by extensive experiments across 3 benchmark datasets and 8 baselines, showing an average improvement of 3.55$\times$ in overall performance, 1.85$\times$ in cost efficiency, and nearly 4.25$\times$ in throughput. Our code is available at https://github.com/fzwark/PORT.
- Abstract(参考訳): LLM(Large Language Models)サービスの需要の増加は、プロバイダに相当なデプロイメントと計算コストを課している。
LLMルーティングは、モデルとクエリ機能に基づいて、クエリを最適LLMに誘導することで、コスト効率のよいソリューションを提供する。
しかし、既存の作業は主にオフラインシナリオに焦点を当てており、高いクエリボリュームと制約付きトークン予算を備えたオンライン設定への適応に苦慮している。
そこで本研究では,オンラインルーティングシナリオのためのトレーニング不要なアルゴリズムについて紹介する。
提案アルゴリズムは,近接した近傍探索を利用してクエリ特性を効率的に推定し,初期クエリの小さなセットに対して1回の最適化を行い,将来のルーティングを導くルーティング戦略を学習する。
このアルゴリズムは,3つのベンチマークデータセットと8つのベースラインにわたる広範な実験によってさらに検証され,全体の性能が3.55$\times$,コスト効率が1.85$\times$,スループットが4.25$\times$となっている。
私たちのコードはhttps://github.com/fzwark/PORT.comから入手可能です。
関連論文リスト
- xRouter: Training Cost-Aware LLMs Orchestration System via Reinforcement Learning [104.63494870852894]
我々は,学習したルータが直接応答するか,あるいは1つ以上の外部モデルを呼び出すことができるツールコールベースのルーティングシステム x を提案する。
当社の実装には、報酬とコスト会計を含む、完全な強化学習フレームワークが含まれています。
さまざまなベンチマークで、xはコストパフォーマンスのトレードオフを強く達成します。
論文 参考訳(メタデータ) (2025-10-09T16:52:01Z) - One Head, Many Models: Cross-Attention Routing for Cost-Aware LLM Selection [3.872690949369412]
計算コストと性能プロファイルの異なる大規模言語モデル(LLM)は、現実世界のアプリケーションにスケーラブルでコスト効率の良いデプロイを実現する上で重要な課題である。
我々は、単一ヘッドのクロスアテンション機構を利用して、クエリとモデル埋め込みを協調的にモデル化する統一的なルーティングフレームワークを導入する。
我々のルータは、きめ細かいクエリモデル相互作用を明示的に把握することにより、応答品質と生成コストの両方を予測し、平均品質改善(AIQ)を6.6%改善し、既存のルータよりも最大性能を2.9%向上させる。
論文 参考訳(メタデータ) (2025-09-11T18:29:09Z) - How to Train Your LLM Web Agent: A Statistical Diagnosis [102.04125085041473]
LLMウェブエージェントのポストトレーニングにおける計算割当に関する統計学的基礎研究について述べる。
提案手法では,Llama 3.1 8Bの学生を対象に,教師付き微調整(SFT)とオンライン強化学習を用いて,Llama 3.3 70Bの教師を模倣する2段階のパイプラインを用いた。
以上の結果から,SFTとオンラインRLの組み合わせは,WorkArenaとMiniWob++のいずれにおいても,単独でのアプローチよりも一貫して優れていた。
論文 参考訳(メタデータ) (2025-07-05T17:12:33Z) - SkewRoute: Training-Free LLM Routing for Knowledge Graph Retrieval-Augmented Generation via Score Skewness of Retrieved Context [39.19789380714972]
大規模な言語モデルは多くのタスクで優れていますが、デプロイ時に高い推論コストがかかります。
そこで本稿では,KG-RAGのための極めてシンプルで効果的なルーティングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-28T14:45:56Z) - Accelerating RL for LLM Reasoning with Optimal Advantage Regression [52.0792918455501]
本稿では,最適優位関数を直接近似する新しい2段階ポリシー最適化フレームワークを提案する。
A$*-POは、幅広い数学的推論ベンチマークで競合性能を達成する。
PPO、GRPO、REBELと比較して、トレーニング時間を最大2$times$、ピークメモリ使用率を30%以上削減する。
論文 参考訳(メタデータ) (2025-05-27T03:58:50Z) - OmniRouter: Budget and Performance Controllable Multi-LLM Routing [31.60019342381251]
大規模言語モデル(LLM)は優れた性能を提供するが、かなりの計算資源を必要とし、比較的低効率で運用する。
マルチLLMサービスのための制御可能なルーティングフレームワークであるOmniを紹介する。
実験の結果、Omniは応答精度を最大6.30%改善し、同時に計算コストを少なくとも10.15%削減した。
論文 参考訳(メタデータ) (2025-02-27T22:35:31Z) - Universal Model Routing for Efficient LLM Inference [69.86195589350264]
モデルルーティングは,大規模言語モデル(LLM)の推論コストを削減する手法である
動的ルーティング問題に対する新しいアプローチであるUniRouteを提案する。
これらは理論的に最適なルーティングルールの推定であり、過大なリスクバウンドによってそれらのエラーを定量化する。
論文 参考訳(メタデータ) (2025-02-12T20:30:28Z) - CITER: Collaborative Inference for Efficient Large Language Model Decoding with Token-Level Routing [56.98081258047281]
Token-lEvel Routing(CITER)との協調推論は、小規模および大規模言語モデルの効率的な協調を可能にするフレームワークである。
ルータの学習をポリシー最適化として定式化し、予測の質と生成の推論コストの両方に基づいて報酬を受け取る。
実験の結果,CITERは高品質な生成を保ちながら推論コストを低減し,リアルタイムおよびリソース制約のあるアプリケーションに対して有望なソリューションを提供することがわかった。
論文 参考訳(メタデータ) (2025-02-04T03:36:44Z) - Doing More with Less: A Survey on Routing Strategies for Resource Optimisation in Large Language Model-Based Systems [1.430963201405577]
LLM(Large Language Model)ベースのシステムは、通常、すべてのユーザクエリを処理するために単一の汎用LLMで設計される。
これらのシステムは、異なるクエリが異なるレベルの推論、ドメイン知識、または前処理を必要とするため、非効率である可能性がある。
したがって、より小さなまたは特殊なモデルなど、より適切なコンポーネントにクエリをルーティングするためにルーティングメカニズムを使用することができる。
論文 参考訳(メタデータ) (2025-02-01T12:08:38Z) - PickLLM: Context-Aware RL-Assisted Large Language Model Routing [0.5325390073522079]
PickLLMは、RL(Reinforcement Learning)を使用してオンザフライクエリを利用可能なモデルにルーティングする軽量フレームワークである。
学習速度の違いに対する収束の速度と,クエリ毎のコストや全体の応答遅延といったハードメトリクスの改善を実証する。
論文 参考訳(メタデータ) (2024-12-12T06:27:12Z) - Optimizing LLM Queries in Relational Data Analytics Workloads [50.95919232839785]
バッチデータ分析は、Large Language Models(LLMs)の急成長するアプリケーションである
LLMは、分類、エンティティ抽出、翻訳などの幅広い自然言語タスクを、大規模なデータセット上で実行可能にする。
本稿では,LLMコールによるリレーショナルデータ解析処理のコストを大幅に削減できる新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-09T07:01:44Z) - Reinforcement Learning from Human Feedback with Active Queries [59.855433734053555]
現在の強化学習アプローチは、多くの場合、大量の人間による嗜好データを必要とする。
本稿では,能動学習の成功に触発された問合せ効率の高いRLHF手法を提案する。
実験の結果,ADPOは人間の好みに対するクエリの約半分しか作成していないが,最先端のDPO法の性能と一致していることがわかった。
論文 参考訳(メタデータ) (2024-02-14T18:58:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。