論文の概要: Efficient Training-Free Online Routing for High-Volume Multi-LLM Serving
- arxiv url: http://arxiv.org/abs/2509.02718v1
- Date: Tue, 02 Sep 2025 18:15:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-08 14:27:25.284832
- Title: Efficient Training-Free Online Routing for High-Volume Multi-LLM Serving
- Title(参考訳): 高ボリュームマルチLLMサービスのための効率的なトレーニングフリーオンラインルーティング
- Authors: Fangzhou Wu, Sandeep Silwal,
- Abstract要約: オンラインルーティングシナリオのためのトレーニング不要な最初のアルゴリズムを紹介する。
このアルゴリズムは自然条件下での競合比が1 - o(1)$であることを示す。
- 参考スコア(独自算出の注目度): 10.746325451673274
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Increasing demand for Large Language Models (LLMs) services imposes substantial deployment and computation costs on providers. LLM routing offers a cost-efficient solution by directing queries to the optimal LLM based on model and query features. However, existing works primarily focus on offline scenarios and struggle to adapt to online settings with high query volume and constrained token budgets. In this work, we introduce the first training-free algorithm for online routing scenarios. Our algorithm leverages approximate nearest neighbor search to efficiently estimate query features and performs a one-time optimization over a small set of initial queries to learn a routing strategy that guides future routing. We provide theoretical guarantees demonstrating that our algorithm achieves a competitive ratio of $1 - o(1)$ under natural assumptions, which is further validated by extensive experiments across 3 benchmark datasets and 8 baselines, showing an average improvement of 3.55$\times$ in overall performance, 1.85$\times$ in cost efficiency, and nearly 4.25$\times$ in throughput.
- Abstract(参考訳): LLM(Large Language Models)サービスの需要の増加は、プロバイダに相当なデプロイメントと計算コストを課している。
LLMルーティングは、モデルとクエリ機能に基づいて、クエリを最適LLMに誘導することで、コスト効率のよいソリューションを提供する。
しかし、既存の作業は主にオフラインシナリオに焦点を当てており、高いクエリボリュームと制約付きトークン予算を備えたオンライン設定への適応に苦慮している。
そこで本研究では,オンラインルーティングシナリオのためのトレーニング不要なアルゴリズムについて紹介する。
提案アルゴリズムは,近接した近傍探索を利用してクエリ特性を効率的に推定し,初期クエリの小さなセットに対して1回の最適化を行い,将来のルーティングを導くルーティング戦略を学習する。
このアルゴリズムは,3つのベンチマークデータセットと8つのベースラインにわたる広範な実験によってさらに検証され,全体の性能が3.55$\times$,コスト効率が1.85$\times$,スループットが4.25$\times$となっている。
関連論文リスト
- How to Train Your LLM Web Agent: A Statistical Diagnosis [102.04125085041473]
LLMウェブエージェントのポストトレーニングにおける計算割当に関する統計学的基礎研究について述べる。
提案手法では,Llama 3.1 8Bの学生を対象に,教師付き微調整(SFT)とオンライン強化学習を用いて,Llama 3.3 70Bの教師を模倣する2段階のパイプラインを用いた。
以上の結果から,SFTとオンラインRLの組み合わせは,WorkArenaとMiniWob++のいずれにおいても,単独でのアプローチよりも一貫して優れていた。
論文 参考訳(メタデータ) (2025-07-05T17:12:33Z) - Accelerating RL for LLM Reasoning with Optimal Advantage Regression [52.0792918455501]
本稿では,最適優位関数を直接近似する新しい2段階ポリシー最適化フレームワークを提案する。
A$*-POは、幅広い数学的推論ベンチマークで競合性能を達成する。
PPO、GRPO、REBELと比較して、トレーニング時間を最大2$times$、ピークメモリ使用率を30%以上削減する。
論文 参考訳(メタデータ) (2025-05-27T03:58:50Z) - OmniRouter: Budget and Performance Controllable Multi-LLM Routing [31.60019342381251]
大規模言語モデル(LLM)は優れた性能を提供するが、かなりの計算資源を必要とし、比較的低効率で運用する。
マルチLLMサービスのための制御可能なルーティングフレームワークであるOmniを紹介する。
実験の結果、Omniは応答精度を最大6.30%改善し、同時に計算コストを少なくとも10.15%削減した。
論文 参考訳(メタデータ) (2025-02-27T22:35:31Z) - Universal Model Routing for Efficient LLM Inference [69.86195589350264]
モデルルーティングは,大規模言語モデル(LLM)の推論コストを削減する手法である
動的ルーティング問題に対する新しいアプローチであるUniRouteを提案する。
これらは理論的に最適なルーティングルールの推定であり、過大なリスクバウンドによってそれらのエラーを定量化する。
論文 参考訳(メタデータ) (2025-02-12T20:30:28Z) - CITER: Collaborative Inference for Efficient Large Language Model Decoding with Token-Level Routing [56.98081258047281]
Token-lEvel Routing(CITER)との協調推論は、小規模および大規模言語モデルの効率的な協調を可能にするフレームワークである。
ルータの学習をポリシー最適化として定式化し、予測の質と生成の推論コストの両方に基づいて報酬を受け取る。
実験の結果,CITERは高品質な生成を保ちながら推論コストを低減し,リアルタイムおよびリソース制約のあるアプリケーションに対して有望なソリューションを提供することがわかった。
論文 参考訳(メタデータ) (2025-02-04T03:36:44Z) - Doing More with Less: A Survey on Routing Strategies for Resource Optimisation in Large Language Model-Based Systems [1.430963201405577]
LLM(Large Language Model)ベースのシステムは、通常、すべてのユーザクエリを処理するために単一の汎用LLMで設計される。
これらのシステムは、異なるクエリが異なるレベルの推論、ドメイン知識、または前処理を必要とするため、非効率である可能性がある。
したがって、より小さなまたは特殊なモデルなど、より適切なコンポーネントにクエリをルーティングするためにルーティングメカニズムを使用することができる。
論文 参考訳(メタデータ) (2025-02-01T12:08:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。