論文の概要: xRouter: Training Cost-Aware LLMs Orchestration System via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2510.08439v1
- Date: Thu, 09 Oct 2025 16:52:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:15.213158
- Title: xRouter: Training Cost-Aware LLMs Orchestration System via Reinforcement Learning
- Title(参考訳): xRouter:強化学習によるコスト対応LDMオーケストレーションシステムの訓練
- Authors: Cheng Qian, Zuxin Liu, Shirley Kokane, Akshara Prabhakar, Jielin Qiu, Haolin Chen, Zhiwei Liu, Heng Ji, Weiran Yao, Shelby Heinecke, Silvio Savarese, Caiming Xiong, Huan Wang,
- Abstract要約: 我々は,学習したルータが直接応答するか,あるいは1つ以上の外部モデルを呼び出すことができるツールコールベースのルーティングシステム x を提案する。
当社の実装には、報酬とコスト会計を含む、完全な強化学習フレームワークが含まれています。
さまざまなベンチマークで、xはコストパフォーマンスのトレードオフを強く達成します。
- 参考スコア(独自算出の注目度): 104.63494870852894
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern LLM deployments confront a widening cost-performance spectrum: premium models deliver strong reasoning but are expensive, while lightweight models are economical yet brittle on complex tasks. Static escalation rules and keyword heuristics under-utilize this spectrum and fail to adapt across task types. We present xRouter, a tool-calling-based routing system in which a learned router can either answer directly or invoke one or more external models. The router is trained end-to-end with reinforcement learning using an explicit, cost-aware reward that encodes cost-performance trade-offs, eliminating the need for hand-engineered routing rules. Our implementation encompasses the full reinforcement learning framework, including reward and cost accounting, as well as the deployment and evaluation pipelines. Across diverse benchmarks, xRouter achieves strong cost-performance trade-offs (e.g., substantial cost reductions at comparable task completion rates), and provides empirical insights into what reliably helps learned routing and what does not, ranging from model trainability to the difficulty of eliciting sophisticated orchestration behaviors in small open models. We hope these findings and our open implementation will serve as a practical substrate for advancing learned, cost-aware LLM orchestration.
- Abstract(参考訳): プレミアムモデルは強力な推論を提供するが、高価である一方、軽量モデルは複雑なタスクでは経済的に不安定である。
静的エスカレーション規則とキーワードヒューリスティックスは、このスペクトルをアンダーユースし、タスクタイプをまたいだ適応に失敗する。
ツールコールに基づくルーティングシステムであるxRouterを,学習したルータが直接応答するか,あるいは1つ以上の外部モデルを呼び出すことができる。
ルータは、コストパフォーマンスのトレードオフを符号化する明示的なコスト認識報酬を使用して、強化学習によってエンドツーエンドでトレーニングされる。
私たちの実装には、報酬とコストの会計、デプロイメントと評価パイプラインを含む、完全な強化学習フレームワークが含まれています。
さまざまなベンチマークを通じて、xRouterは、強力なコストパフォーマンストレードオフ(例えば、同等のタスク完了率での大幅なコスト削減)を達成し、学習したルーティングに確実に役立つものや、そうでないものに関する実証的な洞察を提供する。
これらの知見とオープンな実装が,学習とコストを意識したLLMオーケストレーションの実践的な基盤となることを願っています。
関連論文リスト
- Router-R1: Teaching LLMs Multi-Round Routing and Aggregation via Reinforcement Learning [12.878608250420832]
マルチLLMルーティングとアグリゲーションを逐次決定プロセスとして定式化する強化学習フレームワークである textbf Generalization-R1 を提案する。
学習を容易にするために,形式報酬と最終結果報酬と,性能とコストのバランスを最適化するための新たなコスト報酬からなる軽量なルールベース報酬を用いる。
論文 参考訳(メタデータ) (2025-06-10T17:56:45Z) - SkewRoute: Training-Free LLM Routing for Knowledge Graph Retrieval-Augmented Generation via Score Skewness of Retrieved Context [19.447729423696096]
大規模な言語モデルは多くのタスクで優れていますが、デプロイ時に高い推論コストがかかります。
性能とコストのバランスをとるための有望な解決策はLLMルーティングであり、より小さなLLMと複雑なLLMに単純なクエリを誘導する。
そこで我々は,KG-RAGに最適化された新しい学習不要なルーティングフレームワークを提案し,プラグアンドプレイ方式で性能とコストを効果的にバランスさせる。
論文 参考訳(メタデータ) (2025-05-28T14:45:56Z) - CITER: Collaborative Inference for Efficient Large Language Model Decoding with Token-Level Routing [74.14816777318033]
Token-lEvel Routing(CITER)との協調推論は、小規模および大規模言語モデルの効率的な協調を可能にするフレームワークである。
ルータの学習をポリシー最適化として定式化し、予測の質と生成の推論コストの両方に基づいて報酬を受け取る。
実験の結果,CITERは高品質な生成を保ちながら推論コストを低減し,リアルタイムおよびリソース制約のあるアプリケーションに対して有望なソリューションを提供することがわかった。
論文 参考訳(メタデータ) (2025-02-04T03:36:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。