論文の概要: SeqRoute: Global Budget-Aware Sequential LLM Routing via Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2605.25424v1
- Date: Mon, 25 May 2026 04:52:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:19.292687
- Title: SeqRoute: Global Budget-Aware Sequential LLM Routing via Offline Reinforcement Learning
- Title(参考訳): SeqRoute: オフライン強化学習によるグローバル予算対応シーケンスLLMルーティング
- Authors: Zhongling Xu, Shunan Zheng, Wei Wang,
- Abstract要約: SeqRouteは、有限水平マルコフ決定プロセスとしてマルチターンルーティングを定式化するフレームワークである。
セッションの後半で、ハイテイクターンのリソースを戦略的に保存するために、遅れた満足度を学習する。
品質を維持したり改善したりしながら運用コストを6.0-73.5%削減し、倒産率を1%以下に抑える。
- 参考スコア(独自算出の注目度): 2.6853734738584047
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing LLM routing frameworks treat queries as independent events, neglecting the sequential nature of real-world user sessions constrained by global computational budgets. This mismatch inevitably leads to budget bankruptcy: myopic routing policies exhaust resources on early interactions, forcing subsequent and often more complex queries onto inadequate models. We introduce SeqRoute, a framework that formulates multi-turn routing as a finite-horizon Markov Decision Process and solves it via offline reinforcement learning. By incorporating the remaining budget into the state space and training with Conservative Q-Learning (CQL), SeqRoute learns delayed gratification to strategically preserve resources for high-stakes turns later in the session. To overcome data starvation, we propose Hindsight Budget Relabeling (HBR). This technique retrospectively simulates historical trajectories under diverse hypothetical budgets, expanding 10,000 raw sessions into 2.38 million transitions enriched with critical bankruptcy signals. At deployment, a dynamic $λ$-sweep mechanism enables zero-shot navigation of the cost-quality Pareto frontier without retraining. Extensive evaluations demonstrate that SeqRoute reduces operational costs by 6.0-73.5% while maintaining or improving quality, and suppresses bankruptcy rates to under 1%, strictly dominating behavior cloning, budget-aware heuristics, and static baselines across the entire Pareto frontier.
- Abstract(参考訳): 既存のLLMルーティングフレームワークは、クエリを独立したイベントとして扱い、グローバルな計算予算に制約された現実世界のユーザセッションのシーケンシャルな性質を無視している。
このミスマッチは、必然的に予算の破綻につながる: ミオピックルーティングポリシーは、初期相互作用のリソースを消費し、その後、しばしばより複雑なクエリを、不十分なモデルに強制する。
マルチターンルーティングを有限水平マルコフ決定プロセスとして定式化し,オフラインの強化学習によって解決するフレームワークであるSeqRouteを紹介する。
残りの予算を州空間に組み込んで、保守的なQ-Learning(CQL)でトレーニングを行うことで、SeqRouteは遅延した満足度を学び、後にセッションでハイテイクターンのリソースを戦略的に保存する。
データ飢餓を克服するため,HBR(Hindsight Budget Relabeling)を提案する。
この手法は様々な仮説的予算の下で過去の軌跡を振り返りにシミュレートし、1万の生のセッションを238万のトランジションに拡大し、重大な破産信号で富む。
ダイナミックな$λ$-sweepメカニズムにより、コスト品質の高いParetoフロンティアのゼロショットナビゲーションを、再トレーニングなしで実現している。
大規模な評価では、セクルートは品質を維持したり改善したりしながら運用コストを6.0-73.5%削減し、破産率を1%以下に抑え、パレトフロンティア全体の行動クローニング、予算に配慮したヒューリスティック、静的ベースラインを厳格に支配している。
関連論文リスト
- ParetoBandit: Budget-Paced Adaptive Routing for Non-Stationary LLM Serving [0.0]
LLMは、しばしば530倍のコスト範囲にまたがるマルチモデルポートフォリオに依存している。
プロバイダは価格を見直し、モデルの品質は静かに回復し、新しいモデルはダウンタイムなしで統合する必要がある。
本稿では,費用対効果を考慮した適応ルータを提案する。
論文 参考訳(メタデータ) (2026-03-31T18:41:53Z) - Robust Batch-Level Query Routing for Large Language Models under Cost and Capacity Constraints [18.52522897906341]
大規模言語モデル(LLM)へのクエリルーティングの問題について検討する。
本稿では,各バッチの割り当てを協調的に最適化する,バッチレベルのリソース対応ルーティングフレームワークを提案する。
2つのマルチタスクベンチマークの実験では、非ロバストなベンチマークでは精度が1-14%向上している。
論文 参考訳(メタデータ) (2026-03-25T22:24:11Z) - Efficient and Interpretable Multi-Agent LLM Routing via Ant Colony Optimization [58.59491516762626]
マルチエージェントシステム(MAS)のための効率的かつ解釈可能なルーティングフレームワークAMRO-Sを提案する。
AMRO-Sは、意味条件付き経路選択問題としてMASルーティングをモデル化し、3つのキーメカニズムを通してルーティング性能を向上させる。
5つの公開ベンチマークと高速ストレステストによる大規模な実験により、AMRO-Sは強いルーティングベースラインに対する品質-コストトレードオフを一貫して改善することを示した。
論文 参考訳(メタデータ) (2026-03-13T12:26:05Z) - Budget-Aware Agentic Routing via Boundary-Guided Training [24.0709108941881]
予算対応エージェントルーティング(Budget-Aware Agentic Routing)は、各ステップで安価なモデルと高価なモデルを選択して、コスト削減フロンティアを最適化する。
境界誘導訓練(Boundary-Guided Training)は、希少な報酬の下で学習を定着させるために難しい分類法を構築する。
実験結果から,提案手法は高効率フロンティアを改良し,強いルーティングベースラインを極めて低コストで整合することを示した。
論文 参考訳(メタデータ) (2026-02-04T07:39:27Z) - EvoRoute: Experience-Driven Self-Routing LLM Agent Systems [100.64399490164959]
EvoRouteは、静的で事前定義されたモデルの割り当てを超越する、自己進化型のモデルルーティングパラダイムである。
挑戦的なエージェントベンチマークの実験によると、既製のエージェントシステムに統合されたEvoRouteは、システムのパフォーマンスを維持または向上するだけでなく、実行コストを最大80%削減し、レイテンシを70%以上削減する。
論文 参考訳(メタデータ) (2026-01-06T04:06:46Z) - xRouter: Training Cost-Aware LLMs Orchestration System via Reinforcement Learning [104.63494870852894]
我々は,学習したルータが直接応答するか,あるいは1つ以上の外部モデルを呼び出すことができるツールコールベースのルーティングシステム x を提案する。
当社の実装には、報酬とコスト会計を含む、完全な強化学習フレームワークが含まれています。
さまざまなベンチマークで、xはコストパフォーマンスのトレードオフを強く達成します。
論文 参考訳(メタデータ) (2025-10-09T16:52:01Z) - No-Regret Learning Under Adversarial Resource Constraints: A Spending Plan Is All You Need! [56.80767500991973]
アクション選択の前に報酬とコストが観測される$(i)$オンラインリソース割当と、アクション選択後、完全なフィードバックや盗賊フィードバックの下で、リソース制限付きオンライン学習である$(ii)$オンラインリソース割当に焦点を当てた。
報酬とコスト分布が時間とともに任意に変化する場合、これらの設定でサブ線形後悔を達成することは不可能であることが知られている。
我々は、支出計画に従う基準線に対する半線形後悔を実現する一般的な(基本的)二重的手法を設計し、また、支出計画が予算のバランスの取れた配分を保証すると、アルゴリズムの性能が向上する。
論文 参考訳(メタデータ) (2025-06-16T08:42:31Z) - Keeping Up with the Models: Online Deployment and Routing of LLMs at Scale [6.911384287238722]
次段のモデルに対して最大$M_max$のモデルを選択する階層的アルゴリズムを,報酬高信頼と低コスト低信頼境界を用いて提案する。
ここで,StageRoute が次数$T2/3$ の後悔を達成し,一致した下界を提供し,ほぼ最適性を確立することを証明した。
論文 参考訳(メタデータ) (2025-06-08T12:25:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。