論文の概要: Budget-Aware Agentic Routing via Boundary-Guided Training
- arxiv url: http://arxiv.org/abs/2602.21227v1
- Date: Wed, 04 Feb 2026 07:39:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-02 07:21:25.662688
- Title: Budget-Aware Agentic Routing via Boundary-Guided Training
- Title(参考訳): 境界誘導訓練による予算対応エージェントルーティング
- Authors: Caiqi Zhang, Menglin Xia, Xuchao Zhang, Daniel Madrigal, Ankur Mallick, Samuel Kessler, Victor Ruehle, Saravan Rajmohan,
- Abstract要約: 予算対応エージェントルーティング(Budget-Aware Agentic Routing)は、各ステップで安価なモデルと高価なモデルを選択して、コスト削減フロンティアを最適化する。
境界誘導訓練(Boundary-Guided Training)は、希少な報酬の下で学習を定着させるために難しい分類法を構築する。
実験結果から,提案手法は高効率フロンティアを改良し,強いルーティングベースラインを極めて低コストで整合することを示した。
- 参考スコア(独自算出の注目度): 24.0709108941881
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As large language models (LLMs) evolve into autonomous agents that execute long-horizon workflows, invoking a high-capability model at every step becomes economically unsustainable. While model routing is effective for single-turn queries, agentic routing is a sequential, path-dependent problem: early mistakes compound, feedback is often at the end of the episode, and deployments often demand strict per-task spending limits. We propose Budget-Aware Agentic Routing, which selects between a cheap and an expensive model at each step to optimize the cost--success frontier and to operate under strict per-task budgets. We propose Boundary-Guided Training, which leverages two boundary policies (always-small vs.\ always-large) to build a difficulty taxonomy and to anchor learning under sparse rewards. Our approach warms start with boundary-guided SFT data synthesis via stratified sampling of cost-efficient trajectories, then applies Boundary-Guided Policy Optimization (BoPO), combining boundary-relative rewards with a reference-guided advantage to avoid degenerate cheap-failure solutions. Experiment results show that our method improves the efficiency frontier, matching strong routing baselines at substantially lower cost while demonstrating generalization to strict inference-time budget constraints. Overall, our work establishes a foundational framework for agentic routing, shifting the paradigm from static model selection to dynamic, budget-aware sequential decision-making.
- Abstract(参考訳): 大規模言語モデル(LLM)が長期のワークフローを実行する自律エージェントへと進化するにつれて、すべてのステップで高機能モデルを呼び出すことは経済的に持続不可能になる。
モデルルーティングはシングルターンクエリに有効だが、エージェントルーティングはシーケンシャルでパスに依存した問題である。
予算対応型エージェントルーティングを提案し、各ステップで安価なモデルと高価なモデルを選択して、フロンティアを最適化し、タスクごとの厳格な予算の下で運用する。
2つの境界政策(常に小さすぎる対)を活用する境界誘導訓練を提案する。
難易度の高い分類を作ることと、まばらな報酬の下での学習を定着させること。
提案手法は,コスト効率の高いトラジェクトリの階層化サンプリングによる境界誘導型SFTデータ合成から始まり,境界誘導型ポリシー最適化(BoPO)を適用して,境界誘導型報酬と基準誘導型利点を組み合わせることで,安価な障害解の退化を回避する。
実験の結果,提案手法は,厳密な推論時間予算制約への一般化を図りながら,強いルーティングベースラインを極めて低コストで整合し,効率のフロンティアの向上を図っている。
全体として、我々の研究はエージェントルーティングの基盤となるフレームワークを確立し、パラダイムを静的モデル選択から動的で予算に配慮したシーケンシャルな意思決定へとシフトさせます。
関連論文リスト
- Learning Query-Aware Budget-Tier Routing for Runtime Agent Memory [56.0946692457838]
BudgetMemは、明示的でクエリ対応のパフォーマンスコスト管理のためのランタイムエージェントメモリフレームワークである。
軽量ルータは、タスク性能とメモリ構築コストのバランスをとるために、モジュール間の予算層ルーティングを実行する。
LoCoMo、LongMemEval、HotpotQAの他、BudgetMemはパフォーマンスが優先されるときに、強力なベースラインを超える。
論文 参考訳(メタデータ) (2026-02-05T18:57:09Z) - TRIM: Hybrid Inference via Targeted Stepwise Routing in Multi-Step Reasoning Tasks [26.198066761026297]
現在のメソッドはクエリ全体を1つのモデルに割り当て、すべての推論を1つのモデルに等しいものとして扱います。
我々は,全ての多段階推論タスクを処理する新しいモデルを提案する。
簡単なしきい値からより表現力のあるルーティングポリシまで,さまざまな戦略を開発しています。
論文 参考訳(メタデータ) (2026-01-15T10:06:06Z) - EvoRoute: Experience-Driven Self-Routing LLM Agent Systems [100.64399490164959]
EvoRouteは、静的で事前定義されたモデルの割り当てを超越する、自己進化型のモデルルーティングパラダイムである。
挑戦的なエージェントベンチマークの実験によると、既製のエージェントシステムに統合されたEvoRouteは、システムのパフォーマンスを維持または向上するだけでなく、実行コストを最大80%削減し、レイテンシを70%以上削減する。
論文 参考訳(メタデータ) (2026-01-06T04:06:46Z) - CONCUR: A Framework for Continual Constrained and Unconstrained Routing [79.85419373937765]
AIタスクは複雑さが異なり、異なる計算戦略で対処するのが最善である。
これまでのほとんどのメソッドは、すべての戦略で単一のモデルをトレーニングすることで、ルーティングフレームワークを構築していました。
制約付きルーティングと制約なしルーティングの両方をサポートする連続的なルーティングフレームワークであるCONCURを提案する。
論文 参考訳(メタデータ) (2025-12-10T07:30:13Z) - xRouter: Training Cost-Aware LLMs Orchestration System via Reinforcement Learning [104.63494870852894]
我々は,学習したルータが直接応答するか,あるいは1つ以上の外部モデルを呼び出すことができるツールコールベースのルーティングシステム x を提案する。
当社の実装には、報酬とコスト会計を含む、完全な強化学習フレームワークが含まれています。
さまざまなベンチマークで、xはコストパフォーマンスのトレードオフを強く達成します。
論文 参考訳(メタデータ) (2025-10-09T16:52:01Z) - SATER: A Self-Aware and Token-Efficient Approach to Routing and Cascading [39.20076289493037]
本稿では,最短応答の選好最適化と信頼度を考慮した拒絶機構を通じて細管モデルをモデル化する二重モード互換手法SATERを紹介する。
SATERは、前世代のルーティングの性能とカスケードルーティングの効率の両方を改善しながら、冗長な出力と応答時間を著しく削減する。
論文 参考訳(メタデータ) (2025-10-04T19:55:36Z) - Keeping Up with the Models: Online Deployment and Routing of LLMs at Scale [6.911384287238722]
次段のモデルに対して最大$M_max$のモデルを選択する階層的アルゴリズムを,報酬高信頼と低コスト低信頼境界を用いて提案する。
ここで,StageRoute が次数$T2/3$ の後悔を達成し,一致した下界を提供し,ほぼ最適性を確立することを証明した。
論文 参考訳(メタデータ) (2025-06-08T12:25:26Z) - Scalable Chain of Thoughts via Elastic Reasoning [61.75753924952059]
Elastic Reasoningは、スケーラブルな思考の連鎖のための新しいフレームワークである。
推論は、独立して割り当てられた予算で、思考と解決の2つのフェーズに分けられる。
我々のアプローチは、制約のない設定でもより簡潔で効率的な推論をもたらす。
論文 参考訳(メタデータ) (2025-05-08T15:01:06Z) - From Restless to Contextual: A Thresholding Bandit Reformulation For Finite-horizon Performance [8.173852377640964]
我々は,オンラインRBの改革を,文脈的盗賊の根源として導入する。
単純化された有限ホライゾン設定に対するオラクルポリシーの最初の漸近的でない最適性を証明する。
本研究は, 有限水平RBにおける実践的, サンプル効率の学習を実現するための新しい経路を提供する。
論文 参考訳(メタデータ) (2025-02-07T18:23:43Z) - Self-Regulation and Requesting Interventions [63.5863047447313]
介入要求のための"helper"ポリシーをトレーニングするオフラインフレームワークを提案する。
PRMによる最適介入タイミングを判定し,これらのラベル付き軌道上でヘルパーモデルを訓練する。
このオフラインアプローチは、トレーニング中のコストのかかる介入コールを大幅に削減する。
論文 参考訳(メタデータ) (2025-02-07T00:06:17Z) - An Efficient Learning-based Solver Comparable to Metaheuristics for the
Capacitated Arc Routing Problem [67.92544792239086]
我々は,高度メタヒューリスティックスとのギャップを著しく狭めるため,NNベースの解法を導入する。
まず,方向対応型注意モデル(DaAM)を提案する。
第2に、教師付き事前学習を伴い、堅牢な初期方針を確立するための教師付き強化学習スキームを設計する。
論文 参考訳(メタデータ) (2024-03-11T02:17:42Z) - Imitate the Good and Avoid the Bad: An Incremental Approach to Safe Reinforcement Learning [11.666700714916065]
制約付きRLは強化学習における安全な行動を実施するためのフレームワークである。
制約付きRLを解くための最近の手法は、軌道に基づくコスト制約を代理問題に変換する。
トラジェクトリに基づくコスト制約を変更しず、代わりにグッドのトラジェクトリを模倣するアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-16T08:48:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。