論文の概要: Rubric-Guided Process Reward for Stepwise Model Routing
- arxiv url: http://arxiv.org/abs/2605.29310v1
- Date: Thu, 28 May 2026 03:42:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:55.641792
- Title: Rubric-Guided Process Reward for Stepwise Model Routing
- Title(参考訳): ステップワイズモデルルーティングのためのルーブリックガイドプロセスリワード
- Authors: Shenghao Ye, Yu Guo, Zhengheng Li, Shuangwu Chen, Jian Yang,
- Abstract要約: ステップワイズモデルルーティングは、各推論ステップを適切なモデルに割り当てることで、Large Reasoning Models(LRM)の効率を改善する。
最近の方法では、順序決定プロセスとしてルーティングを定式化し、強化学習でルータを訓練する。
ステップワイズモデルルーティングのためのルーリック誘導プロセス報酬フレームワークであるRoRoを提案する。
- 参考スコア(独自算出の注目度): 18.58577344135632
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Stepwise model routing improves the efficiency of Large Reasoning Models (LRMs) by assigning each reasoning step to a suitable model. Recent methods formulate routing as a sequential decision process and train the router with reinforcement learning. However, although they model routing as a process, they still supervise the router with outcome rewards. Such rewards only reflect final answer correctness and fail to evaluate intermediate routing decisions, which can weaken performance and generalization. To address this gap, we propose RoRo, a rubric-guided process reward framework for stepwise model routing. RoRo first collects diverse routing trajectories and constructs preference pairs based on outcome, cost, and process quality. It then trains a Rubricor to generate a query-specific evaluation rubric and a Judge to score routing trajectories under this rubric through alternating optimization. The resulting process rewards are combined with outcome rewards to optimize the routing policy via GRPO. Experiments on five reasoning benchmarks under both same-family and cross-family settings show that RoRo consistently outperforms strong baselines and achieves better accuracy and cost trade-offs.
- Abstract(参考訳): ステップワイズモデルルーティングは、各推論ステップを適切なモデルに割り当てることで、Large Reasoning Models(LRM)の効率を改善する。
最近の方法では、順序決定プロセスとしてルーティングを定式化し、強化学習でルータを訓練する。
しかし、彼らはルーティングをプロセスとしてモデル化するが、それでも結果の報酬でルータを監督する。
このような報酬は最終回答の正しさのみを反映し、中間経路決定の評価に失敗し、性能と一般化を弱める可能性がある。
このギャップに対処するため、ステップワイズモデルルーティングのためのルーリック誘導プロセス報酬フレームワークであるRoRoを提案する。
RoRoはまず、さまざまなルーティングトラジェクトリを収集し、結果、コスト、プロセス品質に基づいて、好みのペアを構築する。
次に、Rubricorをトレーニングして、クエリ固有の評価ルーブリックを生成し、ジャッジは、このルーブの下のルーティングトラジェクトリを、交互に最適化することでスコア付けする。
結果のプロセス報酬と結果報酬を組み合わせて、GRPOを介してルーティングポリシーを最適化する。
同じファミリーとクロスファミリーの両方で5つの推論ベンチマークの実験は、RoRoが一貫して強いベースラインを上回り、精度とコストのトレードオフが向上していることを示している。
関連論文リスト
- Beyond Query Memorization: Large Language Model Routing with Query Decomposition and Historical Matching [6.980897284458787]
DecoRは、ルーティングタスクを、過去のログから同様のクエリを精査するマッチングプロセスとして再キャストする。
マッチング精度を向上させるために,タスク固有の要件から言語表面の形状を分離するクエリ機能を導入する。
論文 参考訳(メタデータ) (2026-05-25T08:12:58Z) - Route Before Retrieve: Activating Latent Routing Abilities of LLMs for RAG vs. Long-Context Selection [57.3886742625188]
Pre-Routeは、応答前に構造化推論を実行するプロアクティブなルーティングフレームワークである。
本研究は, (i) LLMは, ガイドラインを確実に適用可能な遅延ルーティング能力を有すること, (ii) 線形プローブにより, 表現空間における最適ルーティングの分離性を高めること, (iii) 蒸留により, この推論構造を, 軽量展開のためのより小さなモデルに伝達すること,の3つの重要な知見を示す。
論文 参考訳(メタデータ) (2026-05-11T09:10:55Z) - Efficient and Interpretable Multi-Agent LLM Routing via Ant Colony Optimization [58.59491516762626]
マルチエージェントシステム(MAS)のための効率的かつ解釈可能なルーティングフレームワークAMRO-Sを提案する。
AMRO-Sは、意味条件付き経路選択問題としてMASルーティングをモデル化し、3つのキーメカニズムを通してルーティング性能を向上させる。
5つの公開ベンチマークと高速ストレステストによる大規模な実験により、AMRO-Sは強いルーティングベースラインに対する品質-コストトレードオフを一貫して改善することを示した。
論文 参考訳(メタデータ) (2026-03-13T12:26:05Z) - Learning to Route LLMs from Bandit Feedback: One Policy, Many Trade-offs [69.2486294522259]
BaRPはBandit Routing-feedback with Preferencesアプローチであり、デプロイと同じ部分フィードバック制限の下でトレーニングされる。
提案手法は,学習中のオンラインフィードバック設定をシミュレートし,新たなプロンプトに適応する。
論文 参考訳(メタデータ) (2025-10-08T18:24:59Z) - Router-R1: Teaching LLMs Multi-Round Routing and Aggregation via Reinforcement Learning [27.70756702796812]
マルチLLMルーティングとアグリゲーションを逐次決定プロセスとして定式化する強化学習フレームワークである textbf Generalization-R1 を提案する。
学習を容易にするために,形式報酬と最終結果報酬と,性能とコストのバランスを最適化するための新たなコスト報酬からなる軽量なルールベース報酬を用いる。
論文 参考訳(メタデータ) (2025-06-10T17:56:45Z) - Learning to Route Queries Across Knowledge Bases for Step-wise Retrieval-Augmented Reasoning [60.84901522792042]
Multimodal Retrieval-Augmented Generation (MRAG)は、マルチモーダル大言語モデル(MLLM)における幻覚の緩和を約束している。
進化する推論状態に基づいて知識をいつどこで取得するかを学習する新しいMRAGフレームワークであるR1を提案する。
R1-は多種多様なKBを適応的かつ効果的に利用でき、不要な検索を減らし、効率と精度を向上させる。
論文 参考訳(メタデータ) (2025-05-28T08:17:57Z) - CITER: Collaborative Inference for Efficient Large Language Model Decoding with Token-Level Routing [74.14816777318033]
Token-lEvel Routing(CITER)との協調推論は、小規模および大規模言語モデルの効率的な協調を可能にするフレームワークである。
ルータの学習をポリシー最適化として定式化し、予測の質と生成の推論コストの両方に基づいて報酬を受け取る。
実験の結果,CITERは高品質な生成を保ちながら推論コストを低減し,リアルタイムおよびリソース制約のあるアプリケーションに対して有望なソリューションを提供することがわかった。
論文 参考訳(メタデータ) (2025-02-04T03:36:44Z) - Inverse Optimization for Routing Problems [3.282021317933024]
Inverse Optimization (IO) を用いたルーティング問題における意思決定者の行動学習手法を提案する。
提案手法の柔軟性と実世界の可能性を示し,ルーティング問題における意思決定者の判断から学ぶ。
論文 参考訳(メタデータ) (2023-07-14T14:03:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。