論文の概要: Co-ReAct: Rubrics as Step-Level Collaborators for ReAct Agents
- arxiv url: http://arxiv.org/abs/2605.23590v1
- Date: Fri, 22 May 2026 12:59:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 17:29:20.354398
- Title: Co-ReAct: Rubrics as Step-Level Collaborators for ReAct Agents
- Title(参考訳): 共試薬:レクリクトエージェントのためのステップレベルラボレータとしてのゴム
- Authors: Jiazheng Kang, Bowen Zhang, Zixin Song, Jiangwang Chen, Xiao Yang, Da Zhu, Guanjun Jiang,
- Abstract要約: 本稿では,ルーリック誘導型行動選択フレームワークCo-ReActを紹介する。
各決定ステップにおいて、Co-ReActはエージェントのコンテキストにルーブリックを注入し、次のReason-or-Act決定を導く。
我々は、GRPOで専用のルーリック発電機を訓練し、このガイダンスを信頼性の高いものにする。
- 参考スコア(独自算出の注目度): 6.89645931986174
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: ReAct-style agents for search-intensive, multi-step reasoning tasks rely largely on their own internal judgment to decide what evidence to seek, which reasoning or action step to take next, and when to stop, often producing shallow, redundant, or poorly targeted trajectories. Prior work has explored rubrics as external quality signals, but existing uses are mostly evaluative rather than action-guiding: rubrics typically serve as training-time rewards or post-hoc evaluators of completed outputs, and in deep-research settings they are often coarse-grained and report-level rather than step-level. We introduce Co-ReAct, a rubric-guided action-selection framework that uses rubrics as step-level guidance during inference. At each decision step, Co-ReAct injects a rubric into the agent's context to guide the next Reason-or-Act decision, specifying what the agent should target in evidence seeking, search, reasoning, or self-evaluation. To make this guidance reliable, we train a dedicated rubric generator with GRPO. Unlike prior pairwise or binary preference formulations, our objective optimizes a list-wise Spearman rank-correlation reward against multi-judge expert consensus rankings, encouraging rubrics that are discriminative rather than merely plausible. On DeepResearchBench and SQA-CS-V2, Co-ReAct consistently improves over ReAct and representative test-time compute baselines across search agents built on both 8B/14B open-source and frontier closed-source base models. The trained rubric generator can also serve as a drop-in component that improves these baselines without changing their underlying decision mechanisms. Our code is publicly available at https://github.com/ZBWpro/Co-ReAct.
- Abstract(参考訳): 検索集約型多段階推論タスクのためのReActスタイルのエージェントは、どの証拠を求めるか、どの推論またはアクションステップを次に行うか、そしていつ停止するか、しばしば浅い、冗長で、あるいはターゲットの悪い軌跡を生成するかを決定するために、内部判断に大きく依存する。
これまでの研究では、ルーブリックを外部品質信号として探索してきたが、既存の使用法はアクションガイドではなく評価的である: ルーブリックは、通常、訓練時報酬や、完了した出力のポストホック評価器として機能し、ディープ検索では、ステップレベルよりも粗く、レポートレベルが粗いことが多い。
推論時にステップレベルのガイダンスとしてルーブリックを使用する,ルーブリック誘導型アクション選択フレームワークであるCo-ReActを紹介する。
それぞれの決定ステップにおいて、コリアクトはエージェントのコンテキストにルーブリックを注入し、次のReason-or-Act決定を導く。
このガイダンスを信頼性の高いものにするために,GRPOを用いた専用ルーリック発電機を訓練する。
事前のペアワイズや二分選好の定式化とは異なり、我々の目的は、多目的専門家のコンセンサスランキングに対するリストワイズ・スピアマンのランク相関報酬を最適化し、単に可算性ではなく差別的なルックスを奨励する。
DeepResearchBenchとSQA-CS-V2では、Co-ReActは8B/14Bオープンソースベースモデルとフロンティアクローズソースベースモデルの両方で構築された検索エージェント間のReActおよび代表的なテストタイム計算ベースラインよりも一貫して改善されている。
トレーニングされたルーリックジェネレータは、基礎となる決定機構を変更することなく、これらのベースラインを改善するドロップインコンポーネントとしても機能する。
私たちのコードはhttps://github.com/ZBWpro/Co-ReAct.comで公開されています。
関連論文リスト
- RubricEM: Meta-RL with Rubric-guided Policy Decomposition beyond Verifiable Rewards [76.17893114021757]
長い形式のレポートを計画し、調査し、エビデンスを評価し、合成する深層研究システムには、根本的な答えがなく、多くのツール強化された決定にまたがる。
本研究では,ルーブリックは最終回答評価者だけでなく,ポリシーの実行,判断フィードバック,エージェントメモリを構成する共有インターフェースとして機能すべきである,と論じる。
我々は、段階的な政策分解とリフレクションに基づくメタ政治進化を組み合わせたルーリック誘導強化学習フレームワークEMを導入する。
論文 参考訳(メタデータ) (2026-05-11T17:40:38Z) - SRR-Judge: Step-Level Rating and Refinement for Enhancing Search-Integrated Reasoning in Search Agents [30.92763154920672]
SRR-Judgeは、推論と探索行動の信頼性の高い段階評価のためのフレームワークである。
SRR-Judgeは、探索積分推論のためのきめ細かいガイダンスを提供し、効率的な後トレーニングアノテーションを可能にする。
SRR-Judgeは、DeepSeek-V3.1のようなより大きなモデルよりも信頼性の高いステップレベルの評価を提供する。
論文 参考訳(メタデータ) (2026-02-08T02:07:41Z) - Search-R2: Enhancing Search-Integrated Reasoning via Actor-Refiner Collaboration [49.9937230730202]
本稿では,新たなアクター・リファイナ・コラボレーション・フレームワークであるSearch-R2を提案する。
提案手法は,生成過程をアクターに分解し,最初の推論軌道を生成する。
本稿では,検索-R2がモデルスケール全体にわたって強力なRAGとRLベースのベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2026-02-03T15:32:09Z) - Learning Query-Specific Rubrics from Human Preferences for DeepResearch Report Generation [80.12435680651488]
本稿では,DeepResearchレポート生成に適した,人間の参照型クエリ専用ルーリックジェネレータを訓練するためのパイプラインを提案する。
まず,DeepResearchスタイルのアノテートクエリのデータセットを,ペアレポートよりも人間の好みで構築し,強化学習を通じてルーリックジェネレータを訓練する。
提案したルーリック・ジェネレータは既存のルーリック・デザイン・ストラテジーよりも、より差別的で優れたヒューマン・アライメント・インテリジェンスを実現することを実証的に示す。
論文 参考訳(メタデータ) (2026-02-03T15:09:56Z) - Thinking Forward and Backward: Multi-Objective Reinforcement Learning for Retrieval-Augmented Reasoning [137.33138614095435]
Retrieval-augmented Generation (RAG) は、大規模言語モデルにおける幻覚の緩和に有効であることが証明されている。
近年、検索に基づく対話をRAGに組み込んで、リアルタイム検索による反復推論を可能にしている。
提案するBi-RARは,各中間ステップを前方方向と後方方向の両方で共同で評価する,新たな検索拡張推論フレームワークである。
論文 参考訳(メタデータ) (2025-11-12T08:29:39Z) - SIRAG: Towards Stable and Interpretable RAG with A Process-Supervised Multi-Agent Framework [7.37561751991963]
本稿では,レシーバとジェネレータのギャップを埋めるプロセス管理型マルチエージェントフレームワークを提案する。
提案するフレームワークはモジュール式でプラグアンドプレイで、レトリバーやジェネレータを変更する必要はない。
論文 参考訳(メタデータ) (2025-09-17T09:09:28Z) - ReAct: Temporal Action Detection with Relational Queries [84.76646044604055]
本研究は,アクションクエリを備えたエンコーダ・デコーダフレームワークを用いて,時間的行動検出(TAD)の進展を図ることを目的とする。
まず,デコーダ内の関係注意機構を提案し,その関係に基づいてクエリ間の関心を誘導する。
最後に、高品質なクエリを区別するために、推論時に各アクションクエリのローカライズ品質を予測することを提案する。
論文 参考訳(メタデータ) (2022-07-14T17:46:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。