論文の概要: Deep Research as Rubric for Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2606.01091v1
- Date: Sun, 31 May 2026 08:25:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:29.200094
- Title: Deep Research as Rubric for Reinforcement Learning
- Title(参考訳): 強化学習のためのルーブリックとしての深層研究
- Authors: Wangyi Mei, Zhouhong Gu, Zhenhan Bai, Yin Cai, Lefan Zhang, Zhenxin Ding, Bo Chen, Yan Gao, Yi Wu, Yao Hu, Jiaqing Liang, Deqing Yang,
- Abstract要約: オープンエンドのルーブリックを構築するための2段階のフレームワークを提案する。
DR-rubric-8Bはフロンティアモデルなしでブートストラップ生成をサポートする。
実験によると、DR-rubricは1K -- 3Kのトレーニングインスタンスで強力な競争性能を達成する。
- 参考スコア(独自算出の注目度): 35.642522713903794
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open-ended reasoning and long-form generation tasks lack reliable automatic verification signals for reward-based policy optimization. Rubrics offer a promising alternative, but existing approaches treat them as given artifacts -- either hand-crafted or prompt-generated -- and often miss the task-specific, knowledge-intensive dimensions that matter most, distorting the reward signal. Our key observation is that rubric construction is itself a research problem: identifying what makes a response correct or insightful requires discovering and synthesizing external knowledge. We propose Deep Research as Rubric (DR-rubric), a two-stage framework for constructing such rubrics. Stage I elicits domain facts, structural constraints, and failure modes through iterative multi-turn agentic search; Stage II distills this evidence into atomic, independently verifiable constraints for GRPO-based policy optimization. Because the model under training can serve as its own rubric generator, DR-rubric-8B supports bootstrap rubric generation without frontier-model assistance. We evaluate on 6 benchmarks spanning agentic research and expert reasoning. Experiments show that DR-Rubric achieves strong competitive performance with only 1K -- 3K training instances, where GPT-5-generated rubrics particularly benefit breadth coverage on agentic tasks, Gemini-generated rubrics yield the most balanced performance across agentic and expert reasoning tasks, and bootstrap rubrics exhibit a specialization-to-rebalancing evolution achieving the best overall performance at the third iteration. Results demonstrate that reframing rubric construction from static evaluation templates into an evidence-driven research process yields more scalable, fine-grained reward signals for open-ended tasks.
- Abstract(参考訳): オープンエンド推論とロングフォーム生成タスクには、報酬ベースのポリシー最適化のための信頼性の高い自動検証信号が欠けている。
ルーブリックは有望な代替手段を提供するが、既存のアプローチでは、手作りまたは即時生成の成果物として扱うことができ、多くの場合、最も重要なタスク固有の知識集約的な次元を見逃し、報酬信号を歪めてしまう。
私たちのキーとなる観察は、ルーブリック構造はそれ自体が研究上の問題であるということです。
このようなルーブリックを構築するための2段階フレームワークとして,Deep Research as Rubric (DR-rubric)を提案する。
ステージIはドメイン事実、構造的制約、障害モードを反復的マルチターンエージェントサーチによって引き起こし、ステージIIはこの証拠をGRPOベースのポリシー最適化のための原子的に独立に検証可能な制約に蒸留する。
訓練中のモデルは独自のルーブリックジェネレータとして機能するため、DR-rubric-8Bはフロンティアモデルの補助なしにブートストラップルーブリック生成をサポートする。
エージェント研究と専門家の推論にまたがる6つのベンチマークを評価した。
実験の結果、DR-Rubricはたった1K-3Kのトレーニングインスタンスで強力な競争性能を達成していることがわかった。GPT-5の生成したルーブリックはエージェントタスクの広範なカバレッジ、Geminiの生成したルーブリックはエージェントおよび専門家の推論タスク間で最もバランスのとれたパフォーマンス、ブートストラップルーブリックは3回目のイテレーションで最高のパフォーマンスを達成するための特殊化と再分散の進化を示す。
その結果、静的評価テンプレートからエビデンス駆動の研究プロセスへの再フレーミングルーリック構造は、オープンエンドタスクに対してよりスケーラブルできめ細かい報酬信号をもたらすことが示された。
関連論文リスト
- Rethinking Reasoning-Intensive Retrieval: Evaluating and Advancing Retrievers in Agentic Search Systems [55.04168927059962]
推論集約的な検索は、単にトピックの類似性に一致するのではなく、下流の推論を支持する証拠を明らかにすることを目的としている。
BRIGHT-Proは、専門家による注釈付きベンチマークで、各クエリを複数アスペクトのゴールドエビデンスで拡張する。
また,相補的な正と正条件の強陰性を生成するアスペクト分解型合成コーパスであるRTriever-Synthを構築した。
論文 参考訳(メタデータ) (2026-05-05T17:42:50Z) - KARL: Knowledge Agents via Reinforcement Learning [63.627906947205624]
本稿では,強化学習による企業検索エージェントの訓練システムを提案する。
KARLBenchは、6つの異なる検索レギュレーションにまたがる多機能評価スイートである。
異種探索行動で訓練されたモデルは、どのベンチマークにも最適化されたモデルよりもかなりよく一般化されていることを示す。
論文 参考訳(メタデータ) (2026-03-05T14:30:25Z) - Search-R2: Enhancing Search-Integrated Reasoning via Actor-Refiner Collaboration [49.9937230730202]
本稿では,新たなアクター・リファイナ・コラボレーション・フレームワークであるSearch-R2を提案する。
提案手法は,生成過程をアクターに分解し,最初の推論軌道を生成する。
本稿では,検索-R2がモデルスケール全体にわたって強力なRAGとRLベースのベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2026-02-03T15:32:09Z) - ProRAG: Process-Supervised Reinforcement Learning for Retrieval-Augmented Generation [54.071574153853994]
ProRAGは、学習段階の監視をオンライン最適化ループに統合するために設計されたプロセス教師付き強化学習フレームワークである。
本フレームワークは,(1)構造化推論形式でモデルを初期化するための監視されたポリシーワームアップ,(2)中間推論品質を定量化するためのMCTSベースのプロセスリワードモデル(PRM)の構築,(3)細粒度プロセスの好みに合わせてポリシーを調整するためのPRM誘導推論リファインメント,(4)プロセススーパービジョン強化学習と2つのグラニュラリティー・アドバンテージ・メカニズムの4段階から構成される。
論文 参考訳(メタデータ) (2026-01-29T16:04:59Z) - Step-DeepResearch Technical Report [90.50586290399683]
コスト効率のよいエンドツーエンドエージェントである Step-DeepResearch を紹介する。
我々は、計画とレポート作成を強化するために、アトミック能力に基づくデータ合成戦略を提案する。
中国における評価ギャップを埋めるため,現実的な深層研究シナリオのためのADR-Benchを構築した。
論文 参考訳(メタデータ) (2025-12-23T16:32:27Z) - ResearchRubrics: A Benchmark of Prompts and Rubrics For Evaluating Deep Research Agents [11.666923792025313]
Deep Research(DR)は、大規模言語モデルを活用して、オープンなクエリに対処する新興エージェントアプリケーションである。
我々はResearchRubricsを紹介します。これは2,800時間以上の人的労働時間で構築されたDRの標準ベンチマークです。
また,DRタスクを3つの軸(概念的幅,論理的ネスト,探索)に沿って分類する,新たな複雑性フレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-10T23:07:14Z) - FAIR-RAG: Faithful Adaptive Iterative Refinement for Retrieval-Augmented Generation [0.0]
本稿では、標準的なRAGパイプラインを動的にエビデンス駆動の推論プロセスに変換する新しいエージェントフレームワークであるFAIR-RAGを紹介する。
本稿では,HotpotQA,2WikiMultiHopQA,MusiQueなどのマルチホップQAベンチマーク実験を行う。
我々の研究は、高度なRAGシステムにおける信頼性と正確な推論を解き明かすためには、明確なギャップ分析による構造化されたエビデンス駆動の洗練プロセスが不可欠であることを示す。
論文 参考訳(メタデータ) (2025-10-25T15:59:33Z) - Process vs. Outcome Reward: Which is Better for Agentic RAG Reinforcement Learning [45.10424242207931]
Retrieval-augmented Generation (RAG)は大規模言語モデル(LLM)のテキスト生成能力を向上する
RAG-ProGuideは,クエリ生成,エビデンス抽出,回答生成のためのプロセスレベルの報酬を提供する高品質なデータセットである。
プロセスレベルのポリシー最適化により、提案フレームワークはLLMに対して、検索を自律的に実行し、クエリを生成し、関連する証拠を抽出し、最終的な回答を生成する権限を与える。
論文 参考訳(メタデータ) (2025-05-20T08:21:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。