論文の概要: Chaining the Evidence: Robust Reinforcement Learning for Deep Search Agents with Citation-Aware Rubric Rewards
- arxiv url: http://arxiv.org/abs/2601.06021v1
- Date: Fri, 09 Jan 2026 18:57:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-12 17:41:50.076036
- Title: Chaining the Evidence: Robust Reinforcement Learning for Deep Search Agents with Citation-Aware Rubric Rewards
- Title(参考訳): 証拠の連鎖:サイテーションを意識した深い探索エージェントのためのロバスト強化学習
- Authors: Jiajie Zhang, Xin Lv, Ling Feng, Lei Hou, Juanzi Li,
- Abstract要約: 強化学習(Reinforcement Learning, RL)は, LLMに基づくディープサーチエージェントの強化に重要な手法である。
既存のアプローチは主にバイナリ結果の報酬に依存しており、エージェントの推論プロセスの包括性と事実性を捉えていない。
ディープサーチエージェントのための微粒化報酬フレームワークである textbfCitation-aware RL Rewards (CaRR) を提案する。
- 参考スコア(独自算出の注目度): 60.0970117192627
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) has emerged as a critical technique for enhancing LLM-based deep search agents. However, existing approaches primarily rely on binary outcome rewards, which fail to capture the comprehensiveness and factuality of agents' reasoning process, and often lead to undesirable behaviors such as shortcut exploitation and hallucinations. To address these limitations, we propose \textbf{Citation-aware Rubric Rewards (CaRR)}, a fine-grained reward framework for deep search agents that emphasizes reasoning comprehensiveness, factual grounding, and evidence connectivity. CaRR decomposes complex questions into verifiable single-hop rubrics and requires agents to satisfy these rubrics by explicitly identifying hidden entities, supporting them with correct citations, and constructing complete evidence chains that link to the predicted answer. We further introduce \textbf{Citation-aware Group Relative Policy Optimization (C-GRPO)}, which combines CaRR and outcome rewards for training robust deep search agents. Experiments show that C-GRPO consistently outperforms standard outcome-based RL baselines across multiple deep search benchmarks. Our analysis also validates that C-GRPO effectively discourages shortcut exploitation, promotes comprehensive, evidence-grounded reasoning, and exhibits strong generalization to open-ended deep research tasks. Our code and data are available at https://github.com/THUDM/CaRR.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は, LLMに基づくディープサーチエージェントの強化に重要な手法である。
しかし、既存のアプローチは主にバイナリ結果の報酬に依存しており、エージェントの推論プロセスの包括性と事実性を捉えることができず、しばしばショートカットの搾取や幻覚のような望ましくない行動を引き起こす。
これらの制約に対処するため,深層検索エージェントに対する細粒度報酬フレームワークである textbf{Citation-aware Rubric Rewards (CaRR)} を提案する。
CaRRは、複雑な質問を検証可能なシングルホップルーブリックに分解し、隠された実体を明示的に特定し、正しい引用でそれらをサポートし、予測された答えにリンクする完全なエビデンスチェーンを構築することによって、これらのルーブリックを満足させるエージェントを必要とする。
さらに,より堅牢な深層検索エージェントの訓練に,CaRRと結果報酬を組み合わせた 'textbf{Citation-aware Group Relative Policy Optimization (C-GRPO)' を導入する。
実験により、C-GRPOは複数のディープ検索ベンチマークで標準結果ベースのRLベースラインを一貫して上回っていることが示された。
我々はまた,C-GRPOがショートカットの活用を効果的に阻止し,包括的でエビデンスに基づく推論を促進し,オープンエンドディープリサーチタスクへの強力な一般化を示すことを検証した。
私たちのコードとデータはhttps://github.com/THUDM/CaRR.orgで公開されています。
関連論文リスト
- Repurposing Synthetic Data for Fine-grained Search Agent Supervision [81.95597592711688]
LLMベースの検索エージェントは、エンティティ中心の合成データに基づいてますます訓練されている。
一般的なトレーニングメソッドは、このリッチなエンティティ情報を破棄し、代わりにスパースで結果に基づく報酬に依存します。
E-GRPO(Entity-Aware Group Relative Policy Optimization)は、高密度なエンティティ認識報酬関数を定式化する新しいフレームワークである。
論文 参考訳(メタデータ) (2025-10-28T17:50:40Z) - PoU: Proof-of-Use to Counter Tool-Call Hacking in DeepResearch Agents [24.502121097996294]
Retrieval-augmented Generation (RAG) エージェントは、外部ツールを通じて、自律的な情報検索機能を備えた大規模言語モデルを拡張する。
以前見過ごされた障害モードであるTool-Call Hacking(ツールコールハッキング)を識別します。
提案するProof-of-Use(PoU)フレームワークは,検索された証拠,推論トレース,最終回答間の因果関係の検証を行う。
論文 参考訳(メタデータ) (2025-10-13T02:45:37Z) - ReSeek: A Self-Correcting Framework for Search Agents with Instructive Rewards [18.92867715736209]
本稿では,検索エージェントを訓練するための自己修正フレームワークであるReSeekを提案する。
本フレームワークでは,誤探索経路からエージェントを動的に識別・復元する自己補正機構を導入している。
既存のデータセットにおけるデータ汚染のリスクを軽減するため、FictionalHotを導入する。
論文 参考訳(メタデータ) (2025-10-01T06:44:28Z) - Towards Agentic RAG with Deep Reasoning: A Survey of RAG-Reasoning Systems in LLMs [69.10441885629787]
Retrieval-Augmented Generation (RAG) は、外部知識を注入することによって、Large Language Models (LLM) の事実性を高める。
逆に、純粋に推論指向のアプローチは、しばしば幻覚的あるいは誤った事実を必要とする。
この調査は両鎖を統一的推論-検索の観点から合成する。
論文 参考訳(メタデータ) (2025-07-13T03:29:41Z) - ClueAnchor: Clue-Anchored Knowledge Reasoning Exploration and Optimization for Retrieval-Augmented Generation [82.54090885503287]
Retrieval-Augmented Generationは、外部知識を持つ大規模言語モデルを拡張して、事実性を改善する。
既存のRAGシステムは、忠実で解釈可能な推論をサポートするために必要な重要な手がかりを抽出して統合することができない。
本稿では,手掛かり付き推論探索と最適化によるRAG向上のための新しいフレームワークであるClueAnchorを提案する。
論文 参考訳(メタデータ) (2025-05-30T09:18:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。