論文の概要: Search-R2: Enhancing Search-Integrated Reasoning via Actor-Refiner Collaboration
- arxiv url: http://arxiv.org/abs/2602.03647v1
- Date: Tue, 03 Feb 2026 15:32:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.54282
- Title: Search-R2: Enhancing Search-Integrated Reasoning via Actor-Refiner Collaboration
- Title(参考訳): Search-R2: Actor-Refinerコラボレーションによる検索集約推論の強化
- Authors: Bowei He, Minda Hu, Zenan Xu, Hongru Wang, Licheng Zong, Yankai Chen, Chen Ma, Xue Liu, Pluto Zhou, Irwin King,
- Abstract要約: 本稿では,新たなアクター・リファイナ・コラボレーション・フレームワークであるSearch-R2を提案する。
提案手法は,生成過程をアクターに分解し,最初の推論軌道を生成する。
本稿では,検索-R2がモデルスケール全体にわたって強力なRAGとRLベースのベースラインを一貫して上回ることを示す。
- 参考スコア(独自算出の注目度): 49.9937230730202
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Search-integrated reasoning enables language agents to transcend static parametric knowledge by actively querying external sources. However, training these agents via reinforcement learning is hindered by the multi-scale credit assignment problem: existing methods typically rely on sparse, trajectory-level rewards that fail to distinguish between high-quality reasoning and fortuitous guesses, leading to redundant or misleading search behaviors. To address this, we propose Search-R2, a novel Actor-Refiner collaboration framework that enhances reasoning through targeted intervention, with both components jointly optimized during training. Our approach decomposes the generation process into an Actor, which produces initial reasoning trajectories, and a Meta-Refiner, which selectively diagnoses and repairs flawed steps via a 'cut-and-regenerate' mechanism. To provide fine-grained supervision, we introduce a hybrid reward design that couples outcome correctness with a dense process reward quantifying the information density of retrieved evidence. Theoretically, we formalize the Actor-Refiner interaction as a smoothed mixture policy, proving that selective correction yields strict performance gains over strong baselines. Extensive experiments across various general and multi-hop QA datasets demonstrate that Search-R2 consistently outperforms strong RAG and RL-based baselines across model scales, achieving superior reasoning accuracy with minimal overhead.
- Abstract(参考訳): 検索統合推論により、言語エージェントは外部ソースを積極的に問い合わせることで静的パラメトリック知識を超越することができる。
しかし、強化学習によるこれらのエージェントの訓練は、マルチスケールの信用割当問題によって妨げられている: 既存の手法は、通常、粗末で軌跡レベルの報酬に依存しており、高品質な推論と偽の推測を区別できないため、冗長または誤った探索行動につながる。
そこで本研究では,目標介入による推論を強化する新しいアクタ-リファイナ協調フレームワークであるSearch-R2を提案する。
提案手法では, 生成過程をアクターに分解し, 初期推論軌道を生成するメタリファと, 「カット・アンド・リジェネレーション」機構を用いて, 欠陥のあるステップを選択的に診断し, 修復するメタリファに分解する。
そこで我々は,得られた証拠の情報密度を定量化するプロセス報酬と結果の正しさを結合するハイブリッド報酬設計を提案する。
理論的には、アクター-リファイナ相互作用を滑らかな混合ポリシーとして定式化し、選択的な補正が強いベースラインよりも厳密な性能向上をもたらすことを証明した。
さまざまな一般およびマルチホップQAデータセットにわたる大規模な実験により、Search-R2はモデルスケール全体で強力なRAGとRLベースのベースラインを一貫して上回り、オーバーヘッドを最小限に抑えながら優れた推論精度を実現している。
関連論文リスト
- ProRAG: Process-Supervised Reinforcement Learning for Retrieval-Augmented Generation [54.071574153853994]
ProRAGは、学習段階の監視をオンライン最適化ループに統合するために設計されたプロセス教師付き強化学習フレームワークである。
本フレームワークは,(1)構造化推論形式でモデルを初期化するための監視されたポリシーワームアップ,(2)中間推論品質を定量化するためのMCTSベースのプロセスリワードモデル(PRM)の構築,(3)細粒度プロセスの好みに合わせてポリシーを調整するためのPRM誘導推論リファインメント,(4)プロセススーパービジョン強化学習と2つのグラニュラリティー・アドバンテージ・メカニズムの4段階から構成される。
論文 参考訳(メタデータ) (2026-01-29T16:04:59Z) - PRISMA: Reinforcement Learning Guided Two-Stage Policy Optimization in Multi-Agent Architecture for Open-Domain Multi-Hop Question Answering [26.994531058178982]
大規模コーパスに対する現実世界のオープンドメイン問題への回答は、レトリーバル・拡張ジェネレーション(RAG)システムにおいて重要な課題である。
近年の研究では、検索強化推論プロセスのエンドツーエンド最適化に強化学習(RL)を採用している。
PRISMAはPlan-Retrieve-Inspect-Memoizeアーキテクチャを特徴とする分離誘導型フレームワークである。
論文 参考訳(メタデータ) (2026-01-09T01:38:38Z) - Adversarial Yet Cooperative: Multi-Perspective Reasoning in Retrieved-Augmented Language Models [72.4149653187766]
本稿ではAdrialversa Reasoning RAG(ARR)というReasoner-Verifierフレームワークを提案する。
ReasonerとVerifierは、回収された証拠を推論し、プロセス認識の利点によってガイドされながら、互いの論理を批判する。
複数のベンチマーク実験により,本手法の有効性が示された。
論文 参考訳(メタデータ) (2026-01-08T06:57:03Z) - Thinking Forward and Backward: Multi-Objective Reinforcement Learning for Retrieval-Augmented Reasoning [137.33138614095435]
Retrieval-augmented Generation (RAG) は、大規模言語モデルにおける幻覚の緩和に有効であることが証明されている。
近年、検索に基づく対話をRAGに組み込んで、リアルタイム検索による反復推論を可能にしている。
提案するBi-RARは,各中間ステップを前方方向と後方方向の両方で共同で評価する,新たな検索拡張推論フレームワークである。
論文 参考訳(メタデータ) (2025-11-12T08:29:39Z) - VAR: Visual Attention Reasoning via Structured Search and Backtracking [49.427842994857635]
構造化された検索としてグラウンドド推論をリキャストするフレームワークであるVisual Attention Reasoningを紹介する。
VARは、推論プロセスを2つの重要な段階に分解する。
我々は、我々の7BモデルであるVAR-7Bが、幻覚と安全性のベンチマークの包括的なスイートに新しい最先端を設定していることを示します。
論文 参考訳(メタデータ) (2025-10-21T13:18:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。