論文の概要: SRR-Judge: Step-Level Rating and Refinement for Enhancing Search-Integrated Reasoning in Search Agents
- arxiv url: http://arxiv.org/abs/2602.07773v1
- Date: Sun, 08 Feb 2026 02:07:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.793998
- Title: SRR-Judge: Step-Level Rating and Refinement for Enhancing Search-Integrated Reasoning in Search Agents
- Title(参考訳): SRR-Judge:検索エージェントの検索強化のためのステップレベルレーティングとリファインメント
- Authors: Chen Zhang, Kuicai Dong, Dexun Li, Wenjun Li, Qu Yang, Wei Han, Yong Liu,
- Abstract要約: SRR-Judgeは、推論と探索行動の信頼性の高い段階評価のためのフレームワークである。
SRR-Judgeは、探索積分推論のためのきめ細かいガイダンスを提供し、効率的な後トレーニングアノテーションを可能にする。
SRR-Judgeは、DeepSeek-V3.1のようなより大きなモデルよりも信頼性の高いステップレベルの評価を提供する。
- 参考スコア(独自算出の注目度): 30.92763154920672
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent deep search agents built on large reasoning models (LRMs) excel at complex question answering by iteratively planning, acting, and gathering evidence, a capability known as search-integrated reasoning. However, mainstream approaches often train this ability using only outcome-based supervision, neglecting the quality of intermediate thoughts and actions. We introduce SRR-Judge, a framework for reliable step-level assessment of reasoning and search actions. Integrated into a modified ReAct-style rate-and-refine workflow, SRR-Judge provides fine-grained guidance for search-integrated reasoning and enables efficient post-training annotation. Using SRR-annotated data, we apply an iterative rejection sampling fine-tuning procedure to enhance the deep search capability of the base agent. Empirically, SRR-Judge delivers more reliable step-level evaluations than much larger models such as DeepSeek-V3.1, with its ratings showing strong correlation with final answer correctness. Moreover, aligning the policy with SRR-Judge annotated trajectories leads to substantial performance gains, yielding over a 10 percent average absolute pass@1 improvement across challenging deep search benchmarks.
- Abstract(参考訳): 大規模推論モデル(LRM)上に構築された近年の深層検索エージェントは、反復的な計画、行動、証拠収集によって答える複雑な質問に優れており、これは探索統合推論として知られる能力である。
しかし、主流のアプローチはしばしば、結果に基づく監視のみを使用して、中間的な思考や行動の質を無視して、この能力を訓練する。
SRR-Judgeは、推論と探索行動の信頼性の高い段階評価のためのフレームワークである。
修正されたReActスタイルのレート・アンド・リファインなワークフローに統合されたSRR-Judgeは、検索統合推論のためのきめ細かいガイダンスを提供し、効率的な後トレーニングアノテーションを可能にする。
SRRアノテートデータを用いて, 基本エージェントの深部探索能力を高めるため, 反復的拒絶サンプリング細調整手法を適用した。
実証的に、SRR-JudgeはDeepSeek-V3.1のようなより大きなモデルよりも信頼性の高いステップレベルの評価を提供する。
さらに、SRR-Judgeアノテートされた軌道にポリシーを合わせると、パフォーマンスが大幅に向上し、挑戦的なディープ検索ベンチマークで平均10%以上の絶対パス@1の改善が達成される。
関連論文リスト
- Search-R2: Enhancing Search-Integrated Reasoning via Actor-Refiner Collaboration [49.9937230730202]
本稿では,新たなアクター・リファイナ・コラボレーション・フレームワークであるSearch-R2を提案する。
提案手法は,生成過程をアクターに分解し,最初の推論軌道を生成する。
本稿では,検索-R2がモデルスケール全体にわたって強力なRAGとRLベースのベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2026-02-03T15:32:09Z) - Chaining the Evidence: Robust Reinforcement Learning for Deep Search Agents with Citation-Aware Rubric Rewards [60.0970117192627]
強化学習(Reinforcement Learning, RL)は, LLMに基づくディープサーチエージェントの強化に重要な手法である。
既存のアプローチは主にバイナリ結果の報酬に依存しており、エージェントの推論プロセスの包括性と事実性を捉えていない。
ディープサーチエージェントのための微粒化報酬フレームワークである textbfCitation-aware RL Rewards (CaRR) を提案する。
論文 参考訳(メタデータ) (2026-01-09T18:57:53Z) - CriticSearch: Fine-Grained Credit Assignment for Search Agents via a Retrospective Critic [24.371889836599138]
CriticSearchは詳細なクレジット割り当てフレームワークで、振り返りの批判メカニズムを通じて、密集したターンレベルのフィードバックを提供する。
様々なマルチホップ推論ベンチマークの実験結果は、CriticSearchが既存のベースラインを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2025-11-15T11:06:57Z) - Thinking Forward and Backward: Multi-Objective Reinforcement Learning for Retrieval-Augmented Reasoning [137.33138614095435]
Retrieval-augmented Generation (RAG) は、大規模言語モデルにおける幻覚の緩和に有効であることが証明されている。
近年、検索に基づく対話をRAGに組み込んで、リアルタイム検索による反復推論を可能にしている。
提案するBi-RARは,各中間ステップを前方方向と後方方向の両方で共同で評価する,新たな検索拡張推論フレームワークである。
論文 参考訳(メタデータ) (2025-11-12T08:29:39Z) - RAVine: Reality-Aligned Evaluation for Agentic Search [7.4420114967110385]
RAVineは、検索を伴うエージェントLLMのための現実対応eValuationフレームワークである。
RAVineは、マルチポイントクエリと、ユーザの意図を反映した長文の回答をターゲットにしている。
RAVineを使って一連のモデルをベンチマークし、いくつかの洞察を得た。
論文 参考訳(メタデータ) (2025-07-22T16:08:12Z) - RAG-Zeval: Towards Robust and Interpretable Evaluation on RAG Responses through End-to-End Rule-Guided Reasoning [64.46921169261852]
RAG-Zevalは、ルール誘導推論タスクとして忠実さと正しさの評価を定式化する、新しいエンドツーエンドフレームワークである。
提案手法は、強化学習による評価者を訓練し、コンパクトなモデルにより包括的および音質評価を生成する。
実験では、RAG-Zevalの優れた性能を示し、人間の判断と最も強い相関性を達成した。
論文 参考訳(メタデータ) (2025-05-28T14:55:33Z) - Process vs. Outcome Reward: Which is Better for Agentic RAG Reinforcement Learning [45.10424242207931]
Retrieval-augmented Generation (RAG)は大規模言語モデル(LLM)のテキスト生成能力を向上する
RAG-ProGuideは,クエリ生成,エビデンス抽出,回答生成のためのプロセスレベルの報酬を提供する高品質なデータセットである。
プロセスレベルのポリシー最適化により、提案フレームワークはLLMに対して、検索を自律的に実行し、クエリを生成し、関連する証拠を抽出し、最終的な回答を生成する権限を与える。
論文 参考訳(メタデータ) (2025-05-20T08:21:00Z) - Chain-of-Retrieval Augmented Generation [91.02950964802454]
本稿では,o1-like RAGモデルを学習し,最終回答を生成する前に段階的に関連情報を抽出・推論する手法を提案する。
提案手法であるCoRAGは,進化状態に基づいて動的にクエリを再構成する。
論文 参考訳(メタデータ) (2025-01-24T09:12:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。