論文の概要: Inference-Time Scaling of Verification: Self-Evolving Deep Research Agents via Test-Time Rubric-Guided Verification
- arxiv url: http://arxiv.org/abs/2601.15808v1
- Date: Thu, 22 Jan 2026 09:47:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-23 21:37:20.563127
- Title: Inference-Time Scaling of Verification: Self-Evolving Deep Research Agents via Test-Time Rubric-Guided Verification
- Title(参考訳): 検証の推論時間スケーリング:テスト時間ルーブリックガイドによる自己進化型ディープリサーチエージェント
- Authors: Yuxuan Wan, Tianqing Fang, Zaitang Li, Yintong Huo, Wenxuan Wang, Haitao Mi, Dong Yu, Michael R. Lyu,
- Abstract要約: 近年のDeep Research Agents (DRA) の進歩は、自動知識発見と問題解決に変化をもたらしている。
本稿では,政策モデルのアウトプットを反復的に検証することで,エージェントの能力を自己進化させる手法を提案する。
検証の非対称性を生かしたルーブリックスに基づく結果報酬検証器であるDeepVerifierを提案する。
- 参考スコア(独自算出の注目度): 71.98473277917962
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in Deep Research Agents (DRAs) are transforming automated knowledge discovery and problem-solving. While the majority of existing efforts focus on enhancing policy capabilities via post-training, we propose an alternative paradigm: self-evolving the agent's ability by iteratively verifying the policy model's outputs, guided by meticulously crafted rubrics. This approach gives rise to the inference-time scaling of verification, wherein an agent self-improves by evaluating its generated answers to produce iterative feedback and refinements. We derive the rubrics based on an automatically constructed DRA Failure Taxonomy, which systematically classifies agent failures into five major categories and thirteen sub-categories. We present DeepVerifier, a rubrics-based outcome reward verifier that leverages the asymmetry of verification and outperforms vanilla agent-as-judge and LLM judge baselines by 12%-48% in meta-evaluation F1 score. To enable practical self-evolution, DeepVerifier integrates as a plug-and-play module during test-time inference. The verifier produces detailed rubric-based feedback, which is fed back to the agent for iterative bootstrapping, refining responses without additional training. This test-time scaling delivers 8%-11% accuracy gains on challenging subsets of GAIA and XBench-DeepResearch when powered by capable closed-source LLMs. Finally, to support open-source advancement, we release DeepVerifier-4K, a curated supervised fine-tuning dataset of 4,646 high-quality agent steps focused on DRA verification. These examples emphasize reflection and self-critique, enabling open models to develop robust verification capabilities.
- Abstract(参考訳): 近年のDeep Research Agents (DRA) の進歩は、自動知識発見と問題解決に変化をもたらしている。
既存の取り組みの大半はポストトレーニングによる政策能力の向上に重点を置いているが、我々は、政策モデルのアウトプットを反復的に検証することでエージェントの能力を自己進化させるという代替パラダイムを提案する。
このアプローチは、エージェントが生成した回答を評価して自己改善し、反復的なフィードバックと改善をもたらす、検証の推論時間スケーリングを引き起こす。
自動構築されたDRA障害分類に基づいて,エージェント障害を5つの主要なカテゴリと13のサブカテゴリに体系的に分類するルーブリックを導出する。
We present DeepVerifier, a rubrics-based outcome reward verifier that leverage the asymmetric of verification and outperforms vanilla agent-as-judge and LLM judge baselines by 12%-48% in meta-evaluation F1 score。
実際の自己進化を可能にするため、DeepVerifierはテスト時間推論中にプラグイン・アンド・プレイモジュールとして統合される。
検証者は、詳細なルーリックベースのフィードバックを生成し、追加のトレーニングなしで反復的なブートストレッピング、応答の精錬のためにエージェントにフィードバックする。
このテストタイムスケーリングにより、GAIAとXBench-DeepResearchの挑戦的なサブセットに対して、有能なクローズドソースLCMを使用する場合、8%-11%の精度が向上する。
最後に、オープンソースの進歩をサポートするために、DRA検証に焦点を当てた4,646の高品質エージェントステップからなる、教師付き微調整データセットであるDeepVerifier-4Kをリリースする。
これらの例は、リフレクションと自己批判を強調し、オープンモデルが堅牢な検証機能を開発することを可能にする。
関連論文リスト
- Repurposing Synthetic Data for Fine-grained Search Agent Supervision [81.95597592711688]
LLMベースの検索エージェントは、エンティティ中心の合成データに基づいてますます訓練されている。
一般的なトレーニングメソッドは、このリッチなエンティティ情報を破棄し、代わりにスパースで結果に基づく報酬に依存します。
E-GRPO(Entity-Aware Group Relative Policy Optimization)は、高密度なエンティティ認識報酬関数を定式化する新しいフレームワークである。
論文 参考訳(メタデータ) (2025-10-28T17:50:40Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - Towards Robust Fact-Checking: A Multi-Agent System with Advanced Evidence Retrieval [1.515687944002438]
デジタル時代における誤報の急速な拡散は、世論に重大な課題をもたらす。
従来の人間主導のファクトチェック手法は信頼できるが、オンラインコンテンツの量と速度に苦慮している。
本稿では, 精度, 効率, 説明性を向上する自動ファクトチェックのための新しいマルチエージェントシステムを提案する。
論文 参考訳(メタデータ) (2025-06-22T02:39:27Z) - ReVeal: Self-Evolving Code Agents via Reliable Self-Verification [11.875519107421312]
自己検証とツールベースの評価を通じてコード生成を進化させる強化学習フレームワークであるReVealを紹介する。
推論において、この強化された自己検証により、3つしかトレーニングされていないLiveCodeBenchでは、自己構築されたテストとツールフィードバックを使用して、20ターン以上のコードを継続的に進化させることができる。
これらの調査結果は、RLトレーニングとテストタイムスケーリングのためのスケーラブルなパラダイムとしてのReVealの約束を強調し、より堅牢で自律的なAIエージェントへの道を開いた。
論文 参考訳(メタデータ) (2025-06-13T03:41:04Z) - Trust, But Verify: A Self-Verification Approach to Reinforcement Learning with Verifiable Rewards [67.86091419220816]
大規模言語モデル(LLM)は複雑な推論において非常に有望である。
一般的な問題は表面的な自己回帰であり、モデルが自身の出力をしっかりと検証できない。
本稿では、RISE(Reinforce Reasoning with Self-Verification)という新しいオンラインRLフレームワークについて紹介する。
論文 参考訳(メタデータ) (2025-05-19T17:59:31Z) - On the Role of Feedback in Test-Time Scaling of Agentic AI Workflows [71.92083784393418]
エージェントAI(自律的な計画と行動を行うシステム)は広く普及しているが、複雑なタスクにおけるタスクの成功率は低いままである。
推論時のアライメントは、サンプリング、評価、フィードバックの3つのコンポーネントに依存します。
本稿では,様々な形態の批判から抽出されたフィードバックを繰り返し挿入するIterative Agent Decoding(IAD)を紹介する。
論文 参考訳(メタデータ) (2025-04-02T17:40:47Z) - CoTAR: Chain-of-Thought Attribution Reasoning with Multi-level Granularity [8.377398103067508]
本稿では、属性の精度を高めるために、属性指向のチェーン・オブ・ソート推論手法を提案する。
GPT-4を用いた2つの文脈付き質問応答データセットの評価により,属性の精度と正確性が改善された。
論文 参考訳(メタデータ) (2024-04-16T12:37:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。