論文の概要: WebSeer: Training Deeper Search Agents through Reinforcement Learning with Self-Reflection
- arxiv url: http://arxiv.org/abs/2510.18798v1
- Date: Tue, 21 Oct 2025 16:52:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:13.936719
- Title: WebSeer: Training Deeper Search Agents through Reinforcement Learning with Self-Reflection
- Title(参考訳): WebSeer: 自己回帰による強化学習によるより深い検索エージェントのトレーニング
- Authors: Guanzhong He, Zhen Yang, Jinxin Liu, Bin Xu, Lei Hou, Juanzi Li,
- Abstract要約: 本稿では,自己回帰機構によって強化された強化学習によって訓練された,よりインテリジェントな検索エージェントであるWebSeerを紹介する。
提案手法はツール使用チェーンを大幅に拡張し,回答精度を向上する。
- 参考スコア(独自算出の注目度): 51.10348385624784
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Search agents have achieved significant advancements in enabling intelligent information retrieval and decision-making within interactive environments. Although reinforcement learning has been employed to train agentic models capable of more dynamic interactive retrieval, existing methods are limited by shallow tool-use depth and the accumulation of errors over multiple iterative interactions. In this paper, we present WebSeer, a more intelligent search agent trained via reinforcement learning enhanced with a self-reflection mechanism. Specifically, we construct a large dataset annotated with reflection patterns and design a two-stage training framework that unifies cold start and reinforcement learning within the self-reflection paradigm for real-world web-based environments, which enables the model to generate longer and more reflective tool-use trajectories. Our approach substantially extends tool-use chains and improves answer accuracy. Using a single 14B model, we achieve state-of-the-art results on HotpotQA and SimpleQA, with accuracies of 72.3% and 90.0%, respectively, and demonstrate strong generalization to out-of-distribution datasets. The code is available at https://github.com/99hgz/WebSeer
- Abstract(参考訳): 検索エージェントは、対話型環境におけるインテリジェントな情報検索と意思決定の実現において、大きな進歩を遂げている。
よりダイナミックなインタラクティブ検索が可能なエージェントモデルをトレーニングするために強化学習が用いられているが、既存の手法は浅いツール使用深さと複数の反復的相互作用におけるエラーの蓄積によって制限されている。
本稿では,自己回帰による強化学習によって訓練された,よりインテリジェントな検索エージェントであるWebSeerを提案する。
具体的には、リフレクションパターンを付加した大規模なデータセットを構築し、実世界のWeb環境における自己回帰パラダイムにおいて、コールドスタートと強化学習を統一する2段階のトレーニングフレームワークを設計し、より長く、より反射的なツール使用軌跡を生成できるようにする。
提案手法はツール使用チェーンを大幅に拡張し,回答精度を向上する。
単一14Bモデルを用いて,HotpotQAとSimpleQAでそれぞれ72.3%,90.0%のアキュラティを達成し,アウト・オブ・ディストリビューションデータセットへの強力な一般化を示す。
コードはhttps://github.com/99hgz/WebSeerで入手できる。
関連論文リスト
- Beyond Turn Limits: Training Deep Search Agents with Dynamic Context Window [88.85901839023803]
DeepMinerは、高機能なトレーニングタスクと動的コンテキストウィンドウを導入することで、そのような能力を引き出す新しいフレームワークである。
We developed DeepMiner-32B, which is a significant performance improvements across multiple search agent benchmarks。
論文 参考訳(メタデータ) (2025-10-09T14:31:39Z) - TGPO: Tree-Guided Preference Optimization for Robust Web Agent Reinforcement Learning [4.456860697635325]
強化学習による Web エージェントのトレーニングには,クレジット割り当ての誤り,アノテーションコストの禁止,パースペリティの報奨など,重要な課題が伴う。
我々のフレームワークにはプロセス・リワード・モデルが組み込まれており、サブゴールの進行、冗長性の検出、行動検証を通じて、細かな報酬を自動的に生成する。
Online-Mind2Webと我々の自己構築したC-WebShopデータセットの実験は、TGPOが既存の手法よりも大幅に優れていることを示した。
論文 参考訳(メタデータ) (2025-09-17T16:58:44Z) - From Seeing to Experiencing: Scaling Navigation Foundation Models with Reinforcement Learning [59.88543114325153]
本稿では,航法基礎モデルの強化学習能力を高めるためのSeeing-to-Experiencingフレームワークを提案する。
S2Eは、ビデオの事前トレーニングとRLによるポストトレーニングの長所を組み合わせたものだ。
実世界のシーンを3DGSで再現した3D画像に基づく総合的なエンドツーエンド評価ベンチマークであるNavBench-GSを構築した。
論文 参考訳(メタデータ) (2025-07-29T17:26:10Z) - MaskSearch: A Universal Pre-Training Framework to Enhance Agentic Search Capability [106.35604230971396]
最近のエージェント技術の進歩により、大規模言語モデル(LLM)は、検索、計画、推論のためのツールを自律的に活用することができる。
エージェントの普遍的な検索能力を高めるために,新しい事前学習フレームワークMaskSearchを提案する。
事前学習の段階では、検索ツールを用いてマスク付きスパンを埋めるRetrieval Augmented Mask Prediction (RAMP)タスクを導入する。
その後、モデルは下流のタスクでトレーニングされ、さらなる改善が達成されます。
論文 参考訳(メタデータ) (2025-05-26T17:58:50Z) - WebCoT: Enhancing Web Agent Reasoning by Reconstructing Chain-of-Thought in Reflection, Branching, and Rollback [78.55946306325914]
有効なWebエージェントに必要な重要な推論スキルを同定する。
我々はエージェントの推論アルゴリズムを連鎖論理に再構成する。
このアプローチは、複数のベンチマークで大幅に改善される。
論文 参考訳(メタデータ) (2025-05-26T14:03:37Z) - Agent-R: Training Language Model Agents to Reflect via Iterative Self-Training [18.896813839389893]
本稿では,言語エージェントをオンザフライでリフレクション可能な反復型自己学習フレームワーク,Agent-Rを提案する。
Agent-Rは、正しさに基づいてアクションを報酬または罰揚する従来の方法とは異なり、MCTSを活用して、誤ったトラジェクトリから正しいトラジェクトリを復元するトレーニングデータを構築する。
以上の結果から,Agent-Rは連続的にエラーから回復し,タイムリーなエラー訂正を可能にすることが示唆された。
論文 参考訳(メタデータ) (2025-01-20T11:46:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。