論文の概要: Search Self-play: Pushing the Frontier of Agent Capability without Supervision
- arxiv url: http://arxiv.org/abs/2510.18821v1
- Date: Tue, 21 Oct 2025 17:19:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:14.023016
- Title: Search Self-play: Pushing the Frontier of Agent Capability without Supervision
- Title(参考訳): 検索のセルフプレイ:監督なしでエージェント能力のフロンティアを推し進める
- Authors: Hongliang Lu, Yuhang Wen, Pengyu Cheng, Ruijin Ding, Haotian Xu, Jiaqi Guo, Chutian Wang, Haonan Chen, Xiaoxi Jiang, Guanjun Jiang,
- Abstract要約: 本稿では,ディープサーチエージェントのためのセルフプレイトレーニングを提案する。
探索セルフプレイ(SSP)ゲームにおいて、提案者と解決者は、競争と協力の両面からエージェント能力を共同開発する。
SSPは、様々なベンチマークにおいて、いかなる監督も受けずに、検索エージェントのパフォーマンスを均一に向上させることができる。
- 参考スコア(独自算出の注目度): 14.889394507446477
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning with verifiable rewards (RLVR) has become the mainstream technique for training LLM agents. However, RLVR highly depends on well-crafted task queries and corresponding ground-truth answers to provide accurate rewards, which requires massive human efforts and hinders the RL scaling processes, especially under agentic scenarios. Although a few recent works explore task synthesis methods, the difficulty of generated agentic tasks can hardly be controlled to provide effective RL training advantages. To achieve agentic RLVR with higher scalability, we explore self-play training for deep search agents, in which the learning LLM utilizes multi-turn search engine calling and acts simultaneously as both a task proposer and a problem solver. The task proposer aims to generate deep search queries with well-defined ground-truth answers and increasing task difficulty. The problem solver tries to handle the generated search queries and output the correct answer predictions. To ensure that each generated search query has accurate ground truth, we collect all the searching results from the proposer's trajectory as external knowledge, then conduct retrieval-augmentation generation (RAG) to test whether the proposed query can be correctly answered with all necessary search documents provided. In this search self-play (SSP) game, the proposer and the solver co-evolve their agent capabilities through both competition and cooperation. With substantial experimental results, we find that SSP can significantly improve search agents' performance uniformly on various benchmarks without any supervision under both from-scratch and continuous RL training setups. The code is at https://github.com/Alibaba-Quark/SSP.
- Abstract(参考訳): 検証可能な報酬付き強化学習(RLVR)は、LLMエージェントのトレーニングにおいて主流となっている。
しかし、RLVRは、特にエージェントシナリオにおいて、大規模な人的努力を必要とし、RLスケーリングプロセスを妨げている。
近年,タスク合成法が研究されているが,効率的なRL学習の利点を提供するために,生成するエージェントタスクの難しさを制御することは困難である。
エージェントRLVRを高いスケーラビリティで実現するために,学習用LLMがマルチターン検索エンジン呼び出しを利用し,タスクプロジェクタと問題解決器を兼ね備えたディープサーチエージェントのセルフプレイトレーニングについて検討する。
タスクプロジェクタは、明確に定義された接地的回答とタスクの難易度を増大させたディープ検索クエリを生成することを目的としている。
問題の解法は、生成された検索クエリを処理し、正しい回答予測を出力しようとする。
生成した各検索クエリが正確な基底真理を持つことを確認するため,提案者の軌道からの全ての検索結果を外部知識として収集し,提案クエリが提供されたすべての必要な検索文書に正しく答えられるかどうかを検索拡張生成(RAG)を行う。
探索セルフプレイ(SSP)ゲームにおいて、提案者と解決者は、競争と協力の両面からエージェント能力を共同開発する。
かなりの実験結果から,SSP は検索エージェントの性能を様々なベンチマークで一様に改善できることがわかった。
コードはhttps://github.com/Alibaba-Quark/SSPにある。
関連論文リスト
- QAgent: A modular Search Agent with Interactive Query Understanding [25.147900132089777]
大規模言語モデルは自然言語処理に優れるが、静的パラメトリック知識によって制限される。
本稿では,適応検索に検索エージェントを用いる統一エージェントRAGフレームワークを提案する。
実験ではQAでQAgentが優れていることを示し、実世界のデプロイのためのプラグイン・アンド・プレイモジュールとして機能する。
論文 参考訳(メタデータ) (2025-10-09T16:08:05Z) - Beyond Outcome Reward: Decoupling Search and Answering Improves LLM Agents [19.31471304268234]
DeSA(Decoupling Search-and-Answering)は,検索最適化と回答生成を明確に分離する単純な2段階トレーニングフレームワークである。
7つのQAベンチマークで、DeSAがトレーニングしたエージェントは検索の振る舞いを継続的に改善し、結果のみのベースラインよりも検索リコールと回答の精度が大幅に向上した。
論文 参考訳(メタデータ) (2025-10-06T11:09:45Z) - DeepDive: Advancing Deep Search Agents with Knowledge Graphs and Multi-Turn RL [60.47878242100153]
我々は、ディープサーチエージェントを進化させるためにDeepDiveを提示する。
オープンな知識グラフから複雑で難解な質問を自動的に合成する戦略を提案する。
深層探索によるLLMの長距離推論を強化するために, エンドツーエンドのマルチターン強化学習を適用した。
論文 参考訳(メタデータ) (2025-09-12T17:52:35Z) - HierSearch: A Hierarchical Enterprise Deep Search Framework Integrating Local and Web Searches [54.65565885083031]
本稿では,階層型RLで学習した階層型エージェントディープ検索フレームワークであるHierSearchを提案する。
低レベルにおいては、ローカルなディープサーチエージェントとWebのディープサーチエージェントがトレーニングされ、対応するドメインから証拠を検索する。
高レベルでは、プランナーエージェントが低レベルのエージェントをコーディネートし、最終回答を提供する。
論文 参考訳(メタデータ) (2025-08-11T15:31:47Z) - ZeroSearch: Incentivize the Search Capability of LLMs without Searching [69.55482019211597]
我々はZeroSearchを紹介した。ZeroSearchは、学習中にシミュレーションされた検索を備えた実検索エンジンを使用するための、大規模言語モデルの能力を動機付けるフレームワークである。
提案手法は,LLMを有用な文書とノイズの両方を生成可能な検索モジュールに変換するための,軽量な教師付き微調整から始まる。
論文 参考訳(メタデータ) (2025-05-07T17:30:22Z) - A Survey on Explainable Reinforcement Learning: Concepts, Algorithms, Challenges [51.699348215510575]
強化学習(Reinforcement Learning, RL)は、インテリジェントエージェントが環境と対話して長期的な目標を達成する、一般的な機械学習パラダイムである。
励ましの結果にもかかわらず、ディープニューラルネットワークベースのバックボーンは、専門家が高いセキュリティと信頼性が不可欠である現実的なシナリオにおいて、訓練されたエージェントを信頼し、採用することを妨げるブラックボックスとして広く見なされている。
この問題を緩和するために、本質的な解釈可能性やポストホックな説明可能性を構築することにより、知的エージェントの内部動作に光を放つための大量の文献が提案されている。
論文 参考訳(メタデータ) (2022-11-12T13:52:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。