論文の概要: SearchGym: Bootstrapping Real-World Search Agents via Cost-Effective and High-Fidelity Environment Simulation
- arxiv url: http://arxiv.org/abs/2601.14615v1
- Date: Wed, 21 Jan 2026 03:16:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 21:27:50.223686
- Title: SearchGym: Bootstrapping Real-World Search Agents via Cost-Effective and High-Fidelity Environment Simulation
- Title(参考訳): SearchGym:コスト効果と高忠実度環境シミュレーションによるリアルタイム検索エージェントのブートストラップ
- Authors: Xichen Zhang, Ziyi He, Yinghao Zhu, Sitong Wu, Shaozuo Yu, Meng Chu, Wenhu Zhang, Haoru Tan, Jiaya Jia,
- Abstract要約: 本稿では,堅牢な検索エージェントをブートストラップするシミュレーション環境であるSearchGymを提案する。
SearchGymは厳密な生成パイプラインを使用して、検証可能な知識グラフと整列したドキュメントコーパスを構築する。
本研究は,高忠実度シミュレーションが,有能な検索エージェントを開発するためのスケーラブルで費用対効果の高い手法であることを示す。
- 参考スコア(独自算出の注目度): 47.42632572449279
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Search agents have emerged as a pivotal paradigm for solving open-ended, knowledge-intensive reasoning tasks. However, training these agents via Reinforcement Learning (RL) faces a critical dilemma: interacting with live commercial Web APIs is prohibitively expensive, while relying on static data snapshots often introduces noise due to data misalignment. This misalignment generates corrupted reward signals that destabilize training by penalizing correct reasoning or rewarding hallucination. To address this, we propose SearchGym, a simulation environment designed to bootstrap robust search agents. SearchGym employs a rigorous generative pipeline to construct a verifiable knowledge graph and an aligned document corpus, ensuring that every reasoning task is factually grounded and strictly solvable. Building on this controllable environment, we introduce SearchGym-RL, a curriculum learning methodology that progressively optimizes agent policies through purified feedback, evolving from basic interactions to complex, long-horizon planning. Extensive experiments across the Llama and Qwen families demonstrate strong Sim-to-Real generalization. Notably, our Qwen2.5-7B-Base model trained within SearchGym surpasses the web-enhanced ASearcher baseline across nine diverse benchmarks by an average relative margin of 10.6%. Our results validate that high-fidelity simulation serves as a scalable and highly cost-effective methodology for developing capable search agents.
- Abstract(参考訳): 検索エージェントは、オープンで知識集約的な推論タスクを解決するための重要なパラダイムとして登場した。
しかし、Reinforcement Learning (RL)を介してこれらのエージェントをトレーニングすることは、重要なジレンマに直面している。
正しい推論や幻覚の報奨によってトレーニングを不安定化させる破損した報奨信号を生成する。
そこで我々は,堅牢な検索エージェントをブートストラップするシミュレーション環境であるSearchGymを提案する。
SearchGymは、検証可能なナレッジグラフとアライメントされたドキュメントコーパスを構築するために、厳密な生成パイプラインを使用している。
この制御可能な環境の上に構築されたSearchGym-RLは,基本的インタラクションから複雑な長期計画へと進化する,浄化されたフィードバックを通じてエージェントポリシーを段階的に最適化するカリキュラム学習手法である。
Llama族とQwen族全体にわたる大規模な実験は、強力なSim-to-Real一般化を示している。
特に、SearchGym内でトレーニングされたQwen2.5-7B-Baseモデルは、9つの異なるベンチマークでWebで強化されたASearcherベースラインを平均10.6%上回っている。
本研究は,高忠実度シミュレーションが,有能な検索エージェントを開発するためのスケーラブルで費用対効果の高い手法であることを示す。
関連論文リスト
- Empowering RepoQA-Agent based on Reinforcement Learning Driven by Monte-carlo Tree Search [70.63903518295785]
モンテカルロ木探索によるエージェント強化学習フレームワークRepoSearch-R1を紹介する。
RepoSearch-R1に基づいて,リポジトリ質問応答タスク用に設計されたRepoQA-Agentを構築する。
論文 参考訳(メタデータ) (2025-10-30T09:10:36Z) - Beneficial Reasoning Behaviors in Agentic Search and Effective Post-training to Obtain Them [23.986035712600657]
エージェント探索における効果的な推論行動パターンを研究するための推論駆動パイプラインを提案する。
我々は,情報検証,権限評価,適応探索,エラー回復の4つの有益な推論行動を特定する。
Llama3.2-3B と Qwen3-1.7B では, RL を用いたエージェントサーチモデルを直接訓練した場合と比較して, 行動プライミングが 35% 以上の利得を示す。
論文 参考訳(メタデータ) (2025-10-08T00:20:35Z) - Agent4FaceForgery: Multi-Agent LLM Framework for Realistic Face Forgery Detection [108.5042835056188]
この作業では,2つの基本的な問題に対処するため,Agent4FaceForgeryを導入している。
人間の偽造の多様な意図と反復的なプロセスを捉える方法。
ソーシャルメディアの偽造に付随する複雑な、しばしば敵対的な、テキストと画像のインタラクションをモデル化する方法。
論文 参考訳(メタデータ) (2025-09-16T01:05:01Z) - SimpleDeepSearcher: Deep Information Seeking via Web-Powered Reasoning Trajectory Synthesis [94.33978856270268]
Retrieval-augmented Generation (RAG) システムは複雑なディープ検索シナリオにおいて高度な大規模言語モデル(LLM)を持つ。
既存のアプローチでは、高品質なトレーニングトラジェクトリが欠如し、分散ミスマッチに苦しむ、重要な制限に直面しています。
本稿では,複雑なトレーニングパラダイムではなく,戦略的データエンジニアリングによるギャップを埋めるフレームワークであるSimpleDeepSearcherを紹介する。
論文 参考訳(メタデータ) (2025-05-22T16:05:02Z) - Scalable Offline Reinforcement Learning for Mean Field Games [6.8267158622784745]
Off-MMDは、純粋なオフラインデータを用いて平均フィールドゲームにおける平衡ポリシーを近似する新しい平均フィールドRLアルゴリズムである。
我々のアルゴリズムは複雑な環境にスケールし、群衆探索やナビゲーションといったベンチマークタスクで強いパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-10-23T14:16:34Z) - Agent Q: Advanced Reasoning and Learning for Autonomous AI Agents [44.34340798542]
大きな言語モデル(LLM)は、複雑な推論を必要とする自然言語タスクにおいて顕著な能力を示している。
静的データセットに対する従来の教師付き事前トレーニングは、自律的なエージェント機能を実現するには不十分である。
本稿では,モンテカルロ木探索(MCTS)を自己批判機構と組み合わせ,エージェント間相互作用を反復的に微調整するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-13T20:52:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。