論文の概要: Dr. Zero: Self-Evolving Search Agents without Training Data
- arxiv url: http://arxiv.org/abs/2601.07055v1
- Date: Sun, 11 Jan 2026 20:27:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.141385
- Title: Dr. Zero: Self-Evolving Search Agents without Training Data
- Title(参考訳): ゼロ博士:学習データのない自己進化型検索エージェント
- Authors: Zhenrui Yue, Kartikeya Upasani, Xianjun Yang, Suyu Ge, Shaoliang Nie, Yuning Mao, Zhe Liu, Dong Wang,
- Abstract要約: 我々は,検索エージェントがトレーニングデータなしで効果的に自己開発できるフレームワークであるDr. Zeroを紹介した。
特に,提案者が多様な質問を生成する自己進化フィードバックループを設計し,同じベースモデルから問題解決者を訓練する。
トレーニング効率を向上させるため、ホップ群相対ポリシー最適化(HRPO)も導入する。
- 参考スコア(独自算出の注目度): 34.91191770652202
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As high-quality data becomes increasingly difficult to obtain, data-free self-evolution has emerged as a promising paradigm. This approach allows large language models (LLMs) to autonomously generate and solve complex problems, thereby improving their reasoning capabilities. However, multi-turn search agents struggle in data-free self-evolution due to the limited question diversity and the substantial compute required for multi-step reasoning and tool using. In this work, we introduce Dr. Zero, a framework enabling search agents to effectively self-evolve without any training data. In particular, we design a self-evolution feedback loop where a proposer generates diverse questions to train a solver initialized from the same base model. As the solver evolves, it incentivizes the proposer to produce increasingly difficult yet solvable tasks, thus establishing an automated curriculum to refine both agents. To enhance training efficiency, we also introduce hop-grouped relative policy optimization (HRPO). This method clusters structurally similar questions to construct group-level baselines, effectively minimizing the sampling overhead in evaluating each query's individual difficulty and solvability. Consequently, HRPO significantly reduces the compute requirements for solver training without compromising performance or stability. Extensive experiment results demonstrate that the data-free Dr. Zero matches or surpasses fully supervised search agents, proving that complex reasoning and search capabilities can emerge solely through self-evolution.
- Abstract(参考訳): 高品質なデータを得るのがますます難しくなっているため、データフリーな自己進化は有望なパラダイムとして現れてきた。
このアプローチにより、大規模言語モデル(LLM)は、複雑な問題を自律的に生成し、解決し、推論能力を改善することができる。
しかし、マルチターン検索エージェントは、限られた質問の多様性と多段階推論やツールの使用に必要な計算量のために、データフリーな自己進化に苦慮している。
本研究では,検索エージェントが学習データなしで効果的に自己開発できるフレームワークであるDr. Zeroを紹介する。
特に,提案者が多様な質問を生成する自己進化フィードバックループを設計し,同じベースモデルから初期化した問題解決者を訓練する。
解法が進化するにつれて、提案者はますます困難で解決可能なタスクを創出するインセンティブを得て、両方のエージェントを洗練するための自動カリキュラムを確立する。
トレーニング効率を向上させるため,ホップ群相対ポリシー最適化(HRPO)も導入した。
この手法は,グループレベルのベースラインを構築するために構造的に類似した質問をクラスタリングし,各クエリの個別の難易度と可解性を評価する際のサンプリングオーバーヘッドを効果的に最小化する。
これにより、HRPOは、性能や安定性を損なうことなく、ソルバトレーニングの計算要求を著しく低減する。
データフリーのDr. Zeroは、完全に監督された検索エージェントと一致し、複雑な推論と検索能力は自己進化によってのみ出現することを示した。
関連論文リスト
- Agent0: Unleashing Self-Evolving Agents from Zero Data via Tool-Integrated Reasoning [84.70211451226835]
大規模言語モデル(LLM)エージェントは、人間の計算データへの依存によって制約される。
我々は,外部データを持たない高性能エージェントを進化させる完全自律型フレームワークであるAgent0を紹介する。
Agent0は推論能力を大幅に向上させ、Qwen3-8B-Baseモデルを数学的推論で18%改善し、一般的な推論ベンチマークで24%改善した。
論文 参考訳(メタデータ) (2025-11-20T05:01:57Z) - Learning to Pose Problems: Reasoning-Driven and Solver-Adaptive Data Synthesis for Large Reasoning Models [54.29243291958429]
本研究は, 生成前に問題方向を明示的に計画する問題生成装置の開発である。
我々は,合成問題に対する解法者のフィードバックを報奨信号として扱い,生成元が難易度を調整できるようにする。
本手法は平均2.5%の改善を実現し,言語モデルと視覚言語モデルの両方に一般化する。
論文 参考訳(メタデータ) (2025-11-13T03:08:51Z) - Empowering RepoQA-Agent based on Reinforcement Learning Driven by Monte-carlo Tree Search [70.63903518295785]
モンテカルロ木探索によるエージェント強化学習フレームワークRepoSearch-R1を紹介する。
RepoSearch-R1に基づいて,リポジトリ質問応答タスク用に設計されたRepoQA-Agentを構築する。
論文 参考訳(メタデータ) (2025-10-30T09:10:36Z) - BMGQ: A Bottom-up Method for Generating Complex Multi-hop Reasoning Questions from Semi-structured Data [8.52473384574856]
本稿では,半構造化知識ソースから高難易度,訓練可能なマルチホップ質問を自動生成するフレームワークを提案する。
このシステムは、自然言語推論(NLI)に基づく関係型付けと多様性を意識した拡張を通じて、多様な、論理的にラベル付けされたエビデンスクラスタを成長させる。
論文 参考訳(メタデータ) (2025-10-28T07:43:15Z) - Synthesizing Agentic Data for Web Agents with Progressive Difficulty Enhancement Mechanisms [81.90219895125178]
Webベースの「ディープリサーチ」エージェントは、オンラインツールとの長時間のインタラクションを通じてタスクに答える、複雑な問題の解決を目指している。
基礎となる言語モデルは、長い水平推論に最適化されないことが多いため、これらのタスクは依然として困難なままである。
複雑化を徐々に進めることで、疑問-答えのペアを生成する2段階のデータ合成パイプラインを導入する。
論文 参考訳(メタデータ) (2025-10-15T06:34:46Z) - EvolMathEval: Towards Evolvable Benchmarks for Mathematical Reasoning via Evolutionary Testing [45.89558878854675]
EvolMathEvalは、進化テストに基づく自動数学的ベンチマーク生成と進化のフレームワークである。
連続的な自己イテレーションによって大量の高次問題を生成することができる。
また、進化を通じてGSM8Kのような公開データセットの複雑さを著しく向上させ、モデルの精度を平均48%削減する。
論文 参考訳(メタデータ) (2025-08-18T15:24:10Z) - Large Language Model-Aided Evolutionary Search for Constrained Multiobjective Optimization [15.476478159958416]
我々は,制約付き多目的最適化問題に対する進化探索を強化するために,大規模言語モデル(LLM)を用いる。
私たちの目標は、進化の集団の収束を早めることです。
論文 参考訳(メタデータ) (2024-05-09T13:44:04Z) - Factorization of Multi-Agent Sampling-Based Motion Planning [72.42734061131569]
現代のロボティクスは、共有環境内で複数のエンボディエージェントを動作させることが多い。
標準的なサンプリングベースのアルゴリズムは、ロボットの関節空間における解の探索に使用できる。
我々は、因子化の概念をサンプリングベースアルゴリズムに統合し、既存の手法への最小限の変更しか必要としない。
本稿では, PRM* のサンプル複雑性の観点から解析的ゲインを導出し, RRG の実証結果を示す。
論文 参考訳(メタデータ) (2023-04-01T15:50:18Z) - Dynamic Federated Learning [57.14673504239551]
フェデレートラーニング(Federated Learning)は、マルチエージェント環境における集中的なコーディネーション戦略の包括的用語として登場した。
我々は、各イテレーションにおいて、利用可能なエージェントのランダムなサブセットがそのデータに基づいてローカル更新を実行する、フェデレートされた学習モデルを考える。
集約最適化問題に対する真の最小化器上の非定常ランダムウォークモデルの下で、アーキテクチャの性能は、各エージェントにおけるデータ変動率、各エージェントにおけるモデル変動率、アルゴリズムの学習率に逆比例する追跡項の3つの要因によって決定されることを示す。
論文 参考訳(メタデータ) (2020-02-20T15:00:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。