Fugu-MT 論文翻訳(概要): Beyond Stochastic Exploration: What Makes Training Data Valuable for Agentic Search

論文の概要: Beyond Stochastic Exploration: What Makes Training Data Valuable for Agentic Search

arxiv url: http://arxiv.org/abs/2604.08124v1
Date: Thu, 09 Apr 2026 11:44:44 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-10 18:34:05.893418
Title: Beyond Stochastic Exploration: What Makes Training Data Valuable for Agentic Search
Title（参考訳）: 確率的探索を超えて:エージェント検索でトレーニングデータを価値あるものにする
Authors: Chuzhan Hao, Wenfeng Feng, Guochao Jiang, Guofeng Quan, Guohua Liu, Yuewei Zhang,
Abstract要約: 本稿では,検索エージェントの性能向上と訓練を目的とした,階層的体験(HiExp)を提案する。比較分析とマルチレベルクラスタリング機構を通じて経験的知識を抽出し,生の推論軌道を階層的経験知識に変換する。提案手法は性能向上を実現し,強いクロスタスクとクロスアルゴリズムの一般化を示す。
参考スコア（独自算出の注目度）: 5.481048072631037
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Reinforcement learning (RL) has become an effective approach for advancing the reasoning capabilities of large language models (LLMs) through the strategic integration of external search engines. However, current RL-based search agents often rely on a process of stochastic exploration guided by carefully crafted outcome rewards, leading to inefficient reasoning trajectories and unstable training. To address these issues, we propose a novel framework, Hierarchical Experience (HiExp), to enhance the performance and training stability of search agents. Specifically, we extract empirical knowledge through contrastive analysis and a multi-level clustering mechanism, transforming raw reasoning trajectories into hierarchical experience knowledge. By leveraging experience-aligned training, we effectively regularize stochastic exploration, evolving it into a strategic and experience-driven search process. Extensive evaluations on multiple complex agentic search and mathematical reasoning benchmarks demonstrate that our approach not only achieves substantial performance gains but also exhibits strong cross-task and cross-algorithm generalization.
Abstract（参考訳）: 強化学習(RL)は,外部検索エンジンの戦略的統合を通じて,大規模言語モデル(LLM)の推論能力を向上するための効果的なアプローチとなっている。しかし、現在のRLベースの探索エージェントは、しばしば、慎重に成果の報奨によって導かれる確率的探索のプロセスに依存しており、非効率な推論軌道と不安定な訓練につながっている。これらの課題に対処するため,検索エージェントの性能向上と訓練安定性向上を目的とした,階層的体験(HiExp)を提案する。具体的には、比較分析とマルチレベルクラスタリング機構を通じて経験的知識を抽出し、生の推論軌道を階層的経験知識に変換する。経験対応学習を活用することで、確率探索を効果的に規則化し、戦略的かつ経験駆動的な探索プロセスへと進化させる。複数の複雑なエージェント探索と数理推論のベンチマークによる広範囲な評価は、我々のアプローチが大きなパフォーマンス向上を達成するだけでなく、クロスタスクとクロスアルゴリズムの一般化も示していることを示している。

関連論文リスト

Learning to Retrieve from Agent Trajectories [72.8923565916533]
我々はエージェント間相互作用データから直接エージェント探索のための検索モデルを訓練すべきであると主張している。エージェント・トラジェクトリからの学習を新たな訓練パラダイムとして導入し,マルチステップエージェントのインタラクションから指導を導出する。本研究は,エージェント探索時代における検索の方向性を示すとともに,エージェントトラジェクトリを実用的でスケーラブルな監視源として強調するものである。
論文参考訳（メタデータ） (2026-03-30T17:59:02Z)
Retrieval-Augmented LLM Agents: Learning to Learn from Experience [16.248836438253814]
本研究では,検索対象のLLMエージェントを学習し,検索したトラジェクトリをコンテキスト内で活用する方法について検討する。最先端のエージェントトレーニングパイプラインよりも優れたロラを用いた,堅牢な教師付き微調整(SFT)レシピを確立した。その結果,この組み合わせによるタスクの一般化が著しく向上することが示唆された。
論文参考訳（メタデータ） (2026-03-18T20:45:04Z)
Search-R2: Enhancing Search-Integrated Reasoning via Actor-Refiner Collaboration [49.9937230730202]
本稿では,新たなアクター・リファイナ・コラボレーション・フレームワークであるSearch-R2を提案する。提案手法は,生成過程をアクターに分解し,最初の推論軌道を生成する。本稿では,検索-R2がモデルスケール全体にわたって強力なRAGとRLベースのベースラインを一貫して上回ることを示す。
論文参考訳（メタデータ） (2026-02-03T15:32:09Z)
Beneficial Reasoning Behaviors in Agentic Search and Effective Post-training to Obtain Them [23.986035712600657]
エージェント探索における効果的な推論行動パターンを研究するための推論駆動パイプラインを提案する。我々は,情報検証,権限評価,適応探索,エラー回復の4つの有益な推論行動を特定する。 Llama3.2-3B と Qwen3-1.7B では, RL を用いたエージェントサーチモデルを直接訓練した場合と比較して, 行動プライミングが 35% 以上の利得を示す。
論文参考訳（メタデータ） (2025-10-08T00:20:35Z)
DynaSearcher: Dynamic Knowledge Graph Augmented Search Agent via Multi-Reward Reinforcement Learning [5.280613615397194]
DynaSearcherは動的知識グラフとマルチリワード強化学習(RL)によって強化された革新的な検索エージェントである検索精度, 効率, 応答品質などの学習目標を詳細に制御するために, マルチリワード RL フレームワークを用いる。実験により,提案手法は6つのマルチホップ質問応答データセットに対して,最先端の回答精度を実現することを示す。
論文参考訳（メタデータ） (2025-07-23T09:58:31Z)
From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文参考訳（メタデータ） (2024-11-06T10:35:11Z)
On the Importance of Exploration for Generalization in Reinforcement Learning [89.63074327328765]
本研究では,不確実性の高い状態の探索を支援する方法であるEDE: Exploration via Distributional Ensembleを提案する。当社のアルゴリズムは,ProcgenとCrafterの両面で最先端を実現するための,最初のバリューベースアプローチである。
論文参考訳（メタデータ） (2023-06-08T18:07:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。