論文の概要: IterResearch: Rethinking Long-Horizon Agents via Markovian State Reconstruction
- arxiv url: http://arxiv.org/abs/2511.07327v1
- Date: Mon, 10 Nov 2025 17:30:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:45.396315
- Title: IterResearch: Rethinking Long-Horizon Agents via Markovian State Reconstruction
- Title(参考訳): IterResearch:マルコフ状態再構築による長距離エージェントの再考
- Authors: Guoxin Chen, Zile Qiao, Xuanzhong Chen, Donglei Yu, Haotian Xu, Wayne Xin Zhao, Ruihua Song, Wenbiao Yin, Huifeng Yin, Liwen Zhang, Kuan Li, Minpeng Liao, Yong Jiang, Pengjun Xie, Fei Huang, Jingren Zhou,
- Abstract要約: IterResearchは、マルコフ決定過程として長期研究を再構築する、新しい反復的深層研究パラダイムである。
6つのベンチマークで平均+14.5ppの既存のオープンソースエージェントよりも大幅に改善されている。
これは効果的なプロンプト戦略として機能し、ロングホライゾンタスクにおけるReActよりも19.2ppのフロンティアモデルを改善する。
- 参考スコア(独自算出の注目度): 107.49922328855025
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in deep-research agents have shown promise for autonomous knowledge construction through dynamic reasoning over external sources. However, existing approaches rely on a mono-contextual paradigm that accumulates all information in a single, expanding context window, leading to context suffocation and noise contamination that limit their effectiveness on long-horizon tasks. We introduce IterResearch, a novel iterative deep-research paradigm that reformulates long-horizon research as a Markov Decision Process with strategic workspace reconstruction. By maintaining an evolving report as memory and periodically synthesizing insights, our approach preserves consistent reasoning capacity across arbitrary exploration depths. We further develop Efficiency-Aware Policy Optimization (EAPO), a reinforcement learning framework that incentivizes efficient exploration through geometric reward discounting and enables stable distributed training via adaptive downsampling. Extensive experiments demonstrate that IterResearch achieves substantial improvements over existing open-source agents with average +14.5pp across six benchmarks and narrows the gap with frontier proprietary systems. Remarkably, our paradigm exhibits unprecedented interaction scaling, extending to 2048 interactions with dramatic performance gains (from 3.5\% to 42.5\%), and serves as an effective prompting strategy, improving frontier models by up to 19.2pp over ReAct on long-horizon tasks. These findings position IterResearch as a versatile solution for long-horizon reasoning, effective both as a trained agent and as a prompting paradigm for frontier models.
- Abstract(参考訳): 近年のDeep-Researchエージェントの進歩は、外部ソースに対する動的推論を通じて自律的な知識構築を約束している。
しかし、既存のアプローチは、単一で拡張されたコンテキストウィンドウに全ての情報を蓄積するモノコンテキストパラダイムに依存しており、長期的タスクにおいてその効果を制限するような、コンテキスト窒息とノイズ汚染につながる。
我々は,戦略的なワークスペース再構築を伴うマルコフ決定プロセスとして,長期研究を再構築する,新しい反復的深層調査パラダイムであるIterResearchを紹介する。
進化するレポートを記憶として維持し、定期的に洞察を合成することにより、我々のアプローチは任意の探査深度にわたって一貫した推論能力を維持する。
我々はさらに、幾何報酬の割引による効率的な探索を動機づけ、適応的なダウンサンプリングによる安定した分散トレーニングを可能にする強化学習フレームワークEAPO(Efficic-Aware Policy Optimization)を開発する。
大規模な実験により、IterResearchは6つのベンチマークで平均+14.5ppの既存のオープンソースエージェントよりも大幅に改善され、フロンティアプロプライエタリシステムとのギャップが狭まることが示されている。
顕著なことに、我々のパラダイムは前例のない相互作用のスケーリングを示し、2048年の相互作用を劇的なパフォーマンス向上(3.5\%から42.5\%)に拡張し、より効果的なプロンプト戦略として機能し、長期的タスクにおいてReActよりも19.2ppのフロンティアモデルを改善する。
これらの知見は、IterResearchを長距離推論のための汎用的なソリューションとして位置づけ、訓練されたエージェントとフロンティアモデルの促進パラダイムの両方として有効である。
関連論文リスト
- Beyond Turn Limits: Training Deep Search Agents with Dynamic Context Window [88.85901839023803]
DeepMinerは、高機能なトレーニングタスクと動的コンテキストウィンドウを導入することで、そのような能力を引き出す新しいフレームワークである。
We developed DeepMiner-32B, which is a significant performance improvements across multiple search agent benchmarks。
論文 参考訳(メタデータ) (2025-10-09T14:31:39Z) - Efficient On-Policy Reinforcement Learning via Exploration of Sparse Parameter Space [15.65017469378437]
PPOのような政策段階的な手法は単一の勾配方向に沿って更新され、パラメータ空間のリッチな局所構造は未探索のままである。
これまでの研究では、サロゲート勾配は真の報酬の風景と相関が低いことが示されている。
本稿では,PPOやTRPOなどのオンラインアルゴリズムとシームレスに統合する,プラグイン可能なパイプラインであるExploRLerを紹介する。
論文 参考訳(メタデータ) (2025-09-30T07:13:55Z) - DeepSearch: Overcome the Bottleneck of Reinforcement Learning with Verifiable Rewards via Monte Carlo Tree Search [53.27052683356095]
我々はモンテカルロ木探索を直接RLVRトレーニングに統合するフレームワークであるDeepSearchを紹介する。
推論時にのみツリー検索に依存する既存のメソッドとは対照的に、DeepSearchは構造化された検索をトレーニングループに埋め込む。
コントリビューションには,(1)検索ツリー全体にわたって有望なノードを優先するグローバルフロンティア選択戦略,(2)監督のための確実なパスを識別するエントロピーベースのガイダンスによる選択,(3)効率的なソリューションキャッシングによる適応的リプレイバッファトレーニングなどが含まれている。
論文 参考訳(メタデータ) (2025-09-29T20:00:29Z) - WebResearcher: Unleashing unbounded reasoning capability in Long-Horizon Agents [72.28593628378991]
WebResearcherは、マルコフ決定プロセスとしてディープリサーチを再構築する反復的なディープリサーチパラダイムである。
WebResearcherは最先端のパフォーマンスを実現し、フロンティアのプロプライエタリシステムを超えています。
論文 参考訳(メタデータ) (2025-09-16T17:57:17Z) - Deep Research: A Survey of Autonomous Research Agents [33.96146020332329]
大規模言語モデル(LLM)の急速な進歩は、複雑なタスクを自律的に実行可能なエージェントシステムの開発を促している。
これらの制約を克服するため、深層研究のパラダイムが提案され、エージェントは、Webベースの証拠に根ざした包括的で忠実な分析レポートを生成するために、計画、検索、合成に積極的に従事する。
本稿では,計画,質問開発,Web探索,レポート生成の4段階からなるディープリサーチパイプラインの体系的概要について述べる。
論文 参考訳(メタデータ) (2025-08-18T09:26:14Z) - Learning to Plan Optimistically: Uncertainty-Guided Deep Exploration via
Latent Model Ensembles [73.15950858151594]
本稿では,不確実な長期報酬に直面した最適化による深層探査を可能にするLOVE(Latent Optimistic Value Exploration)を提案する。
潜在世界モデルと値関数推定を組み合わせ、無限水平リターンを予測し、アンサンブルにより関連する不確実性を回復する。
連続行動空間における視覚ロボット制御タスクにLOVEを適用し、最先端や他の探査目標と比較して、平均20%以上のサンプル効率の改善を実証する。
論文 参考訳(メタデータ) (2020-10-27T22:06:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。