論文の概要: Beyond Turn Limits: Training Deep Search Agents with Dynamic Context Window
- arxiv url: http://arxiv.org/abs/2510.08276v1
- Date: Thu, 09 Oct 2025 14:31:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:15.131441
- Title: Beyond Turn Limits: Training Deep Search Agents with Dynamic Context Window
- Title(参考訳): Beyond Turn Limits: 動的コンテキストウィンドウによるディープ検索エージェントのトレーニング
- Authors: Qiaoyu Tang, Hao Xiang, Le Yu, Bowen Yu, Yaojie Lu, Xianpei Han, Le Sun, WenJuan Zhang, Pengbo Wang, Shixuan Liu, Zhenru Zhang, Jianhong Tu, Hongyu Lin, Junyang Lin,
- Abstract要約: DeepMinerは、高機能なトレーニングタスクと動的コンテキストウィンドウを導入することで、そのような能力を引き出す新しいフレームワークである。
We developed DeepMiner-32B, which is a significant performance improvements across multiple search agent benchmarks。
- 参考スコア(独自算出の注目度): 88.85901839023803
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While recent advances in reasoning models have demonstrated cognitive behaviors through reinforcement learning, existing approaches struggle to invoke deep reasoning capabilities in multi-turn agents with long-horizon interactions. We propose DeepMiner, a novel framework that elicits such abilities by introducing high-difficulty training tasks and dynamic context window. DeepMiner presents a reverse construction method to generate complex but verifiable question-answer pairs from authentic web sources, which ensures the challenge and reliability of training data while injecting cognitive capabilities into multi-turn reasoning scenarios. We further design an elegant yet effective dynamic context management strategy for both training and inference, utilizing sliding window mechanisms while eliminating the dependency on external summarization models, thereby efficiently empowering the model to handle continuously expanding long-horizon contexts. Through reinforcement learning on Qwen3-32B, we develop DeepMiner-32B, which achieves substantial performance improvements across multiple search agent benchmarks. DeepMiner attains 33.5% accuracy on BrowseComp-en, surpassing the previous best open-source agent by almost 20 percentage points, and demonstrates consistent improvements on BrowseComp-zh, XBench-DeepSearch, and GAIA. Notably, our dynamic context management enables sustained interactions of nearly 100 turns within standard 32k context length, effectively addressing the context limitations that constrain existing multi-turn interaction systems.
- Abstract(参考訳): 近年の推論モデルの進歩は、強化学習を通じて認知行動を示すが、既存のアプローチは、長い水平相互作用を持つマルチターンエージェントの深い推論機能を実現するのに苦労している。
本稿では,高難易度トレーニングタスクと動的コンテキストウィンドウを導入することで,このような能力を実現する新しいフレームワークであるDeepMinerを提案する。
DeepMinerは、認証されたWebソースから複雑だが検証可能な質問応答ペアを生成するためのリバースコンストラクション方法を提示し、マルチターン推論シナリオに認知機能を注入しながら、トレーニングデータのチャレンジと信頼性を保証する。
さらに、外部要約モデルへの依存を排除しつつ、スライディングウインドウ機構を利用して、トレーニングと推論の両方のためのエレガントで効果的な動的コンテキスト管理戦略を設計し、拡張した長期的コンテキストを扱うためにモデルを効果的に活用する。
Qwen3-32Bの強化学習を通じて,複数のサーチエージェントベンチマークにおいて大幅な性能向上を実現するDeepMiner-32Bを開発した。
DeepMinerはBrowseComp-enで33.5%の精度を獲得し、BrowseComp-zh、XBench-DeepSearch、GAIAで一貫した改善を示している。
特に、我々の動的コンテキスト管理は、標準32kコンテキスト長内における100回転近い持続的な相互作用を可能にし、既存のマルチターンインタラクションシステムを制約するコンテキスト制限に効果的に対処する。
関連論文リスト
- KAT-V1: Kwai-AutoThink Technical Report [50.84483585850113]
Kwaipilot-AutoThink (KAT) はオープンソースの40B大言語モデルであり、推論集約タスクにおける過大な問題に対処するために開発された。
KATはタスクの複雑さに基づいて推論モードと非推論モードを動的に切り替える。
また、GRPOフレームワークに中間管理を組み込んだ強化学習アルゴリズムであるStep-SRPOを提案する。
論文 参考訳(メタデータ) (2025-07-11T04:07:10Z) - NAP-Tuning: Neural Augmented Prompt Tuning for Adversarially Robust Vision-Language Models [72.58372335140241]
AdvPT(Adversarial Prompt Tuning)は、視覚言語モデル(VLM)における対向的ロバスト性を高めるための学習可能なテキストプロンプトを導入した。
マルチモーダル適応型プロンプトチューニング(NAP-Tuning)のためのニューラルネットワークフレームワークを提案する。
我々のアプローチは、挑戦的なAutoAttackベンチマークの下で最強のベースラインよりも大幅に改善され、ViT-B16では33.5%、ViT-B32アーキテクチャでは33.0%を上回りました。
論文 参考訳(メタデータ) (2025-06-15T03:34:23Z) - Scalable In-Context Q-Learning [68.9917436397079]
textbfScalable textbfIn-textbfContext textbfQ-textbfLearning (textbfSICQL)を提案する。
textbfSICQLは動的プログラミングとワールドモデリングを利用して、ICRLを効率的な報酬とタスクの一般化に向けて制御する。
論文 参考訳(メタデータ) (2025-06-02T04:21:56Z) - Knowledge-Aware Iterative Retrieval for Multi-Agent Systems [0.0]
本稿では,新しい大規模言語モデル (LLM) によるエージェントフレームワークを提案する。
動的に進化する知識を活用することで、クエリを反復的に洗練し、文脈的証拠をフィルタリングする。
提案システムは、更新されたコンテキストの競合的および協調的な共有をサポートする。
論文 参考訳(メタデータ) (2025-03-17T15:27:02Z) - Progressive Multimodal Reasoning via Active Retrieval [64.74746997923967]
多段階多モーダル推論タスクは、大規模言語モデル(MLLM)に重大な課題をもたらす
本稿では,MLLMの推論能力の向上を目的とした汎用フレームワークAR-MCTSを提案する。
我々は,AR-MCTSがサンプリングの多様性と精度を最適化し,信頼性の高いマルチモーダル推論を実現することを示す。
論文 参考訳(メタデータ) (2024-12-19T13:25:39Z) - Agent Q: Advanced Reasoning and Learning for Autonomous AI Agents [44.34340798542]
大きな言語モデル(LLM)は、複雑な推論を必要とする自然言語タスクにおいて顕著な能力を示している。
静的データセットに対する従来の教師付き事前トレーニングは、自律的なエージェント機能を実現するには不十分である。
本稿では,モンテカルロ木探索(MCTS)を自己批判機構と組み合わせ,エージェント間相互作用を反復的に微調整するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-13T20:52:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。