論文の概要: REDSearcher: A Scalable and Cost-Efficient Framework for Long-Horizon Search Agents
- arxiv url: http://arxiv.org/abs/2602.14234v1
- Date: Sun, 15 Feb 2026 17:04:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 16:22:49.825682
- Title: REDSearcher: A Scalable and Cost-Efficient Framework for Long-Horizon Search Agents
- Title(参考訳): REDSearcher: 長距離検索エージェントのためのスケーラブルで費用効率の良いフレームワーク
- Authors: Zheng Chu, Xiao Wang, Jack Hong, Huiming Fan, Yuqi Huang, Yue Yang, Guohai Xu, Chenxiao Zhao, Cheng Xiang, Shengchao Hu, Dongdong Kuang, Ming Liu, Bing Qin, Xing Yu,
- Abstract要約: REDSearcherは複雑なタスク合成、ミッドトレーニング、拡張性のあるサーチエージェント最適化のための後トレーニングをコード署名する統合フレームワークである。
我々は、受動的リコールではなく、積極的にツールの使用を促すために、toolaugmentedクエリを導入している。
トレーニング中、コアアトミック能力の知識、計画、関数呼び出しを強化する。
我々は、強化学習実験のための高速で低コストなアルゴリズム反復を可能にする、局所シミュレーション環境を構築した。
- 参考スコア(独自算出の注目度): 40.38002661542917
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models are transitioning from generalpurpose knowledge engines to realworld problem solvers, yet optimizing them for deep search tasks remains challenging. The central bottleneck lies in the extreme sparsity of highquality search trajectories and reward signals, arising from the difficulty of scalable longhorizon task construction and the high cost of interactionheavy rollouts involving external tool calls. To address these challenges, we propose REDSearcher, a unified framework that codesigns complex task synthesis, midtraining, and posttraining for scalable searchagent optimization. Specifically, REDSearcher introduces the following improvements: (1) We frame task synthesis as a dualconstrained optimization, where task difficulty is precisely governed by graph topology and evidence dispersion, allowing scalable generation of complex, highquality tasks. (2) We introduce toolaugmented queries to encourage proactive tool use rather than passive recall.(3) During midtraining, we strengthen core atomic capabilities knowledge, planning, and function calling substantially reducing the cost of collecting highquality trajectories for downstream training. (4) We build a local simulated environment that enables rapid, lowcost algorithmic iteration for reinforcement learning experiments. Across both textonly and multimodal searchagent benchmarks, our approach achieves stateoftheart performance. To facilitate future research on longhorizon search agents, we will release 10K highquality complex text search trajectories, 5K multimodal trajectories and 1K text RL query set, and together with code and model checkpoints.
- Abstract(参考訳): 大規模言語モデルは、汎用知識エンジンから現実の問題解決へ移行しているが、深層検索タスクに最適化することは依然として困難である。
中心的なボトルネックは、スケーラブルな長距離タスク構築の難しさと、外部ツールコールを含む高コストの相互運用によるロールアウトから生じる、高品質な探索軌跡と報酬信号の極端な間隔にある。
これらの課題に対処するために、我々はREDSearcherという複雑なタスク合成、中等訓練、そして拡張性のあるサーチエージェント最適化のための後トレーニングをコーディングする統合フレームワークを提案する。
具体的には,1) タスク合成を,グラフトポロジとエビデンス分散によってタスクの難易度を正確に管理し,複雑で高品質なタスクをスケーラブルに生成する,二重制約付き最適化として設定する。
2) パッシブリコールではなく, プロアクティブツールの利用を促すために, トーラメントクエリを導入する。
(3)中等教育において,中等教育において,下流訓練における高品質な軌道収集のコストを大幅に削減し,コア原子能力の知識,計画,機能呼び出しを強化した。
(4) 強化学習実験のための高速で低コストなアルゴリズム反復を可能にするローカルなシミュレーション環境を構築する。
テキストのみのベンチマークとマルチモーダル検索ベンチマークの両方において,本手法は最先端の性能を実現する。
長距離検索エージェントの今後の研究を容易にするため、コードとモデルチェックポイントとともに、10Kの高品質な複雑なテキスト検索トラジェクトリ、5Kのマルチモーダルトラジェクトリ、1KのテキストRLクエリセットをリリースする。
関連論文リスト
- Beyond Monolithic Architectures: A Multi-Agent Search and Knowledge Optimization Framework for Agentic Search [56.78490647843876]
エージェント検索は、大規模言語モデル(LLM)が推論とツールの使用をインターリーブできるようにすることによって、複雑な情報を探すための有望なパラダイムとして登場した。
本稿では,bfM-ASKを提案する。bfM-ASK,bfM-ASK,bfM-ASK,bfM-ASK,bfM-ASK,bfM-ASK,bfM-ASK,bfM-ASK。
論文 参考訳(メタデータ) (2026-01-08T08:13:27Z) - Search Self-play: Pushing the Frontier of Agent Capability without Supervision [14.889394507446477]
本稿では,ディープサーチエージェントのためのセルフプレイトレーニングを提案する。
探索セルフプレイ(SSP)ゲームにおいて、提案者と解決者は、競争と協力の両面からエージェント能力を共同開発する。
SSPは、様々なベンチマークにおいて、いかなる監督も受けずに、検索エージェントのパフォーマンスを均一に向上させることができる。
論文 参考訳(メタデータ) (2025-10-21T17:19:35Z) - DynaSearcher: Dynamic Knowledge Graph Augmented Search Agent via Multi-Reward Reinforcement Learning [5.280613615397194]
DynaSearcherは動的知識グラフとマルチリワード強化学習(RL)によって強化された革新的な検索エージェントである
検索精度, 効率, 応答品質などの学習目標を詳細に制御するために, マルチリワード RL フレームワークを用いる。
実験により,提案手法は6つのマルチホップ質問応答データセットに対して,最先端の回答精度を実現することを示す。
論文 参考訳(メタデータ) (2025-07-23T09:58:31Z) - AgentSwift: Efficient LLM Agent Design via Value-guided Hierarchical Search [58.98450205734779]
大規模言語モデル(LLM)エージェントは、多様なドメインにまたがる強力な機能を示している。
既存のエージェントサーチ手法には3つの大きな制限がある。
これらの課題に対処するための包括的なフレームワークを導入します。
論文 参考訳(メタデータ) (2025-06-06T12:07:23Z) - SimpleDeepSearcher: Deep Information Seeking via Web-Powered Reasoning Trajectory Synthesis [94.33978856270268]
Retrieval-augmented Generation (RAG) システムは複雑なディープ検索シナリオにおいて高度な大規模言語モデル(LLM)を持つ。
既存のアプローチでは、高品質なトレーニングトラジェクトリが欠如し、分散ミスマッチに苦しむ、重要な制限に直面しています。
本稿では,複雑なトレーニングパラダイムではなく,戦略的データエンジニアリングによるギャップを埋めるフレームワークであるSimpleDeepSearcherを紹介する。
論文 参考訳(メタデータ) (2025-05-22T16:05:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。