論文の概要: Search More, Think Less: Rethinking Long-Horizon Agentic Search for Efficiency and Generalization
- arxiv url: http://arxiv.org/abs/2602.22675v1
- Date: Thu, 26 Feb 2026 06:46:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.561151
- Title: Search More, Think Less: Rethinking Long-Horizon Agentic Search for Efficiency and Generalization
- Title(参考訳): 検索の効率と一般化のための長距離エージェント検索を再考する
- Authors: Qianben Chen, Tianrui Qin, King Zhu, Qiexiang Wang, Chengjun Yu, Shu Xu, Jiaqi Wu, Jiayu Zhang, Xinpeng Liu, Xin Gui, Jingyi Cao, Piaohong Wang, Dingfeng Shi, He Zhu, Tiannan Wang, Yuqing Wang, Maojia Song, Tianyu Zheng, Ge Zhang, Jian Yang, Jiaheng Liu, Minghao Liu, Yuchen Eleanor Jiang, Wangchunshu Zhou,
- Abstract要約: emphSearch More, Think Less (SMTL) は、効率性と一般化の両方をターゲットとした長期エージェント検索のためのフレームワークである。
我々は、教師付き微調整と強化学習を用いてエンドツーエンドエージェントを訓練し、ベンチマーク全体にわたって、強固で頻繁なパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 64.61432234404276
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent deep research agents primarily improve performance by scaling reasoning depth, but this leads to high inference cost and latency in search-intensive scenarios. Moreover, generalization across heterogeneous research settings remains challenging. In this work, we propose \emph{Search More, Think Less} (SMTL), a framework for long-horizon agentic search that targets both efficiency and generalization. SMTL replaces sequential reasoning with parallel evidence acquisition, enabling efficient context management under constrained context budgets. To support generalization across task types, we further introduce a unified data synthesis pipeline that constructs search tasks spanning both deterministic question answering and open-ended research scenarios with task appropriate evaluation metrics. We train an end-to-end agent using supervised fine-tuning and reinforcement learning, achieving strong and often state of the art performance across benchmarks including BrowseComp (48.6\%), GAIA (75.7\%), Xbench (82.0\%), and DeepResearch Bench (45.9\%). Compared to Mirothinker-v1.0, SMTL with maximum 100 interaction steps reduces the average number of reasoning steps on BrowseComp by 70.7\%, while improving accuracy.
- Abstract(参考訳): 最近のディープリサーチエージェントは、主に推論深度をスケーリングすることでパフォーマンスを向上させるが、これは検索集約シナリオにおいて高い推論コストと遅延をもたらす。
さらに、異種研究環境における一般化は依然として困難である。
本研究では,効率と一般化の両方を目標とした長期エージェント探索のためのフレームワークである 'emph{Search More, Think Less} (SMTL) を提案する。
SMTLは逐次推論を並列エビデンス獲得に置き換え、制約付きコンテキスト予算の下で効率的なコンテキスト管理を可能にする。
さらに、タスクタイプ間の一般化を支援するために、決定論的質問応答とタスク適切な評価指標を用いたオープンな研究シナリオの両方にまたがる探索タスクを構築する統合データ合成パイプラインを導入する。
BrowseComp (48.6\%)、GAIA (75.7\%)、Xbench (82.0\%)、DeepResearch Bench (45.9\%) を含むベンチマークにおいて、強力な最先端のパフォーマンスを達成するために、教師付き微調整と強化学習を用いてエンドツーエンドエージェントを訓練する。
Mirothinker-v1.0と比較して、最大100の相互作用ステップを持つSMTLは、BrowseCompの推論ステップの平均数を70.7%削減し、精度を向上する。
関連論文リスト
- W&D:Scaling Parallel Tool Calling for Efficient Deep Research Agents [48.22725588392165]
そこで本稿では,エージェントの動作と性能を,深さだけでなく幅を並列ツールコールでスケーリングする際のフレームワークを提案する。
本研究では,スケーリング幅が深層調査ベンチマークの性能を著しく向上すると同時に,正しい回答を得るために必要なターン数を削減できることを実証する。
以上の結果から,幅と深さのトレードオフを最適化することが,高効率深層研究エージェントへの重要な経路であることが示唆された。
論文 参考訳(メタデータ) (2026-02-07T04:49:53Z) - Deep Researcher with Sequential Plan Reflection and Candidates Crossover (Deep Researcher Reflect Evolve) [0.0]
本稿では、複雑なPhDレベルのトピックに関する詳細な研究レポートを作成するために設計された、新しいDeep Researcherアーキテクチャを提案する。
本システムでは,リフレクションによる逐次研究計画修正と候補クロスオーバーアルゴリズムという,2つの重要なイノベーションを活用している。
我々の建築は46.21点を達成し、先進的な深層研究エージェントを超越して優れた性能を示した。
論文 参考訳(メタデータ) (2026-01-28T18:45:39Z) - IterResearch: Rethinking Long-Horizon Agents via Markovian State Reconstruction [107.49922328855025]
IterResearchは、マルコフ決定過程として長期研究を再構築する、新しい反復的深層研究パラダイムである。
6つのベンチマークで平均+14.5ppの既存のオープンソースエージェントよりも大幅に改善されている。
これは効果的なプロンプト戦略として機能し、ロングホライゾンタスクにおけるReActよりも19.2ppのフロンティアモデルを改善する。
論文 参考訳(メタデータ) (2025-11-10T17:30:08Z) - MemSearcher: Training LLMs to Reason, Search and Manage Memory via End-to-End Reinforcement Learning [73.27233666920618]
本稿では,メモリを反復的に保持し,現在のターンと組み合わせたエージェントワークフローであるMemSearcherを提案する。
それぞれのターンで、MemSearcherはユーザーの質問をメモリに融合させ、推論トレースを生成し、検索アクションを実行し、メモリを更新してタスクの解決に必要な情報のみを保持する。
我々は,MemSearcher Agents の推論,検索戦略,メモリ管理を協調的に最適化する,エンドツーエンドの RL フレームワークである Multi-context GRPO を紹介する。
論文 参考訳(メタデータ) (2025-11-04T18:27:39Z) - AceSearcher: Bootstrapping Reasoning and Search for LLMs via Reinforced Self-Play [45.02121903138421]
AceSearcherは1つの大きな言語モデル(LLM)をトレーニングし、複雑なクエリを分解するデコンポスタと、検索したコンテキストを統合して回答生成するソルバという2つの役割を交互に行う。
10データセットにわたる3つの推論集約タスクの実験は、AceSearcherが最先端のベースラインを上回り、平均的な正確なマッチング改善を7.6%達成していることを示している。
論文 参考訳(メタデータ) (2025-09-29T02:14:30Z) - BrowseComp-Plus: A More Fair and Transparent Evaluation Benchmark of Deep-Research Agent [74.10138164281618]
BrowseComp-Plus(BrowseComp-Plus)は、BrowseCompから派生したベンチマークである。
このベンチマークは、ディープリサーチエージェントと検索方法の総合的な評価とアンタングル解析を可能にする。
論文 参考訳(メタデータ) (2025-08-08T17:55:11Z) - Benchmarking Deep Search over Heterogeneous Enterprise Data [73.55304268238474]
検索強化生成(RAG)の形式を評価するための新しいベンチマークを提案する。
RAGは、多種多様な、しかし関連するソースに対して、ソースを意識したマルチホップ推論を必要とする。
製品計画、開発、サポートステージをまたいだビジネスをシミュレートする合成データパイプラインを使用して構築します。
論文 参考訳(メタデータ) (2025-06-29T08:34:59Z) - LevelRAG: Enhancing Retrieval-Augmented Generation with Multi-hop Logic Planning over Rewriting Augmented Searchers [24.01783076521377]
Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)における幻覚を緩和するための重要な方法である
既存のRAGメソッドは通常、検索範囲を広げるためにハイブリッド検索を使用しながら、ユーザ意図を明確にし、マルチホップロジックを管理するためにクエリ書き換えを使用する。
本稿では,複雑なクエリをアトミックなクエリに分解する高レベル検索手法を提案する。
高精度なキーワード検索にスパース検索の長所を利用するために,Lucene構文を用いて検索精度を向上させるスパース検索手法を開発した。
論文 参考訳(メタデータ) (2025-02-25T12:09:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。