論文の概要: Fathom-DeepResearch: Unlocking Long Horizon Information Retrieval and Synthesis for SLMs
- arxiv url: http://arxiv.org/abs/2509.24107v1
- Date: Sun, 28 Sep 2025 22:58:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.636292
- Title: Fathom-DeepResearch: Unlocking Long Horizon Information Retrieval and Synthesis for SLMs
- Title(参考訳): Fathom-DeepResearch:Long Horizon Information RetrievalとSLMの合成
- Authors: Shreyas Singh, Kunal Singh, Pradeep Moturi,
- Abstract要約: 本稿では2つの特殊モデルからなるエージェントシステムであるFathom-DeepResearchを紹介する。
ひとつは、ライブWeb検索とターゲットWebページクエリによるエビデンスベースの調査に最適化された、DeepSearchモデルであるFathom-Search-4Bである。
2つ目は、Qwen3-4Bから訓練されたFathom-Synthesizer-4Bである。
- 参考スコア(独自算出の注目度): 7.3517692707289415
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tool-integrated reasoning has emerged as a key focus for enabling agentic applications. Among these, DeepResearch Agents have gained significant attention for their strong performance on complex, open-ended information-seeking tasks. We introduce Fathom-DeepResearch, an agentic system composed of two specialized models. The first is Fathom-Search-4B, a DeepSearch model trained from Qwen3-4B and optimized for evidence-based investigation through live web search and targeted webpage querying. Its training combines three advances: (i) DUETQA, a 5K-sample dataset generated via multi-agent self-play that enforces strict web-search dependence and heterogeneous source grounding; (ii) RAPO, a zero-overhead extension of GRPO that stabilizes multi-turn Reinforcement Learning with Verifiable Rewards through curriculum pruning, reward-aware advantage scaling, and per-prompt replay buffers; and (iii) a steerable step-level reward that classifies each tool call by cognitive behavior and marginal utility, enabling explicit control over search trajectory breadth, depth, and horizon. These improvements enable reliable extension of tool-calling beyond 20 calls when warranted. The second is Fathom-Synthesizer-4B, trained from Qwen3-4B, which converts multi-turn DeepSearch traces into structured, citation-dense DeepResearch Reports for comprehensive synthesis. Evaluated on DeepSearch benchmarks (SimpleQA, FRAMES, WebWalker, Seal0, MuSiQue) and DeepResearch-Bench, the system achieves state-of-the-art performance in the open-weights category while demonstrating strong generalization to diverse reasoning tasks including HLE, AIME-25, GPQA-Diamond, and MedQA.
- Abstract(参考訳): エージェントアプリケーションを実現するための重要な焦点として、ツール統合推論が登場した。
中でもDeepResearch Agentsは、複雑でオープンな情報検索タスクにおける強力なパフォーマンスについて大きな注目を集めている。
本稿では2つの特殊モデルからなるエージェントシステムであるFathom-DeepResearchを紹介する。
ひとつは、Qwen3-4BからトレーニングされたDeepSearchモデルであるFathom-Search-4Bで、ライブWeb検索とターゲットWebページクエリによるエビデンスベースの調査に最適化されている。
その訓練には3つの進歩が組み合わさっている。
(i)DUETQAは、厳格なWeb検索と異種ソースグラウンドを強制するマルチエージェントセルフプレイによって生成される5Kサンプルデータセットである。
(二)RAPO(GRPOのゼロオーバーヘッド拡張)は、カリキュラムのプルーニング、報奨効果のスケーリング、プロンプトごとの再生バッファを通じて、検証リワードによるマルチターン強化学習を安定化する。
三 認知行動及び限界効用により各ツールコールを分類し、探索軌跡、深さ及び地平線に対する明示的な制御を可能にする、ステアブルステップレベルの報酬。
これらの改善により、保証された20件以上の呼び出しを確実に拡張できる。
2つ目は、Qwen3-4Bから訓練されたFathom-Synthesizer-4Bで、多ターンのDeepSearchトレースを構造化された、引用密度のDeepResearch Reportsに変換して総合的な合成を行う。
DeepSearchベンチマーク(SimpleQA, FRAMES, WebWalker, Seal0, MuSiQue)とDeepResearch-Benchで評価されたこのシステムは,HLE, AIME-25, GPQA-Diamond, MedQAといった多種多様な推論タスクに強力な一般化を示しながら,オープンウェイトカテゴリにおける最先端のパフォーマンスを実現する。
関連論文リスト
- DeepDive: Advancing Deep Search Agents with Knowledge Graphs and Multi-Turn RL [60.47878242100153]
我々は、ディープサーチエージェントを進化させるためにDeepDiveを提示する。
オープンな知識グラフから複雑で難解な質問を自動的に合成する戦略を提案する。
実験によると、DeepDive-32BはBrowseCompで新たなオープンソース競争結果を達成する。
論文 参考訳(メタデータ) (2025-09-12T17:52:35Z) - Open Data Synthesis For Deep Research [17.22470203913576]
我々は、階層的制約満足度問題として検証可能な回答でDeep Researchタスクを定式化する。
既存のベンチマーク(Natural Questions、HotpotQAなど)は、この複雑さを捉えていない。
スケーラブルでスケーラブルな複雑なDeep ResearchタスクであるInfoSeekを紹介します。
論文 参考訳(メタデータ) (2025-08-30T06:02:56Z) - BrowseComp-Plus: A More Fair and Transparent Evaluation Benchmark of Deep-Research Agent [74.10138164281618]
BrowseComp-Plus(BrowseComp-Plus)は、BrowseCompから派生したベンチマークである。
このベンチマークは、ディープリサーチエージェントと検索方法の総合的な評価とアンタングル解析を可能にする。
論文 参考訳(メタデータ) (2025-08-08T17:55:11Z) - MMSearch-R1: Incentivizing LMMs to Search [49.889749277236376]
MMSearch-R1は,実世界のインターネット環境において,オンデマンドでマルチターン検索が可能な,初のエンドツーエンド強化学習フレームワークである。
本フレームワークは画像検索とテキスト検索の両方を統合し,検索ペナルティによる結果に基づく報酬によって,モデルがいつ,どのように呼び出すかの判断を可能にする。
論文 参考訳(メタデータ) (2025-06-25T17:59:42Z) - From Web Search towards Agentic Deep Research: Incentivizing Search with Reasoning Agents [96.65646344634524]
推論とエージェント能力を備えた大規模言語モデル(LLM)は、エージェントディープリサーチ(Agenic Deep Research)と呼ばれる新しいパラダイムを取り入れている。
静的なWeb検索から,計画,探索,学習を行う対話型エージェントベースのシステムへの進化を辿ります。
我々はエージェントディープリサーチが既存のアプローチを著しく上回るだけでなく、将来の情報探索において支配的なパラダイムになることを実証する。
論文 参考訳(メタデータ) (2025-06-23T17:27:19Z) - SimpleDeepSearcher: Deep Information Seeking via Web-Powered Reasoning Trajectory Synthesis [89.99161034065614]
Retrieval-augmented Generation (RAG) システムは複雑なディープ検索シナリオにおいて高度な大規模言語モデル(LLM)を持つ。
既存のアプローチでは、高品質なトレーニングトラジェクトリが欠如し、分散ミスマッチに苦しむ、重要な制限に直面しています。
本稿では,複雑なトレーニングパラダイムではなく,戦略的データエンジニアリングによるギャップを埋めるフレームワークであるSimpleDeepSearcherを紹介する。
論文 参考訳(メタデータ) (2025-05-22T16:05:02Z) - DeepResearcher: Scaling Deep Research via Reinforcement Learning in Real-world Environments [20.498100965239818]
我々は、LLMベースのディープリサーチエージェントのエンドツーエンドトレーニングのための、初の総合的なフレームワークであるDeepResearcherを紹介する。
固定コーパス内にすべての必要な情報が存在すると仮定するRAGベースのアプローチとは異なり、我々の手法はオープンウェブのノイズ、非構造化、動的性質をナビゲートするエージェントを訓練する。
オープンドメインの研究タスクに関する大規模な実験は、DeepResearcherがエンジニアリングベースの素早いベースラインよりも最大28.9ポイントの大幅な改善を達成していることを示している。
論文 参考訳(メタデータ) (2025-04-04T04:41:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。