論文の概要: OpenSeeker-v2: Pushing the Limits of Search Agents with Informative and High-Difficulty Trajectories
- arxiv url: http://arxiv.org/abs/2605.04036v1
- Date: Tue, 05 May 2026 17:55:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-06 19:35:44.073785
- Title: OpenSeeker-v2: Pushing the Limits of Search Agents with Informative and High-Difficulty Trajectories
- Title(参考訳): OpenSeeker-v2: Informative and High-Diffulty Trajectoryによる検索エージェントの限界を押し上げる
- Authors: Yuwen Du, Rui Ye, Shuo Tang, Keduan Huang, Xinyu Zhu, Yuzhu Cai, Siheng Chen,
- Abstract要約: 簡単な教師付き微調整アプローチが、フロンティア検索エージェントの訓練に驚くほど強力であることを示す。
OpenSeeker-v2は、4つのベンチマーク(30BサイズのReActパラダイムを持つエージェント)で最先端のパフォーマンスを実現しています。BrowseCompで46.4%、BrowseComp-ZHで58.1%、HumanityのLast Examで34.6%、xbenchで78.0%です。
OpenSeeker-v2モデルの重み付けをオープンソースとして公開し、フロンティア検索エージェントの研究をよりコミュニティに利用できるようにするための、シンプルで効果的な結果を共有することを楽しみにしています。
- 参考スコア(独自算出の注目度): 43.841018840819494
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep search capabilities have become an indispensable competency for frontier Large Language Model (LLM) agents, yet their development remains dominated by industrial giants. The typical industry recipe involves a highly resource-intensive pipeline spanning pre-training, continual pre-training (CPT), supervised fine-tuning (SFT), and reinforcement learning (RL). In this report, we show that when fueled with informative and high-difficulty trajectories, a simple SFT approach could be surprisingly powerful for training frontier search agents. By introducing three simple data synthesis modifications: scaling knowledge graph size for richer exploration, expanding the tool set size for broader functionality, and strict low-step filtering, we establish a stronger baseline. Trained on merely 10.6k data points, our OpenSeeker-v2 achieves state-of-the-art performance across 4 benchmarks (30B-sized agents with ReAct paradigm): 46.0% on BrowseComp, 58.1% on BrowseComp-ZH, 34.6% on Humanity's Last Exam, and 78.0% on xbench, surpassing even Tongyi DeepResearch trained with heavy CPT+SFT+RL pipeline, which achieves 43.4%, 46.7%, 32.9%, and 75.0%, respectively. Notably, OpenSeeker-v2 represents the first state-of-the-art search agent within its model scale and paradigm to be developed by a purely academic team using only SFT. We are excited to open-source the OpenSeeker-v2 model weights and share our simple yet effective findings to make frontier search agent research more accessible to the community.
- Abstract(参考訳): 深層探索能力は、フロンティア大言語モデル(LLM)エージェントにとって欠かせない能力となっているが、その開発はいまだ産業巨人に支配されている。
典型的な産業レシピは、事前訓練、継続事前訓練(CPT)、教師付き微調整(SFT)、強化学習(RL)にまたがる非常にリソース集約的なパイプラインである。
本報告では,情報および高拡散性軌跡を併用することで,フロンティアサーチエージェントの訓練において,単純なSFTアプローチが驚くほど強力である可能性が示唆された。
よりリッチな探索のために知識グラフのサイズを拡大し、より広い機能のためにツールセットのサイズを拡大し、厳密な低ステップフィルタリングという3つの単純なデータ合成修正を導入することで、より強力なベースラインを確立します。
たった10.6kのデータポイントでトレーニングされたOpenSeeker-v2は、4つのベンチマーク(30BサイズのReActパラダイムを持つエージェント)で最先端のパフォーマンスを達成した。BrowseCompでは46.0%、BrowseComp-ZHでは58.1%、HumanityのLast Examでは34.0%、xbenchでは78.0%、それぞれ43.4%、46.7%、32.9%、75.0%である。
特にOpenSeeker-v2は、SFTのみを使用した純粋に学術的なチームによって開発された、最初の最先端の検索エージェントである。
OpenSeeker-v2モデルの重み付けをオープンソースとして公開し、フロンティア検索エージェントの研究をよりコミュニティに利用できるようにするための、シンプルで効果的な結果を共有することを楽しみにしています。
関連論文リスト
- OpenSeeker: Democratizing Frontier Search Agents by Fully Open-Sourcing Training Data [43.955144962666196]
OpenSeekerは、フロンティアレベルのパフォーマンスを実現する最初の完全オープンソース検索エージェント(モデルとデータ)である。
OpenSeekerはBrowseComp, BrowseComp-ZH, xbench-DeepSearch, WideSearchなど,複数のベンチマークで最先端のパフォーマンスを実現している。
私たちは、フロンティア検索エージェントの研究を民主化し、より透明で協力的なエコシステムを育むために、完全なトレーニングデータセットとモデルウェイトを完全にオープンソースにしています。
論文 参考訳(メタデータ) (2026-03-16T17:52:04Z) - AgentCPM-Explore: Realizing Long-Horizon Deep Exploration for Edge-Scale Agents [75.67445299298949]
AgentCPM-Exploreは、知識密度と強力な探索能力を備えたコンパクトな4Bエージェントモデルである。
本稿では,パラメータ空間モデルの融合,報酬信号の復調,文脈情報の改良を特徴とする総合的なトレーニングフレームワークを提案する。
AgentCPM-Exploreは4つのベンチマークで8BクラスのSOTAモデルにマッチまたは超え、また5つのベンチマークでClaude-4.5-SonnetやDeepSeek-v3.2のような大規模モデルよりも優れている。
論文 参考訳(メタデータ) (2026-02-06T08:24:59Z) - OffSeeker: Online Reinforcement Learning Is Not All You Need for Deep Research Agents [68.79728889531806]
最先端のパフォーマンスは通常、オンライン強化学習(RL)に依存します。
オフライントレーニングを効果的に行うために設計された、完全なオープンソーススイートを紹介します。
当社の中核的なコントリビューションはDeepForgeです。DeepForgeは、大量の前処理なしで大規模な研究クエリを生成する、使えるタスク合成フレームワークです。
論文 参考訳(メタデータ) (2026-01-26T13:13:59Z) - Beyond Ten Turns: Unlocking Long-Horizon Agentic Search with Large-Scale Asynchronous RL [22.8456317506762]
ASearcherは、検索エージェントの大規模RLトレーニングのためのオープンソースプロジェクトである。
ASearcher-Web-QwQは、xBenchで51.1、GAIAで58.7のAvg@4スコアを獲得し、既存のオープンソース32Bエージェントを上回っている。
論文 参考訳(メタデータ) (2025-08-11T13:36:57Z) - Skywork Open Reasoner 1 Technical Report [51.403686909760914]
提案するSkywork-OR1は,長期チェーン・オブ・ソート(CoT)モデルのための,効果的かつスケーラブルな強化学習(RL)実装である。
DeepSeek-R1-Distillモデルシリーズをベースとして、我々のRLアプローチは顕著なパフォーマンス向上を実現している。
我々のSkywork-OR1-32Bモデルは、AIME24とAIME25ベンチマークでDeepSeek-R1とQwen3-32Bを上回っています。
論文 参考訳(メタデータ) (2025-05-28T12:56:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。