論文の概要: SciResearcher: Scaling Deep Research Agents for Frontier Scientific Reasoning
- arxiv url: http://arxiv.org/abs/2605.01489v1
- Date: Sat, 02 May 2026 15:26:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.800424
- Title: SciResearcher: Scaling Deep Research Agents for Frontier Scientific Reasoning
- Title(参考訳): SciResearcher:フロンティア科学推論のためのディープリサーチエージェントのスケーリング
- Authors: Tianshi Zheng, Rui Wang, Xiyun Li, Yangqiu Song, Tianqing Fang,
- Abstract要約: 我々は、フロンティア科学データ構築のための完全に自動化されたエージェントフレームワークであるSciResearcherを紹介する。
SciResearcherは、学術的証拠に基づく様々な概念的および計算的なタスクを合成する。
我々は,HLE-Bio/Chem-Goldベンチマークで19.46%を達成できるエージェント基盤モデルであるSciResearcher-8Bを開発した。
- 参考スコア(独自算出の注目度): 54.194672921128785
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Frontier scientific reasoning is rapidly emerging as a key foundation for advancing AI agents in automated scientific discovery. Deep research agents offer a promising approach to this challenge. These models develop robust problem-solving capabilities through post-training on information-seeking tasks, which are typically curated via knowledge graph construction or iterative web browsing. However, these strategies face inherent limitations in frontier science, where domain-specific knowledge is scattered across sparse and heterogeneous academic sources, and problem solving requires sophisticated computation and reasoning far beyond factual recall. To bridge this gap, we introduce SciResearcher, a fully automated agentic framework for frontier-science data construction. SciResearcher synthesizes diverse conceptual and computational tasks grounded in academic evidence, while eliciting information acquisition, tool-integrated reasoning, and long-horizon capabilities. Leveraging the curated data for supervised fine-tuning and agentic reinforcement learning, we develop SciResearcher-8B, an agent foundation model that achieves 19.46% on the HLE-Bio/Chem-Gold benchmark, establishing a new state of the art at its parameter scale and surpassing several larger proprietary agents. It further achieves 13-15% absolute gains on SuperGPQA-Hard-Biology and TRQA-Literature benchmarks. Overall, SciResearcher introduces a new paradigm for automated data construction for frontier scientific reasoning and offers a scalable path toward future scientific agents.
- Abstract(参考訳): 最先端の科学推論は、自動化された科学発見においてAIエージェントを前進させる重要な基盤として急速に発展しつつある。
ディープリサーチエージェントはこの課題に対して有望なアプローチを提供する。
これらのモデルは、知識グラフの構築や反復的なWebブラウジングを通じて通常キュレートされる情報探索タスクの後のトレーニングを通じて、堅牢な問題解決能力を開発する。
しかし、これらの戦略はフロンティア科学において固有の制限に直面しており、ドメイン固有の知識はスパースや異質な学術資料に散らばっており、問題解決には高度な計算と推論が必要である。
このギャップを埋めるために、フロンティア科学データ構築のための完全に自動化されたエージェントフレームワークであるSciResearcherを紹介します。
SciResearcherは、情報取得、ツール統合推論、ロングホライゾン能力を引き出す一方で、学術的証拠に根ざした様々な概念的および計算的なタスクを合成する。
SciResearcher-8Bは,HLE-Bio/Chem-Goldベンチマークで19.46%を達成し,パラメータスケールで新たな最先端技術を確立し,より大規模なプロプライエタリエージェントを超越したエージェント基盤モデルである。
さらに、SuperGPQA-Hard-BiologyとTRQA-Literatureベンチマークで13-15%の絶対ゲインを達成する。
全体として、SciResearcherはフロンティア科学的推論のための自動データ構築のための新しいパラダイムを導入し、将来の科学的エージェントへのスケーラブルなパスを提供する。
関連論文リスト
- NORA: A Harness-Engineered Autonomous Research Agent for End-to-End Spatial Data Science [13.671260946635813]
本稿では,GIScienceと空間データサイエンスのための多エージェント自律研究システムであるNORA(Night Owl Research Agent)を紹介する。
NORAは、21のドメイン専門ワークフロースキル、9つの専門サブエージェント、カスタムモデルコンテキストプロトコル(MCP)サーバからなるスキルファーストアーキテクチャを通じて、完全な研究ライフサイクルを編成する。
我々は、科学研究エージェントのためのハーネスエンジニアリングの権威的な概念を定式化し、ライフサイクルフック、安全ゲート、ジェネレータと評価器の分離、人間とループの分離、そして状態の持続性が、信頼性と再現可能な自律的な研究をどのように保証するかを実証する。
論文 参考訳(メタデータ) (2026-05-03T23:22:01Z) - AutoResearchBench: Benchmarking AI Agents on Complex Scientific Literature Discovery [55.70879973230979]
AutoResearchBenchは、自律的な科学文献発見のためのベンチマークである。
エージェントWebブラウジングに関する以前のベンチマークと比較すると、AutoResearchBenchは研究指向である。
最も強力なLCMでさえ、BrowseCompのような一般的なエージェントによるWebブラウジングベンチマークをほとんど征服したにもかかわらず、Deep Researchでは9.39%、Wide Researchでは9.31%の精度しか達成していない。
論文 参考訳(メタデータ) (2026-04-28T06:05:17Z) - Cross-Disciplinary Knowledge Retrieval and Synthesis: A Compound AI Architecture for Scientific Discovery [1.5143261755366868]
BioSageは、LLMをRAGと統合した新しい複合AIアーキテクチャで、AI、データサイエンス、バイオメディカル、バイオセキュリティドメインにわたる発見を可能にするために、特殊なエージェントとツールを編成した。
本システムでは,クエリ計画と応答合成を備えた検索エージェントを含む,複数の特殊エージェントを特徴とし,引用支援型応答を持つドメイン間の知識検索を実現する。
我々の研究は、チャート、表、構造化された科学データに対するマルチモーダル検索と推論に重点を置いており、また、クロスディシプリナ発見のための総合的なマルチモーダルベンチマークも開発している。
論文 参考訳(メタデータ) (2025-11-23T05:33:11Z) - AstaBench: Rigorous Benchmarking of AI Agents with a Scientific Research Suite [75.58737079136942]
本稿では,AstaBenchについて紹介する。AstaBenchは,科学的研究を行うためのエージェント能力の総合的な測定を行うスイートである。
私たちのスイートには、プロダクショングレードの検索ツールを備えた、最初の科学研究環境が付属しています。
22のエージェントクラスで57のエージェントを評価したところ,いくつかの興味深い結果が得られた。
論文 参考訳(メタデータ) (2025-10-24T17:10:26Z) - A Survey of Scientific Large Language Models: From Data Foundations to Agent Frontiers [251.23085679210206]
科学大規模言語モデル(Sci-LLMs)は、科学研究において、知識の表現、統合、適用の方法を変えつつある。
この調査は、モデルとその基盤となるデータ基板の共進化として、Sci-LLMの開発を再考する。
我々は、科学的データの統一された分類法と、科学的知識の階層的なモデルを定式化する。
論文 参考訳(メタデータ) (2025-08-28T18:30:52Z) - From Web Search towards Agentic Deep Research: Incentivizing Search with Reasoning Agents [96.65646344634524]
推論とエージェント能力を備えた大規模言語モデル(LLM)は、エージェントディープリサーチ(Agenic Deep Research)と呼ばれる新しいパラダイムを取り入れている。
静的なWeb検索から,計画,探索,学習を行う対話型エージェントベースのシステムへの進化を辿ります。
我々はエージェントディープリサーチが既存のアプローチを著しく上回るだけでなく、将来の情報探索において支配的なパラダイムになることを実証する。
論文 参考訳(メタデータ) (2025-06-23T17:27:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。