論文の概要: ResearcherBench: Evaluating Deep AI Research Systems on the Frontiers of Scientific Inquiry
- arxiv url: http://arxiv.org/abs/2507.16280v1
- Date: Tue, 22 Jul 2025 06:51:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-23 21:34:13.99789
- Title: ResearcherBench: Evaluating Deep AI Research Systems on the Frontiers of Scientific Inquiry
- Title(参考訳): ResearcherBench: 科学調査の最前線におけるディープAI研究システムの評価
- Authors: Tianze Xu, Pengrui Lu, Lyumanshan Ye, Xiangkun Hu, Pengfei Liu,
- Abstract要約: 我々は、ディープAI研究システムの能力を評価することに焦点を当てた最初のベンチマークであるResearcherBenchを紹介する。
現実の科学的シナリオから専門的に選択された65の質問のデータセットを収集した。
OpenAI Deep ResearchとGemini Deep Researchは、他のシステムよりも格段に優れており、オープンエンドのコンサルティングの質問では特に強みがある。
- 参考スコア(独自算出の注目度): 22.615102398311432
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The emergence of deep research systems presents significant capabilities in problem-solving, extending from basic queries to sophisticated research tasks. However, existing benchmarks primarily evaluate these systems as agents for web retrieval and report generation, overlooking their potential to discover novel insights on the frontiers of scientific research. To address this gap, we introduce ResearcherBench, the first benchmark focused on evaluating the capabilities of these advanced, agentic systems - which we refer to as Deep AI Research Systems (DARS) - on frontier AI scientific questions. We compiled a dataset of 65 research questions expertly selected from real-world scientific scenarios such as laboratory discussions and interviews, spanning 35 different AI subjects and categorized into three types: technical details, literature review, and open consulting. Our dual evaluation framework combines rubric assessment, which uses expert-designed criteria to evaluate insight quality, with factual assessment, which measures citation accuracy (faithfulness) and coverage (groundedness). We evaluated several leading commercial DARS and baseline systems. Results show that OpenAI Deep Research and Gemini Deep Research significantly outperform other systems, with particular strength in open-ended consulting questions. Such capabilities represent a meaningful step toward AI self-improvement, aligning with the vision of ASI for AI. We open-source ResearcherBench to provide a standardized platform for promoting the development of next-generation AI research assistants, hoping to foster a new perspective in AI research evaluation for a novel pattern of scientific collaboration: https://github.com/GAIR-NLP/ResearcherBench.
- Abstract(参考訳): ディープリサーチシステムの出現は、基本的なクエリから高度な研究タスクまで、問題解決において重要な能力を示す。
しかし、既存のベンチマークでは、これらのシステムをWeb検索とレポート生成のエージェントとして評価しており、科学的研究のフロンティアに関する新たな洞察を発見する可能性を見越している。
このギャップに対処するために、我々はDeep AI Research Systems(DARS)と呼ばれる先進的なエージェントシステムの能力を評価することに焦点を当てた最初のベンチマークであるResearcherBenchを紹介した。
実験室での議論やインタビューなど,現実の科学シナリオから選択された65の質問のデータセットを収集し,35のAI課題にまたがって,技術詳細,文献レビュー,オープンコンサルティングという3つのタイプに分類した。
我々の二重評価フレームワークは、専門家が設計した基準を用いて洞察の質を評価するルーブリックアセスメントと、引用精度(信頼度)とカバレッジ(接地度)を測定する事実アセスメントを組み合わせる。
商業用DARSおよびベースラインシステムについて検討した。
その結果,OpenAI Deep Research と Gemini Deep Research が他のシステムよりも優れており,特にオープンエンドのコンサルティング質問では強みがあることがわかった。
このような能力はAIの自己改善に向けた重要なステップであり、AIのためのAIのビジョンと一致している。
我々はResearcherBenchをオープンソースとして公開し、次世代AI研究アシスタントの開発を促進するための標準化されたプラットフォームを提供し、科学コラボレーションの新しいパターンに対するAI研究評価の新しい視点を育むことを望んでいる。
関連論文リスト
- AI4Research: A Survey of Artificial Intelligence for Scientific Research [55.5452803680643]
我々はAI for Research(AI4Research)に関する総合的な調査を行う。
まず、AI4Researchの5つの主要なタスクを分類する系統分類を導入する。
主要な研究ギャップを特定し、将来有望な方向性を明らかにする。
論文 参考訳(メタデータ) (2025-07-02T17:19:20Z) - From Web Search towards Agentic Deep Research: Incentivizing Search with Reasoning Agents [96.65646344634524]
推論とエージェント能力を備えた大規模言語モデル(LLM)は、エージェントディープリサーチ(Agenic Deep Research)と呼ばれる新しいパラダイムを取り入れている。
静的なWeb検索から,計画,探索,学習を行う対話型エージェントベースのシステムへの進化を辿ります。
我々はエージェントディープリサーチが既存のアプローチを著しく上回るだけでなく、将来の情報探索において支配的なパラダイムになることを実証する。
論文 参考訳(メタデータ) (2025-06-23T17:27:19Z) - A Comprehensive Survey of Deep Research: Systems, Methodologies, and Applications [3.002468101812191]
2023年以降に登場した80以上の商用および非商用実装を分析します。
本稿では,4つの基本的技術的側面に基づいてシステムを分類する新しい階層型分類法を提案する。
私たちの分析は、現在の実装の重要な機能と、それらがもたらす技術的、倫理的課題の両方を明らかにします。
論文 参考訳(メタデータ) (2025-06-14T18:19:05Z) - The AI Imperative: Scaling High-Quality Peer Review in Machine Learning [49.87236114682497]
AIによるピアレビューは、緊急の研究とインフラの優先事項になるべきだ、と私たちは主張する。
我々は、事実検証の強化、レビュアーのパフォーマンスの指導、品質改善における著者の支援、意思決定におけるAC支援におけるAIの具体的な役割を提案する。
論文 参考訳(メタデータ) (2025-06-09T18:37:14Z) - AI-Researcher: Autonomous Scientific Innovation [13.58669328864436]
我々は,AIによる科学的発見の実施と評価の方法を変える,完全自律型研究システムであるAI-Researcherを紹介する。
本フレームワークは,文献レビューや仮説生成からアルゴリズムの実装,出版可能な原稿作成に至るまで,完全な研究パイプラインをシームレスに編成する。
論文 参考訳(メタデータ) (2025-05-24T13:54:38Z) - Agentic AI for Scientific Discovery: A Survey of Progress, Challenges, and Future Directions [0.0]
エージェントAIシステムは推論、計画、自律的な意思決定を行うことができる。
彼らは、科学者が文献のレビューを行い、仮説を作成し、実験を行い、結果を分析する方法を変えようとしている。
論文 参考訳(メタデータ) (2025-03-12T01:00:05Z) - From Hypothesis to Publication: A Comprehensive Survey of AI-Driven Research Support Systems [40.10425916520717]
近年、人工知能(AI)技術の急速な発展は、研究者にAIが研究を加速し、強化する方法を探るきっかけとなった。
本稿では,本領域の進展を体系的に概観する。
我々は,関連する研究を仮説定式化,仮説検証,原稿出版という3つの主要なカテゴリに分類する。
論文 参考訳(メタデータ) (2025-03-03T11:27:13Z) - Transforming Science with Large Language Models: A Survey on AI-assisted Scientific Discovery, Experimentation, Content Generation, and Evaluation [58.064940977804596]
多くの新しいAIモデルとツールが提案され、世界中の研究者や学者が研究をより効果的かつ効率的に実施できるようにすることを約束している。
これらのツールの欠点と誤用の可能性に関する倫理的懸念は、議論の中で特に顕著な位置を占める。
論文 参考訳(メタデータ) (2025-02-07T18:26:45Z) - A Comprehensive Survey on Underwater Image Enhancement Based on Deep Learning [51.7818820745221]
水中画像強調(UIE)はコンピュータビジョン研究において重要な課題である。
多数のUIEアルゴリズムが開発されているにもかかわらず、網羅的で体系的なレビューはいまだに欠落している。
論文 参考訳(メタデータ) (2024-05-30T04:46:40Z) - SurveyAgent: A Conversational System for Personalized and Efficient Research Survey [50.04283471107001]
本稿では,研究者にパーソナライズされた効率的な調査支援を目的とした会話システムであるSurveyAgentを紹介する。
SurveyAgentは3つの重要なモジュールを統合している。文書を整理するための知識管理、関連する文献を発見するための勧告、より深いレベルでコンテンツを扱うためのクエリ回答だ。
本評価は,研究活動の合理化におけるSurveyAgentの有効性を実証し,研究者の科学文献との交流を促進する能力を示すものである。
論文 参考訳(メタデータ) (2024-04-09T15:01:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。