論文の概要: Dr.Mi-Bench: A Modular-integrated Benchmark for Scientific Deep Research Agent
- arxiv url: http://arxiv.org/abs/2512.00986v1
- Date: Sun, 30 Nov 2025 17:16:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.527346
- Title: Dr.Mi-Bench: A Modular-integrated Benchmark for Scientific Deep Research Agent
- Title(参考訳): Mi-Bench博士:サイエントディープリサーチエージェントのためのモジュール統合ベンチマーク
- Authors: Zhihan Guo, Feiyang Xu, Yifan Li, Muzhi Li, Shuai Zou, Jiele Wu, Han Shi, Haoli Bai, Ho-fung Leung, Irwin King,
- Abstract要約: ミ・ベンチ博士(Dr.Mi-Bench)は、科学深層研究(DR)エージェントのためのモジュール統合ベンチマークである。
Dr.Mi-Evalはモジュラー統合評価パラダイムである。
- 参考スコア(独自算出の注目度): 52.876617746453995
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The explosive growth in academic literature necessitates automated deep research (DR) agents, yet their evaluation remains a significant challenge. First, existing benchmarks often focus narrowly on retrieval while neglecting high-level planning and reasoning. Second, existing benchmarks favor general domains over the scientific domains that are the core application for DR agents. To address these gaps, we introduce Dr.Mi-Bench, a Modular-integrated benchmark for scientific DR agents. Grounded in academic literature, our benchmark uses a human-annotated dataset of 200 instances across 10 scientific domains, including both research and review papers. Besides, we also propose a Modular-integrated Evaluation Paradigm for DR Agents (Dr.Mi-Eval), a novel modular-integrated evaluation paradigm, which leverages the rich structure of academic papers to assess the core competencies of planning, retrieval, and reasoning through two complementary modes: an end-to-end evaluation for DR agents and an isolated evaluation for foundational LLMs as potential backbones. Experimental results reveal a fragmented performance landscape: agents exhibit specialized strengths but share critical weaknesses, most notably in performing the multi-source retrieval required for review-style tasks and performing consistently across diverse scientific fields. Moreover, improving high-level planning capability is the crucial factor for unlocking the reasoning potential of foundational LLMs as backbones. By exposing these actionable failure modes, Dr.Mi-Bench provides a diagnostic tool to guide the development of more reliable academic research assistants.
- Abstract(参考訳): 学術文献の爆発的な成長は、自動深層研究(DR)エージェントを必要とするが、その評価は依然として大きな課題である。
まず、既存のベンチマークは、高レベルの計画と推論を無視しながら、検索に細心の注意を払っていることが多い。
第二に、既存のベンチマークはDRエージェントのコアとなる科学領域よりも一般的なドメインを好む。
これらのギャップに対処するため、我々はDr.Mi-Benchを紹介した。
学術文献に基づいて、我々のベンチマークでは、研究論文とレビュー論文を含む10の科学領域にわたる200のインスタンスの人間による注釈付きデータセットを使用します。
さらに,DRエージェントのためのモジュール統合評価パラダイム (Dr.Mi-Eval) も提案する。このパラダイムは,学術論文の豊富な構造を利用して,DRエージェントのエンドツーエンド評価と,基盤LPMを潜在的バックボーンとして分離評価する2つの補完モードを通じて,計画,検索,推論のコア能力を評価する。
エージェントは特別な強みを示すが、重要な弱点を共有する。特に、レビュースタイルのタスクに必要な複数ソース検索を実行し、多様な科学分野にわたって一貫して実行する。
さらに,高レベルプランニング能力の向上は,基礎的なLCMをバックボーンとして活用する上で重要な要素である。
これらの動作可能な障害モードを公開することで、Dr.Mi-Benchはより信頼性の高い学術研究アシスタントの開発をガイドする診断ツールを提供する。
関連論文リスト
- ResearchRubrics: A Benchmark of Prompts and Rubrics For Evaluating Deep Research Agents [11.666923792025313]
Deep Research(DR)は、大規模言語モデルを活用して、オープンなクエリに対処する新興エージェントアプリケーションである。
我々はResearchRubricsを紹介します。これは2,800時間以上の人的労働時間で構築されたDRの標準ベンチマークです。
また,DRタスクを3つの軸(概念的幅,論理的ネスト,探索)に沿って分類する,新たな複雑性フレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-10T23:07:14Z) - ReplicationBench: Can AI Agents Replicate Astrophysics Research Papers? [29.17900668495058]
本稿では、フロンティアAIエージェントの評価フレームワークであるReplicationBenchを紹介する。
天体物理学の文献から得られた研究論文全体を、エージェントが複製できるかどうかを検査する。
R ReplicationBenchは、論文スケールで専門家が検証した天体物理学の研究タスクの最初のベンチマークを確立している。
論文 参考訳(メタデータ) (2025-10-28T16:21:19Z) - Dynamic Knowledge Exchange and Dual-diversity Review: Concisely Unleashing the Potential of a Multi-Agent Research Team [53.38438460574943]
IDVSCIは、大規模言語モデル(LLM)上に構築されたマルチエージェントフレームワークである。
動的知識交換機構とデュアルダイバーシティ・レビュー・パラダイムという2つの重要なイノベーションが組み込まれている。
結果は、IDVSCIが2つのデータセットで常に最高のパフォーマンスを達成していることを示している。
論文 参考訳(メタデータ) (2025-06-23T07:12:08Z) - DeepResearch Bench: A Comprehensive Benchmark for Deep Research Agents [30.768405850755602]
DeepResearch Benchは100のPhDレベルの研究タスクからなるベンチマークである。
ディープリサーチエージェントの評価は本質的に複雑で、労働集約的である。
本稿では,人間の判断に強く適合する2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2025-06-13T13:17:32Z) - MLR-Bench: Evaluating AI Agents on Open-Ended Machine Learning Research [70.72318131988102]
MLR-Benchは、オープンエンド機械学習研究においてAIエージェントを評価するための包括的なベンチマークである。
MLR-Benchは,(1)NeurIPS, ICLR, ICMLのさまざまなMLトピックを対象としたワークショップから得られた201のリサーチタスク,(2)LLMベースのレビュアーと慎重に設計されたレビュールーリックを組み合わせた自動評価フレームワーク,(3)MLR-Agent,研究タスクを4段階(アイデア生成,提案定式化,実験,論文執筆)で完了するモジュールエージェントの足場である。
論文 参考訳(メタデータ) (2025-05-26T13:18:37Z) - Advancing AI Research Assistants with Expert-Involved Learning [84.30323604785646]
大規模言語モデル (LLM) と大規模マルチモーダルモデル (LMM) は、生物医学的な発見を促進することを約束するが、その信頼性は未定である。
ARIEL(AI Research Assistant for Expert-in-the-Loop Learning)は,オープンソースの評価・最適化フレームワークである。
LMMは詳細な視覚的推論に苦しむのに対し、最先端のモデルでは流動性はあるが不完全な要約を生成する。
論文 参考訳(メタデータ) (2025-05-03T14:21:48Z) - ResearchAgent: Iterative Research Idea Generation over Scientific Literature with Large Language Models [56.08917291606421]
ResearchAgentは、新しい作品のアイデアと運用のためのAIベースのシステムである。
ResearchAgentは、新しい問題を自動で定義し、手法と設計実験を提案し、繰り返し修正する。
我々は、複数の分野にわたる科学論文に関するResearchAgentを実験的に検証した。
論文 参考訳(メタデータ) (2024-04-11T13:36:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。