論文の概要: PaperMind: Benchmarking Agentic Reasoning and Critique over Scientific Papers in Multimodal LLMs
- arxiv url: http://arxiv.org/abs/2604.21304v2
- Date: Mon, 27 Apr 2026 19:05:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-29 14:06:43.803287
- Title: PaperMind: Benchmarking Agentic Reasoning and Critique over Scientific Papers in Multimodal LLMs
- Title(参考訳): PaperMind:マルチモーダルLCMの科学的論文に対するベンチマークエージェント推論と批判
- Authors: Yanjun Zhao, Tianxin Wei, Jiaru Zou, Xuying Ning, Yuanchen Bei, Lingjie Chen, Simmi Rana, Wendy H. Yang, Hanghang Tong, Jingrui He,
- Abstract要約: 本稿では,研究論文に対する統合的およびエージェント指向の科学的推論を評価するためのベンチマークであるPaperMindを紹介する。
PaperMindは、農業、生物学、化学、計算機科学、医学、物理学、経済学を含む7つの領域にわたる実際の科学論文から構築されている。
複数のタスクにわたるモデル行動を分析することにより、PaperMindは統合された科学的推論行動の診断的評価を可能にする。
- 参考スコア(独自算出の注目度): 68.27437550335709
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding scientific papers requires more than answering isolated questions or summarizing content. It involves an integrated reasoning process that grounds textual and visual information, interprets experimental evidence, synthesizes information across sources, and critically evaluates scientific claims. However, existing benchmarks typically assess these abilities in isolation, making it difficult to evaluate scientific paper understanding as a unified set of interacting cognitive abilities. In this work, we introduce PaperMind, a benchmark designed to evaluate integrated and agent-oriented scientific reasoning over research papers. PaperMind is constructed from real scientific papers across seven domains, including agriculture, biology, chemistry, computer science, medicine, physics, and economics. It comprises four complementary task families that collectively operationalize distinct cognitive facets of scientific paper reasoning, including multimodal grounding, experimental interpretation, cross-source evidence reasoning, and critical assessment. By analyzing model behavior across multiple tasks, PaperMind enables a diagnostic evaluation of integrated scientific reasoning behaviors that are difficult to assess through isolated task evaluations. Extensive experiments on both opensource and closed-source multimodal LLMs reveal consistent performance gaps across tasks, highlighting persistent challenges in integrated scientific reasoning and critique. Our benchmark and dataset are available at https:// github.com/Yanjun-Zhao/PaperMind.
- Abstract(参考訳): 科学論文を理解するには、孤立した質問に答えるか、内容を要約する以上のことが必要である。
それは、テキスト情報と視覚情報を基盤として、実験的な証拠を解釈し、情報源間で情報を合成し、科学的主張を批判的に評価する統合的推論プロセスを含む。
しかし、既存のベンチマークでは、これらの能力が単独で評価されることが一般的であり、科学論文の理解を相互作用する認知能力の統一セットとして評価することは困難である。
本研究では,研究論文に対する統合的およびエージェント指向の科学的推論を評価するためのベンチマークであるPaperMindを紹介する。
PaperMindは、農業、生物学、化学、計算機科学、医学、物理学、経済学を含む7つの領域にわたる実際の科学論文から構築されている。
科学的論文推論の異なる認知的側面を総括して運用する4つの補完的なタスクファミリーから構成されており、マルチモーダルグラウンド、実験的解釈、クロスソースエビデンス推論、批判的評価を含む。
複数のタスクにわたるモデル行動を分析することにより、PaperMindは、独立したタスク評価によって評価が難しい統合された科学的推論行動の診断評価を可能にする。
オープンソースおよびクローズドソースのマルチモーダルLLMの広範な実験は、タスク間の一貫したパフォーマンスギャップを明らかにし、統合された科学的推論と批判における永続的な課題を強調している。
ベンチマークとデータセットはhttps:// github.com/Yanjun-Zhao/PaperMind.comで公開されています。
関連論文リスト
- PaperScope: A Multi-Modal Multi-Document Benchmark for Agentic Deep Research Across Massive Scientific Papers [52.97586643334384]
本稿ではエージェントディープリサーチのベンチマークであるPaperScopeを紹介する。
3年にわたる2000以上のAI論文の知識グラフ上に構築されている。
意味的に関連するキー情報ノードを統合し、最適化されたランダムウォーク記事セレクタを使用する。
論文 参考訳(メタデータ) (2026-04-13T11:07:08Z) - Demystifying Scientific Problem-Solving in LLMs by Probing Knowledge and Reasoning [53.82037883518254]
SciReasは、科学的推論タスクのための様々なベンチマークスイートである。
次に、科学的タスクにおける推論と知識の異なる役割を研究するための探索フレームワークであるKRUXを提案する。
論文 参考訳(メタデータ) (2025-08-26T17:04:23Z) - The Next Phase of Scientific Fact-Checking: Advanced Evidence Retrieval from Complex Structured Academic Papers [11.88478056313921]
この問題は、科学知識の進化する性質に適合しなければならないため、一般的な事実チェックよりも本質的に複雑である。
既存のアプローチでは、抽象データからなる小規模データセットに基づいて、問題の簡易バージョンに重点を置いている。
本稿では,現状の科学的ファクトチェックシステムの限界について検討し,その性能向上に活用できる潜在的な特徴と資源を明らかにする。
論文 参考訳(メタデータ) (2025-06-25T21:29:33Z) - Dynamic Knowledge Exchange and Dual-diversity Review: Concisely Unleashing the Potential of a Multi-Agent Research Team [53.38438460574943]
IDVSCIは、大規模言語モデル(LLM)上に構築されたマルチエージェントフレームワークである。
動的知識交換機構とデュアルダイバーシティ・レビュー・パラダイムという2つの重要なイノベーションが組み込まれている。
結果は、IDVSCIが2つのデータセットで常に最高のパフォーマンスを達成していることを示している。
論文 参考訳(メタデータ) (2025-06-23T07:12:08Z) - Can AI Validate Science? Benchmarking LLMs for Accurate Scientific Claim $\rightarrow$ Evidence Reasoning [6.043212666944194]
CLAIM-BENCHは,科学的クレームエビデンス抽出と検証において,大規模言語モデルの能力を評価するためのベンチマークである。
GPT-4やClaudeのようなクローズドソースモデルは、精度とリコールにおいて、オープンソースモデルよりも一貫して優れています。
戦略的に設計された3つのパスと1対1のプロンプトアプローチは、分散した証拠とクレームを正確にリンクするLSMの能力を大幅に向上させた。
論文 参考訳(メタデータ) (2025-06-09T21:04:39Z) - Tree-of-Debate: Multi-Persona Debate Trees Elicit Critical Thinking for Scientific Comparative Analysis [27.745896682856092]
本稿では,科学論文をそれぞれの新奇性を議論するペルソナに変換するフレームワークであるTree-of-Debate(ToD)を紹介する。
ToDは議論ツリーを動的に構築し、学術論文の中で独立した新規性議論のきめ細かい分析を可能にする。
論文 参考訳(メタデータ) (2025-02-20T17:43:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。