論文の概要: SciMDR: Benchmarking and Advancing Scientific Multimodal Document Reasoning
- arxiv url: http://arxiv.org/abs/2603.12249v1
- Date: Thu, 12 Mar 2026 17:57:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:26.288683
- Title: SciMDR: Benchmarking and Advancing Scientific Multimodal Document Reasoning
- Title(参考訳): SciMDR: 科学的マルチモーダル文書推論のベンチマークと改善
- Authors: Ziyu Chen, Yilun Zhao, Chengye Wang, Rilyn Han, Manasi Patwardhan, Arman Cohan,
- Abstract要約: 集中セグメント上での忠実で孤立したQAペアを生成する合成合成フレームワークを提案する。
クロスモーダル理解のための大規模トレーニングデータセットであるSciMDRを構築した。
実験により、SciMDRモデルは複数の科学的QAベンチマークで大幅に改善されていることが示された。
- 参考スコア(独自算出の注目度): 59.93568326270048
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Constructing scientific multimodal document reasoning datasets for foundation model training involves an inherent trade-off among scale, faithfulness, and realism. To address this challenge, we introduce the synthesize-and-reground framework, a two-stage pipeline comprising: (1) Claim-Centric QA Synthesis, which generates faithful, isolated QA pairs and reasoning on focused segments, and (2) Document-Scale Regrounding, which programmatically re-embeds these pairs into full-document tasks to ensure realistic complexity. Using this framework, we construct SciMDR, a large-scale training dataset for cross-modal comprehension, comprising 300K QA pairs with explicit reasoning chains across 20K scientific papers. We further construct SciMDR-Eval, an expert-annotated benchmark to evaluate multimodal comprehension within full-length scientific workflows. Experiments demonstrate that models fine-tuned on SciMDR achieve significant improvements across multiple scientific QA benchmarks, particularly in those tasks requiring complex document-level reasoning.
- Abstract(参考訳): 基礎モデルトレーニングのための科学的マルチモーダル文書推論データセットを構築するには、スケール、忠実、リアリズムの間に固有のトレードオフが伴う。
この課題に対処するために,(1)忠実で孤立したQAペアを生成し,集中したセグメントを推論するCriim-Centric QA Synthesis,(2)文書規模再構築,(2)これらのペアをプログラム的に文書化して,現実的な複雑性を保証するための2段階のパイプラインであるSynthetic-and-regroundフレームワークを紹介した。
このフレームワークを用いて、20Kの科学論文に明確な推論連鎖を持つ300KQAペアからなる、クロスモーダル理解のための大規模トレーニングデータセットであるSciMDRを構築した。
さらに、SciMDR-Evalという、専門家による注釈付きベンチマークを構築し、フル長の科学ワークフローにおけるマルチモーダル理解を評価する。
実験により、SciMDRで微調整されたモデルは、複数の科学的QAベンチマーク、特に複雑な文書レベルの推論を必要とするタスクにおいて、大幅な改善が達成されることが示された。
関連論文リスト
- Paper2SysArch: Structure-Constrained System Architecture Generation from Scientific Papers [10.395280181257737]
テキストからダイアグラムの自動生成を定量的に評価するための新しいベンチマークを導入する。
3000の研究論文とそれに対応する高品質な地上構造図を組み合わせ、三段階評価指標を伴って構成されている。
論文を構造化・編集可能な図形に変換するために,マルチエージェントコラボレーションを活用したエンドツーエンドシステムPaper2Archを提案する。
論文 参考訳(メタデータ) (2025-11-22T12:24:30Z) - Discourse-Aware Scientific Paper Recommendation via QA-Style Summarization and Multi-Level Contrastive Learning [2.105564340986074]
OMRC-MRは、QAスタイルのOMRC要約、マルチレベルコントラスト学習、そして学術的推薦のための構造認識の再分類を統合する階層的なフレームワークである。
DBLP、S2ORC、新たに構築されたSci-OMRCデータセットの実験は、OMRC-MRが最先端のベースラインを一貫して超えることを示した。
論文 参考訳(メタデータ) (2025-11-05T09:55:12Z) - Scaling Beyond Context: A Survey of Multimodal Retrieval-Augmented Generation for Document Understanding [61.36285696607487]
文書理解は、財務分析から科学的発見への応用に不可欠である。
現在のアプローチでは、OCRベースのパイプラインがLarge Language Models(LLM)やネイティブのMultimodal LLMs(MLLM)に制限されている。
Retrieval-Augmented Generation (RAG)は、外部データの基底モデルを支援するが、文書のマルチモーダルな性質は、テキスト、テーブル、チャート、レイアウトを組み合わせることで、より高度なパラダイムを必要とする。
論文 参考訳(メタデータ) (2025-10-17T02:33:16Z) - DocR1: Evidence Page-Guided GRPO for Multi-Page Document Understanding [100.29587871213624]
本稿では,新しいRLフレームワークであるEvidence Page-Guided GRPOで学習したMLLMであるDocR1を紹介する。
EviGRPOには、粗大な推論戦略を促進するエビデンス対応報酬機構が組み込まれている。
我々は,DocR1が複数ページのタスクに対して最先端のパフォーマンスを達成し,シングルページのベンチマークにおいて強い結果を維持していることを示す。
論文 参考訳(メタデータ) (2025-08-10T12:03:45Z) - MMESGBench: Pioneering Multimodal Understanding and Complex Reasoning Benchmark for ESG Tasks [56.350173737493215]
環境・社会・ガバナンス(ESG)報告は、持続可能性の実践の評価、規制コンプライアンスの確保、財務透明性の促進に不可欠である。
MMESGBenchは、マルチモーダル理解と複雑な推論を、構造的に多種多様なマルチソースESG文書間で評価するための、最初のベンチマークデータセットである。
MMESGBenchは、45のESG文書から得られた933の検証済みQAペアで構成され、7つの異なるドキュメントタイプと3つの主要なESGソースカテゴリにまたがる。
論文 参考訳(メタデータ) (2025-07-25T03:58:07Z) - M3SciQA: A Multi-Modal Multi-Document Scientific QA Benchmark for Evaluating Foundation Models [27.910693214922052]
基礎モデル評価のためのマルチモーダル・マルチドキュメント科学質問応答ベンチマークであるM3SciQAを紹介する。
M3SciQAは、70の自然言語処理用紙クラスタにまたがる1,452のエキスパート注釈付き質問からなる。
以上の結果から, 現状の基盤モデルは, マルチモーダル情報検索や複数の学術文献における推論において, 人的知識に比べ, 依然として著しく劣っていることが示唆された。
論文 参考訳(メタデータ) (2024-11-06T17:52:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。