論文の概要: Can Multimodal Foundation Models Understand Schematic Diagrams? An Empirical Study on Information-Seeking QA over Scientific Papers
- arxiv url: http://arxiv.org/abs/2507.10787v1
- Date: Mon, 14 Jul 2025 20:35:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-16 19:46:02.880056
- Title: Can Multimodal Foundation Models Understand Schematic Diagrams? An Empirical Study on Information-Seeking QA over Scientific Papers
- Title(参考訳): マルチモーダル・ファンデーション・モデルは体系図に理解できるか? : 学術論文における情報探索QAに関する実証的研究
- Authors: Yilun Zhao, Chengye Wang, Chuhan Li, Arman Cohan,
- Abstract要約: 本稿では,科学文献におけるスキーマ図の解釈能力を評価するための最初のベンチマークであるMIS-QAを紹介する。
MISS-QAは465以上の科学論文に1500の専門家が注釈を付けた例で構成されている。
我々は、o4-mini、Gemini-2.5-Flash、Qwen2.5-VLを含む18のフロンティアマルチモーダル基盤モデルの性能を評価する。
- 参考スコア(独自算出の注目度): 22.83126850650448
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces MISS-QA, the first benchmark specifically designed to evaluate the ability of models to interpret schematic diagrams within scientific literature. MISS-QA comprises 1,500 expert-annotated examples over 465 scientific papers. In this benchmark, models are tasked with interpreting schematic diagrams that illustrate research overviews and answering corresponding information-seeking questions based on the broader context of the paper. We assess the performance of 18 frontier multimodal foundation models, including o4-mini, Gemini-2.5-Flash, and Qwen2.5-VL. We reveal a significant performance gap between these models and human experts on MISS-QA. Our analysis of model performance on unanswerable questions and our detailed error analysis further highlight the strengths and limitations of current models, offering key insights to enhance models in comprehending multimodal scientific literature.
- Abstract(参考訳): 本稿では,科学文献におけるスキーマ図の解釈能力を評価するために設計された,最初のベンチマークであるMIS-QAを紹介する。
MISS-QAは465以上の科学論文に1500の専門家が注釈を付けた例で構成されている。
このベンチマークでは、研究概要を図解した図を解釈し、論文のより広い文脈に基づいて対応する情報探索問題に回答する。
我々は、o4-mini、Gemini-2.5-Flash、Qwen2.5-VLを含む18のフロンティアマルチモーダル基盤モデルの性能を評価する。
MISS-QAにおけるこれらのモデルと人間専門家の間には,大きなパフォーマンスギャップがある。
予測不能な質問に対するモデル性能の解析と詳細なエラー解析により、現在のモデルの強みと限界をさらに強調し、マルチモーダル科学文献の解釈においてモデルを強化するための重要な洞察を提供する。
関連論文リスト
- SciVer: Evaluating Foundation Models for Multimodal Scientific Claim Verification [29.63899315962693]
SciVerは1,113件の科学論文に3000件の専門家による注釈付き例からなり、4つのサブセットをカバーし、それぞれがマルチモーダルな科学的クレーム検証において共通の推論タイプを表している。
我々は、o4-mini、Gemini-2.5-Flash、Llama-3.2-Vision、Qwen2.5-VLを含む21の最先端マルチモーダル基盤モデルの性能を評価する。
実験の結果,これらのモデルとSciVerの人間専門家の間には,かなりの性能差があることが判明した。
論文 参考訳(メタデータ) (2025-06-18T15:43:26Z) - ChartMuseum: Testing Visual Reasoning Capabilities of Large Vision-Language Models [37.54872845368151]
視覚的推論によってのみ解決可能な合成データセットを用いてケーススタディを行う。
次に、1,162人の専門家が注釈を付けた質問を含む新しいチャート質問回答(QA)ベンチマークであるChartMuseumを紹介します。
人間は93%の精度を達成しているが、最高のパフォーマンスモデルであるGemini-2.5-Proは63.0%しか達成できず、主要なオープンソースであるLVLM Qwen2.5-VL-72B-Instructは38.5%しか達成していない。
論文 参考訳(メタデータ) (2025-05-19T17:59:27Z) - VisuLogic: A Benchmark for Evaluating Visual Reasoning in Multi-modal Large Language Models [121.03333569013148]
VisuLogicは、6つのカテゴリにまたがる1,000の人間認証された問題のベンチマークです。
これらの質問は、複数の視点からMLLMの視覚的推論能力を評価するために評価することができる。
ほとんどのモデルは精度が30%以下で、25%のランダムベースラインよりわずかに高く、人間によって達成された51.4%よりはるかに低い。
論文 参考訳(メタデータ) (2025-04-21T17:59:53Z) - MMCR: Benchmarking Cross-Source Reasoning in Scientific Papers [10.311462547308823]
この研究は、科学論文からのクロスソース情報を用いた推論のためのビジョンランゲージモデルの能力を評価するために設計されたベンチマークであるMMCRを提示する。
18のVLMによる実験では、既存のモデルに対して、クロスソース推論が重大な課題となることが示されている。
論文 参考訳(メタデータ) (2025-03-21T05:02:20Z) - A Survey on Mechanistic Interpretability for Multi-Modal Foundation Models [74.48084001058672]
基礎モデルの台頭は機械学習の研究に変化をもたらした。
マルチモーダル・ファンデーション・モデル(MMFM)は、ユニモーダル・フレームワークを超えて、ユニークな解釈可能性の課題を提起する。
本研究は,(1)多モーダルモデルへのLLM解釈可能性法の適応,(2)単モーダル言語モデルとクロスモーダルシステムとの機械的差異の理解の2つの重要な側面について考察する。
論文 参考訳(メタデータ) (2025-02-22T20:55:26Z) - M3SciQA: A Multi-Modal Multi-Document Scientific QA Benchmark for Evaluating Foundation Models [27.910693214922052]
基礎モデル評価のためのマルチモーダル・マルチドキュメント科学質問応答ベンチマークであるM3SciQAを紹介する。
M3SciQAは、70の自然言語処理用紙クラスタにまたがる1,452のエキスパート注釈付き質問からなる。
以上の結果から, 現状の基盤モデルは, マルチモーダル情報検索や複数の学術文献における推論において, 人的知識に比べ, 依然として著しく劣っていることが示唆された。
論文 参考訳(メタデータ) (2024-11-06T17:52:01Z) - Polymath: A Challenging Multi-modal Mathematical Reasoning Benchmark [53.61633384281524]
PolyMATHはMLLMの認知的推論能力を評価するためのベンチマークである。
PolyMATHで最高のスコアは41%、36%、27%で、それぞれClaude-3.5 Sonnet、GPT-4o、Gemini-1.5 Proが獲得した。
さらにきめ細かい誤差解析により、これらのモデルは空間関係を理解し、引き出された高レベルの推論を行うのに苦労していることが明らかとなった。
論文 参考訳(メタデータ) (2024-10-06T20:35:41Z) - A Survey on Multimodal Benchmarks: In the Era of Large AI Models [13.299775710527962]
MLLM(Multimodal Large Language Models)は、人工知能に大きな進歩をもたらした。
この調査は、4つのコアドメイン(理解、推論、生成、アプリケーション)にわたるMLLMを評価する211のベンチマークを体系的にレビューする。
論文 参考訳(メタデータ) (2024-09-21T15:22:26Z) - MMSci: A Dataset for Graduate-Level Multi-Discipline Multimodal Scientific Understanding [59.41495657570397]
本稿では,72の科学分野をカバーするNature Communicationsの記事からまとめられた包括的データセットについて述べる。
2つのベンチマークタスク(図のキャプションと複数選択)で19のプロプライエタリモデルとオープンソースモデルを評価し,人手による注釈を行った。
タスク固有データを用いた細調整Qwen2-VL-7Bは、GPT-4oや人間の専門家でさえも、マルチチョイス評価において優れた性能を示した。
論文 参考訳(メタデータ) (2024-07-06T00:40:53Z) - Learning from models beyond fine-tuning [78.20895343699658]
Learn From Model (LFM) は、モデルインターフェースに基づいた基礎モデル(FM)の研究、修正、設計に焦点を当てている。
LFM技術の研究は、モデルチューニング、モデル蒸留、モデル再利用、メタラーニング、モデル編集の5つの分野に大別できる。
本稿では, LFM の観点から, FM に基づく現在の手法を概観する。
論文 参考訳(メタデータ) (2023-10-12T10:20:36Z) - Multilingual Multi-Aspect Explainability Analyses on Machine Reading Comprehension Models [76.48370548802464]
本稿では,マルチヘッド自己注意と最終MRCシステム性能の関係を検討するために,一連の解析実験を実施することに焦点を当てる。
問合せ及び問合せ理解の注意が問合せプロセスにおいて最も重要なものであることが判明した。
包括的可視化とケーススタディを通じて、注意マップに関するいくつかの一般的な知見も観察し、これらのモデルがどのように問題を解くかを理解するのに役立ちます。
論文 参考訳(メタデータ) (2021-08-26T04:23:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。