論文の概要: CSVQA: A Chinese Multimodal Benchmark for Evaluating STEM Reasoning Capabilities of VLMs
- arxiv url: http://arxiv.org/abs/2505.24120v2
- Date: Tue, 17 Jun 2025 01:56:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-18 15:22:20.828593
- Title: CSVQA: A Chinese Multimodal Benchmark for Evaluating STEM Reasoning Capabilities of VLMs
- Title(参考訳): CSVQA:VLMのSTEM推論能力評価のための中国のマルチモーダルベンチマーク
- Authors: Ai Jian, Weijie Qiu, Xiaokun Wang, Peiyu Wang, Yunzhuo Hao, Jiangbo Pei, Yichen Wei, Yi Peng, Xuchen Song,
- Abstract要約: VLM(Vision-Language Models)は、マルチモーダル理解において顕著な進歩を示しているが、科学的推論の能力は依然として不十分である。
CSVQAは、領域的視覚的質問応答による科学的推論の評価に特化して設計された診断マルチモーダルベンチマークである。
- 参考スコア(独自算出の注目度): 8.99547238721909
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Models (VLMs) have demonstrated remarkable progress in multimodal understanding, yet their capabilities for scientific reasoning remain inadequately assessed. Current multimodal benchmarks predominantly evaluate generic image comprehension or text-driven reasoning, lacking authentic scientific contexts that require domain-specific knowledge integration with visual evidence analysis. To fill this gap, we present CSVQA, a diagnostic multimodal benchmark specifically designed for evaluating scientific reasoning through domain-grounded visual question answering. Our benchmark features 1,378 carefully constructed question-answer pairs spanning diverse STEM disciplines, each demanding domain knowledge, integration of visual evidence, and higher-order reasoning. Compared to prior multimodal benchmarks, CSVQA places greater emphasis on real-world scientific content and complex reasoning. We additionally propose a rigorous evaluation protocol to systematically assess whether model predictions are substantiated by valid intermediate reasoning steps based on curated explanations. Our comprehensive evaluation of 15 VLMs on this benchmark reveals notable performance disparities, as even the top-ranked proprietary model attains only 49.6% accuracy. This empirical evidence underscores the pressing need for advancing scientific reasoning capabilities in VLMs. Our CSVQA is released at https://huggingface.co/datasets/Skywork/CSVQA
- Abstract(参考訳): VLM(Vision-Language Models)は、マルチモーダル理解において顕著な進歩を示しているが、科学的推論の能力は依然として不十分である。
現在のマルチモーダルベンチマークでは、一般的な画像理解やテキスト駆動推論を主に評価しており、ドメイン固有の知識と視覚的エビデンス分析を統合する必要のある、真の科学的文脈が欠如している。
このギャップを埋めるために、我々は、領域的視覚的質問応答による科学的推論を評価するために特別に設計された診断マルチモーダルベンチマークであるCSVQAを提案する。
我々のベンチマークでは、様々なSTEM分野にまたがる1,378の質問応答対を慎重に構築し、それぞれがドメイン知識、視覚的証拠の統合、高次推論を要求する。
以前のマルチモーダルベンチマークと比較すると、CSVQAは現実世界の科学的内容と複雑な推論に重点を置いている。
また,厳密な評価プロトコルを提案し,モデル予測が有効な中間的推論ステップによって検証されるかどうかを,キュレートされた説明に基づいて体系的に評価する。
このベンチマークで15のVLMを総合的に評価したところ、トップランクのプロプライエタリモデルでさえ49.6%の精度しか得られていないため、顕著な性能格差が明らかとなった。
この実証的な証拠は、VLMにおける科学的推論能力の推進の必要性を浮き彫りにしている。
私たちのCSVQAはhttps://huggingface.co/datasets/Skywork/CSVQAでリリースされています。
関連論文リスト
- VisuLogic: A Benchmark for Evaluating Visual Reasoning in Multi-modal Large Language Models [121.03333569013148]
VisuLogicは、6つのカテゴリにまたがる1,000の人間認証された問題のベンチマークです。
これらの質問は、複数の視点からMLLMの視覚的推論能力を評価するために評価することができる。
ほとんどのモデルは精度が30%以下で、25%のランダムベースラインよりわずかに高く、人間によって達成された51.4%よりはるかに低い。
論文 参考訳(メタデータ) (2025-04-21T17:59:53Z) - MDK12-Bench: A Multi-Discipline Benchmark for Evaluating Reasoning in Multimodal Large Language Models [50.43793764203352]
実世界のK-12試験を通してMLLMの推論能力を評価する多分野ベンチマークであるMDK12-Benchを紹介する。
本ベンチマークは,小学校から12年生までの様々な難易度にまたがる140Kの推論事例からなる。
6,827のインスタンスレベルの知識ポイントアノテーションが,十分に整理された知識構造,詳細な回答説明,難易度ラベル,年次分割に基づいている。
論文 参考訳(メタデータ) (2025-04-08T08:06:53Z) - MicroVQA: A Multimodal Reasoning Benchmark for Microscopy-Based Scientific Research [57.61445960384384]
MicroVQA は、生物学の専門家が様々な顕微鏡のモードでキュレートした 1,042 の多重選択質問 (MCQ) から構成される。
最先端のMLLMのベンチマークでは、ピーク性能は53%であった。
チェーン・オブ・シント・レスポンスのエキスパート分析では、知覚エラーが最も頻繁であり、続いて知識エラー、そして過一般化エラーが続く。
論文 参考訳(メタデータ) (2025-03-17T17:33:10Z) - MM-IQ: Benchmarking Human-Like Abstraction and Reasoning in Multimodal Models [5.02953506943752]
MM-IQは、8つの異なる推論パラダイムにまたがる2,710個の精巧にキュレートされたテスト項目からなる総合的な評価フレームワークである。
最先端のアーキテクチャでさえ、ランダムなチャンスに対してわずかに優れたパフォーマンスしか達成できません。
この性能は、基本的な人間の推論能力の近似において、現在のマルチモーダルシステムの不十分さを浮き彫りにしている。
論文 参考訳(メタデータ) (2025-02-02T07:12:03Z) - MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。
MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。
インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文 参考訳(メタデータ) (2024-10-14T04:15:00Z) - A Survey on Multimodal Benchmarks: In the Era of Large AI Models [13.299775710527962]
MLLM(Multimodal Large Language Models)は、人工知能に大きな進歩をもたらした。
この調査は、4つのコアドメイン(理解、推論、生成、アプリケーション)にわたるMLLMを評価する211のベンチマークを体系的にレビューする。
論文 参考訳(メタデータ) (2024-09-21T15:22:26Z) - Q-Align: Teaching LMMs for Visual Scoring via Discrete Text-Defined
Levels [95.44077384918725]
スコアの代わりにテキスト定義のレーティングレベルを持つ大規模マルチモーダリティモデル(LMM)を提案する。
提案したQ-Alignは、画像品質評価(IQA)、画像美学評価(IAA)、映像品質評価(VQA)タスクにおける最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-12-28T16:10:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。