論文の概要: SciVQR: A Multidisciplinary Multimodal Benchmark for Advanced Scientific Reasoning Evaluation
- arxiv url: http://arxiv.org/abs/2605.10187v2
- Date: Wed, 13 May 2026 02:10:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 17:13:58.853171
- Title: SciVQR: A Multidisciplinary Multimodal Benchmark for Advanced Scientific Reasoning Evaluation
- Title(参考訳): SciVQR: 高度な科学的推論評価のための多分野マルチモーダルベンチマーク
- Authors: Longteng Guo, Xuanxu Lin, Dongze Hao, Tongtian Yue, Pengkang Huo, Jiatong Ma, Yuchen Liu, Jing Liu,
- Abstract要約: SciVQRは数学、物理学、化学、地理学、天文学、生物学の54の分野をカバーするマルチモーダルベンチマークである。
タスクは、基本的な事実のリコールから、専門家によるソリューションを含む46%の複雑なマルチステップ推論まで様々である。
プロプライエタリモデルとオープンソースモデルの両方を含むMLLMの先導的評価は、複雑なマルチモーダル推論タスクの処理において、重大な制限を明らかにしている。
- 参考スコア(独自算出の注目度): 14.69745824275173
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scientific reasoning is a key aspect of human intelligence, requiring the integration of multimodal inputs, domain expertise, and multi-step inference across various subjects. Existing benchmarks for multimodal large language models (MLLMs) often fail to capture the complexity and traceability of reasoning processes necessary for rigorous evaluation. To fill this gap, we introduce SciVQR, a multimodal benchmark covering 54 subfields in mathematics, physics, chemistry, geography, astronomy, and biology. SciVQR includes domain-specific visuals, such as equations, charts, and diagrams, and challenges models to combine visual comprehension with reasoning. The tasks range from basic factual recall to complex, multi-step inferences, with 46% including expert-authored solutions. SciVQR not only evaluates final answers but also examines the reasoning process, providing insights into how models reach their conclusions. Our evaluation of leading MLLMs, including both proprietary and open-source models, reveals significant limitations in handling complex multimodal reasoning tasks, underscoring the need for improved multi-step reasoning and better integration of interdisciplinary knowledge in advancing MLLMs toward true scientific intelligence. The dataset and evaluation code are publicly available at https://github.com/CASIA-IVA-Lab/SciVQR.
- Abstract(参考訳): 科学的推論は人間の知性の重要な側面であり、多段階の入力、ドメインの専門知識、そして様々な分野にわたる多段階の推論を統合する必要がある。
既存のMLLM(Multimodal large language model)のベンチマークでは、厳密な評価に必要な推論プロセスの複雑さとトレーサビリティの把握に失敗することが多い。
このギャップを埋めるために、数学、物理学、化学、地理、天文学、生物学の54のサブフィールドをカバーするマルチモーダル・ベンチマークであるSciVQRを紹介した。
SciVQRには、方程式、チャート、ダイアグラムなどのドメイン固有のビジュアルが含まれており、視覚的理解と推論を組み合わせるためにモデルに挑戦する。
タスクは、基本的な事実のリコールから、専門家によるソリューションを含む46%の複雑なマルチステップ推論まで様々である。
SciVQRは最終回答を評価するだけでなく、推論プロセスも調べ、モデルが結論に達する方法に関する洞察を提供する。
プロプライエタリモデルとオープンソースモデルの両方を含むMLLMの主導的評価は、複雑なマルチモーダル推論タスクの処理において重大な制限を明らかにし、マルチステップ推論の改善の必要性と、MLLMを真の科学的知性に向けて前進させるための学際的知識のより良い統合を明確に示している。
データセットと評価コードはhttps://github.com/CASIA-IVA-Lab/SciVQRで公開されている。
関連論文リスト
- MMhops-R1: Multimodal Multi-hop Reasoning [89.68086555694084]
マルチモーダルマルチホップ推論の評価と育成を目的とした新しいベンチマークであるMMhopを紹介した。
MMhopsデータセットは、ブリッジと比較という2つの困難なタスクフォーマットで構成されている。
動的推論のための新しいマルチモーダル検索拡張フレームワークMMhops-R1を提案する。
論文 参考訳(メタデータ) (2025-12-15T17:29:02Z) - ORIGAMISPACE: Benchmarking Multimodal LLMs in Multi-Step Spatial Reasoning with Mathematical Constraints [42.713620384054146]
本稿では,多段階空間推論能力の評価を目的とした新しいデータセットとベンチマークであるORIGAMISPACEを紹介する。
パターン予測,多段階空間推論,空間関係予測,終端CPコード生成という4つの評価課題を提案する。
論文 参考訳(メタデータ) (2025-11-23T13:42:22Z) - MDK12-Bench: A Multi-Discipline Benchmark for Evaluating Reasoning in Multimodal Large Language Models [50.43793764203352]
実世界のK-12試験を通してMLLMの推論能力を評価する多分野ベンチマークであるMDK12-Benchを紹介する。
本ベンチマークは,小学校から12年生までの様々な難易度にまたがる140Kの推論事例からなる。
6,827のインスタンスレベルの知識ポイントアノテーションが,十分に整理された知識構造,詳細な回答説明,難易度ラベル,年次分割に基づいている。
論文 参考訳(メタデータ) (2025-04-08T08:06:53Z) - Can MLLMs Reason in Multimodality? EMMA: An Enhanced MultiModal ReAsoning Benchmark [73.27104042215207]
EMMAは,数学,物理,化学,コーディングにまたがる有機マルチモーダル推論を対象とするベンチマークである。
EMMAタスクは、各モードで独立に推論することで対処できない高度なクロスモーダル推論を要求する。
EMMA上での最先端MLLMの評価は、複雑なマルチモーダルおよびマルチステップ推論タスクの処理において、重大な制限を生じさせる。
論文 参考訳(メタデータ) (2025-01-09T18:55:52Z) - ErrorRadar: Benchmarking Complex Mathematical Reasoning of Multimodal Large Language Models Via Error Detection [60.297079601066784]
エラー検出におけるMLLMの能力を評価するために設計された最初のベンチマークであるErrorRadarを紹介する。
ErrorRadarはエラーステップ識別とエラー分類という2つのサブタスクを評価している。
2500の高品質なマルチモーダルK-12数学問題で構成され、実世界の学生相互作用から収集される。
GPT-4oの優れた性能は、まだ人間の評価に約10%遅れているため、大きな課題が残っている。
論文 参考訳(メタデータ) (2024-10-06T14:59:09Z) - MathScape: Benchmarking Multimodal Large Language Models in Real-World Mathematical Contexts [18.91777213491096]
現実的な数学的文脈におけるMLLMの推論能力を評価することに焦点を当てた新しいベンチマークであるMathScapeを紹介する。
MathScapeは、1,369の高品質な数学問題と、人間のキャプチャーされた現実世界の画像からなる。
我々は,9つの主要なクローズドソースMLLM,200億以上のパラメータを持つ3つのオープンソースMLLM,そして7つの小規模MLLMに対して,徹底的な多次元評価を行う。
論文 参考訳(メタデータ) (2024-08-14T13:23:43Z) - MMSci: A Dataset for Graduate-Level Multi-Discipline Multimodal Scientific Understanding [59.41495657570397]
本稿では,72の科学分野をカバーするNature Communicationsの記事からまとめられた包括的データセットについて述べる。
2つのベンチマークタスク(図のキャプションと複数選択)で19のプロプライエタリモデルとオープンソースモデルを評価し,人手による注釈を行った。
タスク固有データを用いた細調整Qwen2-VL-7Bは、GPT-4oや人間の専門家でさえも、マルチチョイス評価において優れた性能を示した。
論文 参考訳(メタデータ) (2024-07-06T00:40:53Z) - SceMQA: A Scientific College Entrance Level Multimodal Question
Answering Benchmark [42.91902601376494]
本稿では,SceMQAについて紹介する。SceMQAは,大学入学レベルでの科学的マルチモーダル質問応答のための新しいベンチマークである。
SceMQAは数学、物理学、化学、生物学などの中核的な科学分野に焦点を当てている。
複数選択と自由応答の混在を特徴とし、AIモデルの能力を総合的に評価する。
論文 参考訳(メタデータ) (2024-02-06T19:16:55Z) - MULTI: Multimodal Understanding Leaderboard with Text and Images [27.81157601147561]
そこで本研究では,中国のマルチモーダルデータセットであるMultiについて述べる。
マルチモデルは、画像テキスト理解、複雑な推論、知識リコールを含む実世界の検査基準を用いてモデルを評価する。
Qwen2-VL-72BはMulti-Eliteで76.9%,Multi-Eliteで53.1%の精度で評価された。
論文 参考訳(メタデータ) (2024-02-05T16:41:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。