論文の概要: Unveiling Fine-Grained Visual Traces: Evaluating Multimodal Interleaved Reasoning Chains in Multimodal STEM Tasks
- arxiv url: http://arxiv.org/abs/2604.19697v1
- Date: Tue, 21 Apr 2026 17:17:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 22:41:49.898596
- Title: Unveiling Fine-Grained Visual Traces: Evaluating Multimodal Interleaved Reasoning Chains in Multimodal STEM Tasks
- Title(参考訳): 細粒度ビジュアルトレースの展開:マルチモーダルSTEMタスクにおけるマルチモーダルインターリーブ型推論チェーンの評価
- Authors: Jing Jin, Hao Liu, Yan Bai, Yihang Lou, Zhenke Wang, Tianrun Yuan, Juntong Chen, Yongkang Zhu, Fanhu Zeng, Xuanyu Zhu, Yige Xu,
- Abstract要約: StepSTEM(ステップSTEM)は、数学、物理学、化学、生物学、工学にまたがる283の問題のレベルベンチマークである。
本稿では、テキストのみのチェーンとインターリーブ画像テキスト推論のための一般的な段階評価フレームワークを提案する。
- 参考スコア(独自算出の注目度): 18.379561394628592
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Multimodal large language models (MLLMs) have shown promising reasoning abilities, yet evaluating their performance in specialized domains remains challenging. STEM reasoning is a particularly valuable testbed because it provides highly verifiable feedback, but existing benchmarks often permit unimodal shortcuts due to modality redundancy and focus mainly on final-answer accuracy, overlooking the reasoning process itself. To address this challenge, we introduce StepSTEM: a graduate-level benchmark of 283 problems across mathematics, physics, chemistry, biology, and engineering for fine-grained evaluation of cross-modal reasoning in MLLMs. StepSTEM is constructed through a rigorous curation pipeline that enforces strict complementarity between textual and visual inputs. We further propose a general step-level evaluation framework for both text-only chain-of-thought and interleaved image-text reasoning, using dynamic programming to align predicted reasoning steps with multiple reference solutions. Experiments across a wide range of models show that current MLLMs still rely heavily on textual reasoning, with even Gemini 3.1 Pro and Claude Opus 4.6 achieving only 38.29% accuracy. These results highlight substantial headroom for genuine cross-modal STEM reasoning and position StepSTEM as a benchmark for fine-grained evaluation of multimodal reasoning. Source code is available at https://github.com/lll-hhh/STEPSTEM.
- Abstract(参考訳): マルチモーダルな大規模言語モデル(MLLM)は有望な推論能力を示しているが、専門分野における性能評価は依然として難しい。
STEM推論は、高い検証可能なフィードバックを提供するため、特に価値のあるテストベッドである。
この課題に対処するために、数学、物理学、化学、生物学、工学の283問題を段階的にベンチマークしたStepSTEMを導入し、MLLMのクロスモーダル推論を詳細に評価する。
StepSTEMは厳密なキュレーションパイプラインを通じて構築され、テキスト入力と視覚入力の厳密な相補性を強制する。
さらに、動的プログラミングを用いて、テキストのみの連鎖推論とインターリーブされた画像テキスト推論の両方に対する一般的な段階評価フレームワークを提案し、予測された推論ステップを複数の参照ソリューションと整合させる。
幅広いモデルでの実験では、現在のMLLMはテキスト推論に大きく依存しており、Gemini 3.1 Pro や Claude Opus 4.6 さえも38.29%の精度しか達成していない。
これらの結果は、真のクロスモーダルSTEM推論のための実質的なヘッドルームと、マルチモーダル推論のきめ細かい評価のためのベンチマークとしてのStepSTEMの位置を強調している。
ソースコードはhttps://github.com/lll-hhh/STEPSTEMで入手できる。
関連論文リスト
- Multi-Physics: A Comprehensive Benchmark for Multimodal LLMs Reasoning on Chinese Multi-Subject Physics Problems [15.023749693065406]
我々は,5つの難易度を含む総合的なベンチマークである,中国の物理推論のためのマルチ物理について紹介する。
我々は20種類のMLLMの評価に2つの評価フレームワークを使用し、最終回答精度とステップ・バイ・ステップの整合性の両方を分析した。
論文 参考訳(メタデータ) (2025-09-19T10:18:48Z) - VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning [63.0285363282581]
MLLM(Multimodal Large Language Models)は、視覚情報とテキスト情報を統合するための強力なツールとなっている。
本稿では,MLLMの知覚的理解と抽象的関係推論を評価するためのベンチマークVOILAを紹介する。
我々は,現在のMLLMが画像間関係の理解に苦慮し,高レベルの関係推論において限られた能力を示すことを明らかにした。
論文 参考訳(メタデータ) (2025-02-25T23:36:19Z) - Multimodal Inconsistency Reasoning (MMIR): A New Benchmark for Multimodal Reasoning Models [26.17300490736624]
MLLM(Multimodal Large Language Models)は、一貫した視覚・テキスト入力で主に訓練され、テストされる。
本稿では,MLLMの意味的ミスマッチの検出と推論能力を評価するためのマルチモーダル不整合推論ベンチマークを提案する。
我々は6つの最先端MLLMを評価し、o1のような専用マルチモーダル推論能力を持つモデルは、その性能を大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2025-02-22T01:52:37Z) - Can MLLMs Reason in Multimodality? EMMA: An Enhanced MultiModal ReAsoning Benchmark [73.27104042215207]
EMMAは,数学,物理,化学,コーディングにまたがる有機マルチモーダル推論を対象とするベンチマークである。
EMMAタスクは、各モードで独立に推論することで対処できない高度なクロスモーダル推論を要求する。
EMMA上での最先端MLLMの評価は、複雑なマルチモーダルおよびマルチステップ推論タスクの処理において、重大な制限を生じさせる。
論文 参考訳(メタデータ) (2025-01-09T18:55:52Z) - ErrorRadar: Benchmarking Complex Mathematical Reasoning of Multimodal Large Language Models Via Error Detection [60.297079601066784]
エラー検出におけるMLLMの能力を評価するために設計された最初のベンチマークであるErrorRadarを紹介する。
ErrorRadarはエラーステップ識別とエラー分類という2つのサブタスクを評価している。
2500の高品質なマルチモーダルK-12数学問題で構成され、実世界の学生相互作用から収集される。
GPT-4oの優れた性能は、まだ人間の評価に約10%遅れているため、大きな課題が残っている。
論文 参考訳(メタデータ) (2024-10-06T14:59:09Z) - MathScape: Benchmarking Multimodal Large Language Models in Real-World Mathematical Contexts [18.91777213491096]
現実的な数学的文脈におけるMLLMの推論能力を評価することに焦点を当てた新しいベンチマークであるMathScapeを紹介する。
MathScapeは、1,369の高品質な数学問題と、人間のキャプチャーされた現実世界の画像からなる。
我々は,9つの主要なクローズドソースMLLM,200億以上のパラメータを持つ3つのオープンソースMLLM,そして7つの小規模MLLMに対して,徹底的な多次元評価を行う。
論文 参考訳(メタデータ) (2024-08-14T13:23:43Z) - InfiMM-Eval: Complex Open-Ended Reasoning Evaluation For Multi-Modal
Large Language Models [50.03163753638256]
MLLM(Multi-modal Large Language Models)は人工知能の分野で注目されている。
本ベンチマークは, 帰納的, 帰納的, 類推的推論の3つの主要な推論カテゴリから構成される。
我々は,この厳密に開発されたオープンエンド多段階精巧な推論ベンチマークを用いて,代表MLLMの選択を評価する。
論文 参考訳(メタデータ) (2023-11-20T07:06:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。