論文の概要: MMMR: Benchmarking Massive Multi-Modal Reasoning Tasks
- arxiv url: http://arxiv.org/abs/2505.16459v1
- Date: Thu, 22 May 2025 09:41:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.202184
- Title: MMMR: Benchmarking Massive Multi-Modal Reasoning Tasks
- Title(参考訳): MMMR: 大規模マルチモーダル推論タスクのベンチマーク
- Authors: Guiyao Tie, Xueyang Zhou, Tianhe Gu, Ruihang Zhang, Chaoran Hu, Sizhe Zhang, Mengqu Sun, Yan Zhang, Pan Zhou, Lichao Sun,
- Abstract要約: 我々は,マルチモーダル推論を明示的思考で厳格に評価する新しいベンチマークMMMRを紹介する。
MMMRは,1)記号深度とマルチホップ要求の6つの異なる推論型にまたがる1,083の質問の高拡散データセットからなる。
全体として、MMMRは、次世代のマルチモーダル推論システムを評価し、比較し、改善するためのスケーラブルな基盤を提供する。
- 参考スコア(独自算出の注目度): 40.55833679660528
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in Multi-Modal Large Language Models (MLLMs) have enabled unified processing of language, vision, and structured inputs, opening the door to complex tasks such as logical deduction, spatial reasoning, and scientific analysis. Despite their promise, the reasoning capabilities of MLLMs, particularly those augmented with intermediate thinking traces (MLLMs-T), remain poorly understood and lack standardized evaluation benchmarks. Existing work focuses primarily on perception or final answer correctness, offering limited insight into how models reason or fail across modalities. To address this gap, we introduce the MMMR, a new benchmark designed to rigorously evaluate multi-modal reasoning with explicit thinking. The MMMR comprises 1) a high-difficulty dataset of 1,083 questions spanning six diverse reasoning types with symbolic depth and multi-hop demands and 2) a modular Reasoning Trace Evaluation Pipeline (RTEP) for assessing reasoning quality beyond accuracy through metrics like relevance, consistency, and structured error annotations. Empirical results show that MLLMs-T overall outperform non-thinking counterparts, but even top models like Claude-3.7-Sonnet and Gemini-2.5 Pro suffer from reasoning pathologies such as inconsistency and overthinking. This benchmark reveals persistent gaps between accuracy and reasoning quality and provides an actionable evaluation pipeline for future model development. Overall, the MMMR offers a scalable foundation for evaluating, comparing, and improving the next generation of multi-modal reasoning systems.
- Abstract(参考訳): MLLM(Multi-Modal Large Language Models)の最近の進歩は、言語、視覚、構造化された入力の統一的な処理を可能にし、論理的推論、空間的推論、科学的分析といった複雑なタスクへの扉を開いた。
その約束にもかかわらず、MLLMの推論能力、特に中性思考トレース(MLLM-T)で強化されたものについては、理解が不十分であり、標準化された評価ベンチマークが欠如している。
既存の作業は、主に知覚または最終回答の正しさに焦点を当て、モデルがどのようにモダリティを越えて理由または失敗であるかについての限られた洞察を提供する。
このギャップに対処するために,マルチモーダル推論を明示的思考で厳格に評価する新しいベンチマークであるMMMRを導入する。
MMMRは、
1) 記号深度とマルチホップ要求を有する6つの多様な推論型にまたがる1,083質問の高精度データセット。
2) 関連性、一貫性、構造化エラーアノテーションといったメトリクスを通じて、正確性を超えた推論品質を評価するためのモジュール型推論トレース評価パイプライン(RTEP)。
実証的な結果から、MLLM-Tは全体として非思考モデルよりも優れていたが、Claude-3.7-Sonnet や Gemini-2.5 Pro のようなトップモデルでさえ、矛盾や過度な考えなどの理由付けに悩まされている。
このベンチマークは、精度と推論品質の持続的なギャップを明らかにし、将来のモデル開発のための実行可能な評価パイプラインを提供する。
全体として、MMMRは、次世代のマルチモーダル推論システムを評価し、比較し、改善するためのスケーラブルな基盤を提供する。
関連論文リスト
- Multimodal Inconsistency Reasoning (MMIR): A New Benchmark for Multimodal Reasoning Models [26.17300490736624]
MLLM(Multimodal Large Language Models)は、一貫した視覚・テキスト入力で主に訓練され、テストされる。
本稿では,MLLMの意味的ミスマッチの検出と推論能力を評価するためのマルチモーダル不整合推論ベンチマークを提案する。
我々は6つの最先端MLLMを評価し、o1のような専用マルチモーダル推論能力を持つモデルは、その性能を大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2025-02-22T01:52:37Z) - MME-CoT: Benchmarking Chain-of-Thought in Large Multimodal Models for Reasoning Quality, Robustness, and Efficiency [63.23935582919081]
CoT (Chain-of-Thought) は,Large Language Models (LLMs) の推論能力を大幅に向上させた。
我々は,LMMのCoT推論性能を評価する特別ベンチマークであるMME-CoTを紹介する。
我々は最先端のLMMの詳細な分析を行い、いくつかの重要な知見を明らかにした。
論文 参考訳(メタデータ) (2025-02-13T18:59:46Z) - Calling a Spade a Heart: Gaslighting Multimodal Large Language Models via Negation [65.92001420372007]
本稿では,様々なベンチマークにおいて最先端MLLMを体系的に評価する。
本稿では,MLLMの脆弱性を否定的議論に対して評価するために設計された,最初のベンチマークであるGaslightingBenchを紹介する。
論文 参考訳(メタデータ) (2025-01-31T10:37:48Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。