論文の概要: MMR-Life: Piecing Together Real-life Scenes for Multimodal Multi-image Reasoning
- arxiv url: http://arxiv.org/abs/2603.02024v1
- Date: Mon, 02 Mar 2026 16:06:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.960084
- Title: MMR-Life: Piecing Together Real-life Scenes for Multimodal Multi-image Reasoning
- Title(参考訳): MMR-Life:マルチモーダルマルチイメージ推論のための実生活シーンのピアリング
- Authors: Jiachun Li, Shaoping Huang, Zhuoran Jin, Chenlong Zhang, Pengfei Cao, Yubo Chen, Kang Liu, Jun Zhao,
- Abstract要約: 本稿では,MLLMのマルチモーダル・マルチモーダル推論能力を評価するためのベンチマークであるMMR-Lifeを紹介する。
MMR-Lifeは19,108の画像に基づいて2,646の多重選択質問で構成されている。
37の高度なモデルの評価は、MMR-Lifeによる重大な課題を浮き彫りにしている。
- 参考スコア(独自算出の注目度): 37.8591556824244
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent progress in the reasoning capabilities of multimodal large language models (MLLMs) has empowered them to address more complex tasks such as scientific analysis and mathematical reasoning. Despite their promise, MLLMs' reasoning abilities across different scenarios in real life remain largely unexplored and lack standardized benchmarks for evaluation. To address this gap, we introduce MMR-Life, a comprehensive benchmark designed to evaluate the diverse multimodal multi-image reasoning capabilities of MLLMs across real-life scenarios. MMR-Life consists of 2,646 multiple-choice questions based on 19,108 images primarily sourced from real-world contexts, comprehensively covering seven reasoning types: abductive, analogical, causal, deductive, inductive, spatial, and temporal. Unlike existing reasoning benchmarks, MMR-Life does not rely on domain-specific expertise but instead requires models to integrate information across multiple images and apply diverse reasoning abilities. The evaluation of 37 advanced models highlights the substantial challenge posed by MMR-Life. Even top models like GPT-5 achieve only 58% accuracy and display considerable variance in performance across reasoning types. Moreover, we analyze the reasoning paradigms of existing MLLMs, exploring how factors such as thinking length, reasoning method, and reasoning type affect their performance. In summary, MMR-Life establishes a comprehensive foundation for evaluating, analyzing, and improving the next generation of multimodal reasoning systems.
- Abstract(参考訳): マルチモーダル大言語モデル(MLLM)の推論能力の最近の進歩は、科学的解析や数学的推論のようなより複雑なタスクに対処する権限を与えている。
その約束にもかかわらず、MLLMの実生活における様々なシナリオにおける推論能力はほとんど探索されておらず、評価のための標準ベンチマークが欠如している。
そこで本研究では,MLLMのマルチモーダル・マルチモーダル推論能力を評価するための総合的なベンチマークであるMMR-Lifeを紹介する。
MMR-Lifeは、19,108の画像に基づく2,646の多重選択の質問で構成されており、主に現実世界の文脈から導き出されたもので、帰納的、類推的、因果的、帰納的、帰納的、帰納的、空間的、時間的な7つの推論タイプを包括的にカバーしている。
既存の推論ベンチマークとは異なり、MMR-Lifeはドメイン固有の専門知識に頼るのではなく、複数の画像にまたがって情報を統合し、多様な推論能力を適用するモデルを必要とする。
37の高度なモデルの評価は、MMR-Lifeによる重大な課題を浮き彫りにしている。
GPT-5のようなトップモデルでさえ、精度は58%に過ぎず、推論タイプ間ではかなりの差がある。
さらに、既存のMLLMの推論パラダイムを分析し、思考長、推論方法、推論タイプなどの要因がパフォーマンスに与える影響について検討する。
まとめると、MMR-Lifeは次世代マルチモーダル推論システムの評価、分析、改善のための総合的な基盤を確立している。
関連論文リスト
- Multimodal Mathematical Reasoning with Diverse Solving Perspective [65.07953438724105]
画像探索ペア毎に複数の多様な解トラジェクトリをキャプチャする新しいデータセットであるMathV-DPを紹介する。
本稿では,Qwen-VLに基づくモデルQwen-VL-DPを提案する。
本手法は,様々な推論の観点からの学習を重視し,正しい解と異なる解を区別する。
論文 参考訳(メタデータ) (2025-07-03T17:07:20Z) - MMReason: An Open-Ended Multi-Modal Multi-Step Reasoning Benchmark for MLLMs Toward AGI [59.196131618912005]
マルチモーダル大規模言語モデル(MLLM)の進展における推論の役割
既存のMLLMベンチマークは、しばしば、長鎖推論能力の正確かつ包括的な評価において不足している。
MLLM長鎖推論能力を正確かつ包括的に評価する新しいベンチマークであるMMReasonを紹介する。
論文 参考訳(メタデータ) (2025-06-30T07:14:38Z) - MARBLE: A Hard Benchmark for Multimodal Spatial Reasoning and Planning [10.602434753538535]
複数のモダリティから情報を処理し、それを段階的に分析する能力は、人工知能を進化させる上で重要な課題である。
本稿では,マルチモーダル言語モデルの精査を目的としたマルチモーダル推論ベンチマークであるMARBLEを提案する。
現在のMLLMはMARBLEでは性能が悪く、M-Portalではほぼランダムな性能、M-Cubeでは0%の精度が得られる。
論文 参考訳(メタデータ) (2025-06-28T19:44:32Z) - Perception-R1: Advancing Multimodal Reasoning Capabilities of MLLMs via Visual Perception Reward [77.34936657745578]
本稿では,MLLMに視覚内容の正確な知覚を促す新しい視覚認識報酬を導入するPerception-R1を提案する。
本稿では,Perception-R1が1,442のトレーニングデータのみを用いて,ほとんどのベンチマークで最先端のパフォーマンスを実現することを示す。
論文 参考訳(メタデータ) (2025-06-08T16:48:42Z) - MMR-V: What's Left Unsaid? A Benchmark for Multimodal Deep Reasoning in Videos [22.10711693948861]
ビデオにおけるマルチモーダルディープ推論のためのベンチマークMMR-Vを提案する。
ベンチマークの特徴は以下のとおりである。
実験によると、現在のモデルはまだマルチモーダル推論に苦戦している。
論文 参考訳(メタデータ) (2025-06-04T16:33:41Z) - MMLU-Reason: Benchmarking Multi-Task Multi-modal Language Understanding and Reasoning [40.55833679660528]
我々は,マルチモーダル推論を明示的思考で厳格に評価する新しいベンチマークMMLU-Reasonを紹介する。
MMLU-Reasonは1)記号深度とマルチホップ要求の6つの異なる推論タイプにまたがる1,083の質問の高拡散データセットからなる。
全体として、MMLU-Reasonは、次世代のマルチモーダル推論システムを評価し、比較し、改善するためのスケーラブルな基盤を提供する。
論文 参考訳(メタデータ) (2025-05-22T09:41:55Z) - VisuLogic: A Benchmark for Evaluating Visual Reasoning in Multi-modal Large Language Models [121.03333569013148]
VisuLogicは、6つのカテゴリにまたがる1,000の人間認証された問題のベンチマークです。
これらの質問は、複数の視点からMLLMの視覚的推論能力を評価するために評価することができる。
ほとんどのモデルは精度が30%以下で、25%のランダムベースラインよりわずかに高く、人間によって達成された51.4%よりはるかに低い。
論文 参考訳(メタデータ) (2025-04-21T17:59:53Z) - Multimodal Inconsistency Reasoning (MMIR): A New Benchmark for Multimodal Reasoning Models [26.17300490736624]
MLLM(Multimodal Large Language Models)は、一貫した視覚・テキスト入力で主に訓練され、テストされる。
本稿では,MLLMの意味的ミスマッチの検出と推論能力を評価するためのマルチモーダル不整合推論ベンチマークを提案する。
我々は6つの最先端MLLMを評価し、o1のような専用マルチモーダル推論能力を持つモデルは、その性能を大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2025-02-22T01:52:37Z) - Can MLLMs Reason in Multimodality? EMMA: An Enhanced MultiModal ReAsoning Benchmark [73.27104042215207]
EMMAは,数学,物理,化学,コーディングにまたがる有機マルチモーダル推論を対象とするベンチマークである。
EMMAタスクは、各モードで独立に推論することで対処できない高度なクロスモーダル推論を要求する。
EMMA上での最先端MLLMの評価は、複雑なマルチモーダルおよびマルチステップ推論タスクの処理において、重大な制限を生じさせる。
論文 参考訳(メタデータ) (2025-01-09T18:55:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。