論文の概要: Evaluating MLLMs with Multimodal Multi-image Reasoning Benchmark
- arxiv url: http://arxiv.org/abs/2506.04280v1
- Date: Wed, 04 Jun 2025 04:21:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.321833
- Title: Evaluating MLLMs with Multimodal Multi-image Reasoning Benchmark
- Title(参考訳): マルチモーダルマルチイメージ推論ベンチマークによるMLLMの評価
- Authors: Ziming Cheng, Binrui Xu, Lisheng Gong, Zuhe Song, Tianshuo Zhou, Shiqi Zhong, Siyu Ren, Mingxiang Chen, Xiangchao Meng, Yuxin Zhang, Yanlin Li, Lei Ren, Wei Chen, Zhiyuan Huang, Mingjie Zhan, Xiaojie Wang, Fangxiang Feng,
- Abstract要約: マルチモーダル大言語モデル(MLLM)は、複数の画像を同時に処理し、推論するためにますます必要とされる。
既存のMLLMベンチマークでは、単一イメージの視覚的推論か、最終回答のみのマルチイメージ理解タスクに焦点が当てられている。
我々は、複数の画像にまたがる構造化視覚的推論を評価するために設計された最初のベンチマークである、$textbfMultimodal Multi-image Reasoning Benchmark (MMRB)$を紹介する。
- 参考スコア(独自算出の注目度): 23.09184578723126
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With enhanced capabilities and widespread applications, Multimodal Large Language Models (MLLMs) are increasingly required to process and reason over multiple images simultaneously. However, existing MLLM benchmarks focus either on single-image visual reasoning or on multi-image understanding tasks with only final-answer evaluation, leaving the reasoning capabilities of MLLMs over multi-image inputs largely underexplored. To address this gap, we introduce the $\textbf{Multimodal Multi-image Reasoning Benchmark (MMRB)}$, the first benchmark designed to evaluate structured visual reasoning across multiple images. MMRB comprises $\textbf{92 sub-tasks}$ covering spatial, temporal, and semantic reasoning, with multi-solution, CoT-style annotations generated by GPT-4o and refined by human experts. A derivative subset is designed to evaluate multimodal reward models in multi-image scenarios. To support fast and scalable evaluation, we propose a sentence-level matching framework using open-source LLMs. Extensive baseline experiments on $\textbf{40 MLLMs}$, including 9 reasoning-specific models and 8 reward models, demonstrate that open-source MLLMs still lag significantly behind commercial MLLMs in multi-image reasoning tasks. Furthermore, current multimodal reward models are nearly incapable of handling multi-image reward ranking tasks.
- Abstract(参考訳): 拡張機能と広範な応用により、マルチモーダル大言語モデル(MLLM)は、複数の画像を同時に処理し、推論するためにますます必要となる。
しかし、既存のMLLMベンチマークは、単一画像の視覚的推論か、最終回答のみの評価を伴うマルチ画像理解タスクに焦点を当てており、マルチ画像入力に対するMLLMの推論能力はほとんど探索されていない。
このギャップに対処するために、我々は、複数の画像にまたがる構造化視覚的推論を評価するために設計された最初のベンチマークである$\textbf{Multimodal Multi-image Reasoning Benchmark (MMRB)$を紹介した。
MMRBは、空間的、時間的、意味的な推論をカバーする$\textbf{92 sub-tasks}$と、GPT-4oによって生成されたマルチソリューションのCoTスタイルアノテーションと、人間の専門家によって洗練されている。
派生サブセットは、マルチイメージシナリオにおけるマルチモーダル報酬モデルを評価するように設計されている。
高速でスケーラブルな評価を支援するために,オープンソースのLLMを用いた文レベルマッチングフレームワークを提案する。
9つの推論特化モデルと8つの報酬モデルを含む$\textbf{40 MLLMs}$の大規模なベースライン実験は、オープンソースのMLLMがマルチイメージ推論タスクにおいて商用MLLMよりもかなり遅れていることを示している。
さらに、現在のマルチモーダル報酬モデルでは、マルチモーダル報酬ランキングタスクの処理がほぼ不可能である。
関連論文リスト
- Order Matters: Exploring Order Sensitivity in Multimodal Large Language Models [15.622219099903067]
マルチモーダル入力の順序を変えることで、モデルの性能が高度な性能とランダムな推測の間で変動することを発見した。
この現象は、単一のモダリティ(テキストのみまたは画像のみ)と混合モダリティ(画像-テキスト-ペア)の両方の文脈に存在する。
MLLM評価における順序バイアスに対処する新しい指標である位置不変精度(PIA)を提案する。
論文 参考訳(メタデータ) (2024-10-22T13:05:11Z) - MC-Bench: A Benchmark for Multi-Context Visual Grounding in the Era of MLLMs [61.56904387052982]
本稿では,マルチコンテキストの視覚的グラウンド化という新しい視覚的グラウンド化タスクを提案する。
オープンなテキストプロンプトに基づいて、複数の画像にまたがる関心のインスタンスをローカライズすることを目的としている。
我々は20以上の最先端MLLMと基盤モデルをベンチマークし、潜在的にマルチコンテキストの視覚的グラウンド化機能を有する。
論文 参考訳(メタデータ) (2024-10-16T07:52:57Z) - MMIU: Multimodal Multi-image Understanding for Evaluating Large Vision-Language Models [76.1999277491816]
MMIU(Multimodal Multi-image Understanding)は、LVLM(Large Vision-Language Models)を評価するための総合的な評価スイートである。
MMIUには7種類のマルチイメージ関係、52のタスク、77Kのイメージ、1Kの微調整された複数選択質問が含まれている。
オープンソースモデルとプロプライエタリモデルの両方を含む24種類のLVLMを評価した結果,マルチイメージ理解における大きな課題が明らかになった。
論文 参考訳(メタデータ) (2024-08-05T17:56:41Z) - MIBench: Evaluating Multimodal Large Language Models over Multiple Images [70.44423964171088]
マルチイメージシナリオにおけるMLLMの微粒化能力を包括的に評価する新しいベンチマークMIBenchを提案する。
具体的には、MIBenchはマルチモーダル・インコンテクスト・ラーニング(MIC)とマルチモーダル・インコンテクスト・ラーニング(MIC)の3つのシナリオに分類する。
その結果、現在のモデルでは単一画像のタスクが優れているが、複数画像の入力に直面すると大きな欠点が現れることがわかった。
論文 参考訳(メタデータ) (2024-07-21T21:22:58Z) - Browse and Concentrate: Comprehending Multimodal Content via prior-LLM Context Fusion [70.9767518332692]
LLMを事前訓練された視覚モデルに組み込んだマルチモーダル大規模言語モデル(MLLM)は、近年、多様な視覚言語タスクにまたがる印象的なパフォーマンスを実証している。
しかし、複数の画像を含む文脈を理解するには不十分である。
本稿では,2つのフェーズ・パラダイムであるブラウズ・アンド・集中型を提案し,より深いマルチモーダルコンテキスト融合を実現する。
論文 参考訳(メタデータ) (2024-02-19T14:59:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。