論文の概要: MMIU: Multimodal Multi-image Understanding for Evaluating Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2408.02718v1
- Date: Mon, 5 Aug 2024 17:56:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-07 15:58:20.641100
- Title: MMIU: Multimodal Multi-image Understanding for Evaluating Large Vision-Language Models
- Title(参考訳): MMIU:大規模視覚言語モデル評価のためのマルチモーダルマルチイメージ理解
- Authors: Fanqing Meng, Jin Wang, Chuanhao Li, Quanfeng Lu, Hao Tian, Jiaqi Liao, Xizhou Zhu, Jifeng Dai, Yu Qiao, Ping Luo, Kaipeng Zhang, Wenqi Shao,
- Abstract要約: MMIU(Multimodal Multi-image Understanding)は、LVLM(Large Vision-Language Models)を評価するための総合的な評価スイートである。
MMIUには7種類のマルチイメージ関係、52のタスク、77Kのイメージ、1Kの微調整された複数選択質問が含まれている。
オープンソースモデルとプロプライエタリモデルの両方を含む24種類のLVLMを評価した結果,マルチイメージ理解における大きな課題が明らかになった。
- 参考スコア(独自算出の注目度): 76.1999277491816
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The capability to process multiple images is crucial for Large Vision-Language Models (LVLMs) to develop a more thorough and nuanced understanding of a scene. Recent multi-image LVLMs have begun to address this need. However, their evaluation has not kept pace with their development. To fill this gap, we introduce the Multimodal Multi-image Understanding (MMIU) benchmark, a comprehensive evaluation suite designed to assess LVLMs across a wide range of multi-image tasks. MMIU encompasses 7 types of multi-image relationships, 52 tasks, 77K images, and 11K meticulously curated multiple-choice questions, making it the most extensive benchmark of its kind. Our evaluation of 24 popular LVLMs, including both open-source and proprietary models, reveals significant challenges in multi-image comprehension, particularly in tasks involving spatial understanding. Even the most advanced models, such as GPT-4o, achieve only 55.7% accuracy on MMIU. Through multi-faceted analytical experiments, we identify key performance gaps and limitations, providing valuable insights for future model and data improvements. We aim for MMIU to advance the frontier of LVLM research and development, moving us toward achieving sophisticated multimodal multi-image user interactions.
- Abstract(参考訳): 複数の画像を処理する能力は、LVLM(Large Vision-Language Models)にとって、より徹底的でニュアンスなシーン理解を開発する上で不可欠である。
最近のマルチイメージLVLMはこのニーズに対処し始めている。
しかし、彼らの評価は開発に遅れを取っていない。
このギャップを埋めるために,マルチモーダルマルチイメージ理解(MMIU)ベンチマークを導入する。
MMIUには7種類のマルチイメージ関係、52のタスク、77Kの画像、1Kの細心の注意を払ってキュレートされた複数の質問が含まれており、この種のベンチマークとしては最も広範なものとなっている。
オープンソースモデルとプロプライエタリモデルの両方を含む24種類のLVLMを評価した結果,特に空間的理解に関わるタスクにおいて,マルチイメージ理解において重要な課題が明らかとなった。
GPT-4oのような最も先進的なモデルでさえ、MMIUでは55.7%の精度しか達成していない。
多面的な分析実験を通じて、重要な性能ギャップと限界を特定し、将来のモデルとデータ改善のための貴重な洞察を提供する。
我々はMMIUがLVLM研究開発のフロンティアを前進させ、洗練されたマルチモーダル・マルチモーダル・ユーザインタラクションの実現を目指しています。
関連論文リスト
- MMRA: A Benchmark for Evaluating Multi-Granularity and Multi-Image Relational Association Capabilities in Large Visual Language Models [29.795942154703642]
本稿では,複数画像関係関連課題と,厳密にキュレートされた多粒度マルチイメージアソシエーションのベンチマークを提案する。
実験の結果,MMRAベンチマークでは,現在のマルチイメージLVLMは様々なサブタスクに対して異なる利点と欠点を示すことがわかった。
その結果,LVLMは画像の詳細を知覚する強力な能力を示し,複数の画像ヒンジにまたがる情報を関連付ける能力を高め,言語モデルコンポーネントの推論能力の向上に寄与することが示唆された。
論文 参考訳(メタデータ) (2024-07-24T15:59:01Z) - Benchmarking Multi-Image Understanding in Vision and Language Models: Perception, Knowledge, Reasoning, and Multi-Hop Reasoning [15.296263261737026]
マルチイメージMIRBベンチマークを導入し、複数の画像を比較し、分析し、推論する視覚言語モデルの能力を評価する。
私たちのベンチマークには、知覚、視覚世界知識、推論、マルチホップ推論の4つのカテゴリが含まれています。
オープンソースVLMはシングルイメージタスクにおいてGPT-4Vに接近することを示したが、マルチイメージ推論タスクでは大きなギャップが残っている。
論文 参考訳(メタデータ) (2024-06-18T16:02:18Z) - MuirBench: A Comprehensive Benchmark for Robust Multi-image Understanding [150.28164854480912]
マルチモーダルLLMの堅牢なマルチイメージ理解機能に着目したベンチマークであるMuirBenchを紹介する。
MuirBenchは、12の多様なマルチイメージタスク(例えば、シーン理解、順序付け)で構成されており、10のカテゴリのマルチイメージ関係を含んでいる。
GPT-4oやGemini Proのような最高のパフォーマンスモデルでさえ、ムアベンチを解くことは困難であり、精度は68.0%、49.3%である。
論文 参考訳(メタデータ) (2024-06-13T17:59:52Z) - Needle In A Multimodal Haystack [79.81804334634408]
本稿では,従来のMLLMの長大なマルチモーダル文書の理解能力を評価するために設計された,最初のベンチマークを示す。
我々のベンチマークには、マルチモーダル検索、カウント、推論の3種類の評価タスクが含まれている。
既存のモデルには、これらのタスク、特に視覚中心の評価において、改善の余地がまだ残っていることを観察する。
論文 参考訳(メタデータ) (2024-06-11T13:09:16Z) - MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training [103.72844619581811]
MLLM(Performant Multimodal Large Language Models)を構築する。
特に,さまざまなアーキテクチャコンポーネントとデータ選択の重要性について検討する。
本稿では,画像キャプチャ,インターリーブ画像テキスト,テキストのみのデータを組み合わせた大規模マルチモーダル事前学習について述べる。
論文 参考訳(メタデータ) (2024-03-14T17:51:32Z) - Browse and Concentrate: Comprehending Multimodal Content via prior-LLM Context Fusion [70.9767518332692]
LLMを事前訓練された視覚モデルに組み込んだマルチモーダル大規模言語モデル(MLLM)は、近年、多様な視覚言語タスクにまたがる印象的なパフォーマンスを実証している。
しかし、複数の画像を含む文脈を理解するには不十分である。
本稿では,2つのフェーズ・パラダイムであるブラウズ・アンド・集中型を提案し,より深いマルチモーダルコンテキスト融合を実現する。
論文 参考訳(メタデータ) (2024-02-19T14:59:07Z) - CoCoT: Contrastive Chain-of-Thought Prompting for Large Multimodal
Models with Multiple Image Inputs [48.269363759989915]
この研究は、第1、画像対画像マッチング、第2、複数画像対テキストマッチングという2つの側面に焦点を当てている。
我々は, GPT-4V, Gemini, OpenFlamingo, MMICLを含む, オープンソースおよびクローズドソースの大規模モデルについて評価を行った。
論文 参考訳(メタデータ) (2024-01-05T00:26:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。