論文の概要: Muffin or Chihuahua? Challenging Large Vision-Language Models with
Multipanel VQA
- arxiv url: http://arxiv.org/abs/2401.15847v1
- Date: Mon, 29 Jan 2024 02:43:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-30 16:15:10.359020
- Title: Muffin or Chihuahua? Challenging Large Vision-Language Models with
Multipanel VQA
- Title(参考訳): マフィンかチワワか?
マルチパネルVQAを用いた大規模視野モデルの構築
- Authors: Yue Fan, Jing Gu, Kaiwen Zhou, Qianqi Yan, Shan Jiang, Ching-Chen Kuo,
Xinze Guan, Xin Eric Wang
- Abstract要約: ウェブスクリーンショットやポスターとして一般的に見られるマルチパネル画像は、効果的に人に情報を伝える。
本稿では,マルチパネル画像の解釈モデルに挑戦する新しいベンチマークであるMultipanel Visual Question Answering (MultipanelVQA)を紹介する。
ベンチマークは6600の質問と、マルチパネル画像に関する回答で構成されている。
- 参考スコア(独自算出の注目度): 29.0129145308181
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multipanel images, commonly seen as web screenshots, posters, etc., pervade
our daily lives. These images, characterized by their composition of multiple
subfigures in distinct layouts, effectively convey information to people.
Toward building advanced multimodal AI applications, such as agents that
understand complex scenes and navigate through webpages, the skill of
multipanel visual reasoning is essential, and a comprehensive evaluation of
models in this regard is important. Therefore, our paper introduces Multipanel
Visual Question Answering (MultipanelVQA), a novel benchmark that specifically
challenges models in comprehending multipanel images. The benchmark comprises
6,600 questions and answers related to multipanel images. While these questions
are straightforward for average humans, achieving nearly perfect correctness,
they pose significant challenges to the state-of-the-art Large Vision Language
Models (LVLMs) we tested. In our study, we utilized synthetically curated
multipanel images specifically designed to isolate and evaluate the impact of
diverse factors on model performance, revealing the sensitivity of LVLMs to
various interferences in multipanel images, such as adjacent subfigures and
layout complexity. As a result, MultipanelVQA highlights the need and direction
for improving LVLMs' ability to understand complex visual-language contexts.
Code and data are released at https://sites.google.com/view/multipanelvqa/home.
- Abstract(参考訳): ウェブスクリーンショットやポスターとしてよく見られるマルチパネル画像は、私たちの日常生活に浸透します。
これらの画像は、異なるレイアウトで複数のサブフィギュアを構成することで特徴づけられ、効果的に人々に情報を伝える。
複雑なシーンを理解し、Webページをナビゲートするエージェントなど、高度なマルチモーダルAIアプリケーションを構築するためには、マルチパネル・ビジュアル推論のスキルが不可欠であり、この点におけるモデルの包括的な評価が重要である。
そこで本稿では,マルチパネル画像の解釈モデルに特に挑戦する新しいベンチマークであるMultipanel Visual Question Answering(MultipanelVQA)を提案する。
ベンチマークは6600の質問と、マルチパネル画像に関する回答で構成されている。
これらの疑問は、平均的な人間にとって単純だが、ほぼ完全な正当性を達成することは、我々がテストした最先端のLVLM(Large Vision Language Models)に重大な課題をもたらす。
本研究では,隣接するサブフィギュアやレイアウトの複雑さなど,マルチパネル画像の様々な干渉に対するLVLMの感度を明らかにするとともに,モデル性能に対する様々な要因の影響を分離・評価するために,合成キュレートしたマルチパネル画像を利用した。
結果として、MultipanelVQAは、複雑な視覚的文脈を理解するLVLMの能力を改善する必要性と方向性を強調している。
コードとデータはhttps://sites.google.com/view/multipanelvqa/homeでリリースされる。
関連論文リスト
- WebQuest: A Benchmark for Multimodal QA on Web Page Sequences [10.008284460456107]
WebQuestは、複数のWebページにわたる推論を必要とする、複数ページの質問回答データセットである。
本データセットは,多くのWebページから情報抽出,マルチモーダル検索,および情報の合成を評価する。
我々は、GPT-4V、Gemini Flash、Claude 3、InstructBLIP、PaliGemmaなどのオープンソースモデルなど、主要なプロプライエタリなマルチモーダルモデルを評価します。
論文 参考訳(メタデータ) (2024-09-06T18:44:25Z) - MMIU: Multimodal Multi-image Understanding for Evaluating Large Vision-Language Models [76.1999277491816]
MMIU(Multimodal Multi-image Understanding)は、LVLM(Large Vision-Language Models)を評価するための総合的な評価スイートである。
MMIUには7種類のマルチイメージ関係、52のタスク、77Kのイメージ、1Kの微調整された複数選択質問が含まれている。
オープンソースモデルとプロプライエタリモデルの両方を含む24種類のLVLMを評価した結果,マルチイメージ理解における大きな課題が明らかになった。
論文 参考訳(メタデータ) (2024-08-05T17:56:41Z) - Benchmarking Multi-Image Understanding in Vision and Language Models: Perception, Knowledge, Reasoning, and Multi-Hop Reasoning [15.296263261737026]
マルチイメージMIRBベンチマークを導入し、複数の画像を比較し、分析し、推論する視覚言語モデルの能力を評価する。
私たちのベンチマークには、知覚、視覚世界知識、推論、マルチホップ推論の4つのカテゴリが含まれています。
オープンソースVLMはシングルイメージタスクにおいてGPT-4Vに接近することを示したが、マルチイメージ推論タスクでは大きなギャップが残っている。
論文 参考訳(メタデータ) (2024-06-18T16:02:18Z) - MuirBench: A Comprehensive Benchmark for Robust Multi-image Understanding [150.28164854480912]
マルチモーダルLLMの堅牢なマルチイメージ理解機能に着目したベンチマークであるMuirBenchを紹介する。
MuirBenchは、12の多様なマルチイメージタスク(例えば、シーン理解、順序付け)で構成されており、10のカテゴリのマルチイメージ関係を含んでいる。
GPT-4oやGemini Proのような最高のパフォーマンスモデルでさえ、ムアベンチを解くことは困難であり、精度は68.0%、49.3%である。
論文 参考訳(メタデータ) (2024-06-13T17:59:52Z) - Draw-and-Understand: Leveraging Visual Prompts to Enable MLLMs to Comprehend What You Want [58.091825321168514]
我々は、Draw-and-Understandプロジェクト、新しいモデル、マルチドメインデータセット、ビジュアルプロンプトのための挑戦的なベンチマークを紹介する。
具体的には、視覚エンコーダ、視覚プロンプトエンコーダ、LLMを接続する、エンド・ツー・エンドのマルチモーダル大規模言語モデル(MLLM)を提案する。
MLLMの視覚的プロンプト研究を進めるために,MDVP-DataとMDVP-Benchを紹介する。
論文 参考訳(メタデータ) (2024-03-29T16:26:20Z) - Browse and Concentrate: Comprehending Multimodal Content via prior-LLM Context Fusion [70.9767518332692]
LLMを事前訓練された視覚モデルに組み込んだマルチモーダル大規模言語モデル(MLLM)は、近年、多様な視覚言語タスクにまたがる印象的なパフォーマンスを実証している。
しかし、複数の画像を含む文脈を理解するには不十分である。
本稿では,2つのフェーズ・パラダイムであるブラウズ・アンド・集中型を提案し,より深いマルチモーダルコンテキスト融合を実現する。
論文 参考訳(メタデータ) (2024-02-19T14:59:07Z) - SPHINX-X: Scaling Data and Parameters for a Family of Multi-modal Large Language Models [97.40590590880144]
MLLM(Multimodality Large Language Model)シリーズを開発した。
我々は、言語、ビジョン、視覚言語タスクで利用可能なリソースを網羅した包括的なデータセットを組み立てる。
パラメータサイズや多言語能力の異なるMLLMのスペクトルを得る。
論文 参考訳(メタデータ) (2024-02-08T18:59:48Z) - SPHINX: The Joint Mixing of Weights, Tasks, and Visual Embeddings for
Multi-modal Large Language Models [86.478087039015]
モデル重み、チューニングタスク、視覚埋め込みを併用した多目的多モード大言語モデル(MLLM)を提案する。
提案したジョイントミキシングに基づいて,高解像度画像のきめ細かい外観をより正確に捉えるための効率的な手法を提案する。
今後のMLLM研究におけるジョイントミキシングの探求に光を当てることを願っている。
論文 参考訳(メタデータ) (2023-11-13T18:59:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。