論文の概要: Muffin or Chihuahua? Challenging Large Vision-Language Models with
Multipanel VQA
- arxiv url: http://arxiv.org/abs/2401.15847v2
- Date: Mon, 19 Feb 2024 05:14:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 03:21:14.284788
- Title: Muffin or Chihuahua? Challenging Large Vision-Language Models with
Multipanel VQA
- Title(参考訳): マフィンかチワワか?
マルチパネルVQAを用いた大規模視野モデルの構築
- Authors: Yue Fan, Jing Gu, Kaiwen Zhou, Qianqi Yan, Shan Jiang, Ching-Chen Kuo,
Xinze Guan, Xin Eric Wang
- Abstract要約: 6,600個の質問,回答,マルチパネル画像からなる新しいベンチマークであるMultipanel Visual Question Answering(MultipanelVQA)を紹介する。
評価の結果、MultipanelVQAベンチマークの質問は、最先端のLVLM(Large Vision Language Models)テストに重大な課題をもたらすことが示された。
- 参考スコア(独自算出の注目度): 29.0129145308181
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multipanel images, commonly seen as web screenshots, posters, etc., pervade
our daily lives. These images, characterized by their composition of multiple
subfigures in distinct layouts, effectively convey information to people.
Toward building advanced multimodal AI applications, such as agents that
understand complex scenes and navigate through webpages, the skill of
multipanel visual reasoning is essential, and a comprehensive evaluation of
models in this regard is important. Therefore, we introduce Multipanel Visual
Question Answering (MultipanelVQA), a novel benchmark comprising 6,600 triplets
of questions, answers, and multipanel images that specifically challenge models
in comprehending multipanel images. Our evaluation shows that questions in the
MultipanelVQA benchmark pose significant challenges to the state-of-the-art
Large Vision Language Models (LVLMs) tested, even though humans can attain
approximately 99\% accuracy on these questions. Distinctively, the
MultipanelVQA benchmark features synthetically generated multipanel images
specifically crafted to isolate and assess the impact of various factors, such
as the layout, on LVLMs' multipanel image comprehension abilities. As a result,
in addition to benchmarking the capabilities of LVLMs in understanding
multipanel images, we analyze the potential causes for LVLMs' performance and
offer insights for enhancement with the synthetic data. Code and data are
released at https://sites.google.com/view/multipanelvqa/home.
- Abstract(参考訳): ウェブスクリーンショットやポスターとしてよく見られるマルチパネル画像は、私たちの日常生活に浸透します。
これらの画像は、異なるレイアウトで複数のサブフィギュアを構成することで特徴づけられ、効果的に人々に情報を伝える。
複雑なシーンを理解し、Webページをナビゲートするエージェントなど、高度なマルチモーダルAIアプリケーションを構築するためには、マルチパネル・ビジュアル推論のスキルが不可欠であり、この点におけるモデルの包括的な評価が重要である。
そこで本研究では,6,600個の質問,回答,マルチパネル画像からなる新しいベンチマークであるMultipanel Visual Question Answering(MultipanelVQA)を導入する。
評価の結果,MultipanelVQAベンチマークの質問は,現在最先端のLVLM(Large Vision Language Models)テストに重大な課題をもたらすことがわかった。
比例的に、MultipanelVQAベンチマークは、LVLMのマルチパネルイメージ理解能力に対するレイアウトなどの様々な要因の影響を分離し評価するために特別に作られた、合成されたマルチパネルイメージを備えている。
その結果、マルチパネル画像の理解におけるLVLMの能力のベンチマークに加えて、LVLMの性能の潜在的な原因を分析し、合成データによる強化のための洞察を提供する。
コードとデータはhttps://sites.google.com/view/multipanelvqa/homeでリリースされる。
関連論文リスト
- Draw-and-Understand: Leveraging Visual Prompts to Enable MLLMs to Comprehend What You Want [58.091825321168514]
我々は、Draw-and-Understandプロジェクト、新しいモデル、マルチドメインデータセット、ビジュアルプロンプトのための挑戦的なベンチマークを紹介する。
具体的には、視覚エンコーダ、視覚プロンプトエンコーダ、LLMを接続する、エンド・ツー・エンドのマルチモーダル大規模言語モデル(MLLM)を提案する。
MLLMの視覚的プロンプト研究を進めるために,MDVP-DataとMDVP-Benchを紹介する。
論文 参考訳(メタデータ) (2024-03-29T16:26:20Z) - Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。
この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。
実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文 参考訳(メタデータ) (2024-03-19T17:59:52Z) - Browse and Concentrate: Comprehending Multimodal Content via prior-LLM
Context Fusion [73.33837430365065]
LLMを事前訓練された視覚モデルに組み込んだマルチモーダル大規模言語モデル(MLLM)は、近年、多様な視覚言語タスクにまたがる印象的なパフォーマンスを実証している。
しかし、複数の画像を含む文脈を理解するには不十分である。
本稿では,2つのフェーズ・パラダイムであるブラウズ・アンド・集中型を提案し,より深いマルチモーダルコンテキスト融合を実現する。
論文 参考訳(メタデータ) (2024-02-19T14:59:07Z) - Question Aware Vision Transformer for Multimodal Reasoning [14.188369270753347]
マルチモーダル推論のための質問認識型視覚変換器QA-ViTを提案する。
視覚エンコーダに直接質問認識を埋め込む。
この統合により、仮定された問題に関連性のある画像の側面に焦点を当てた動的視覚的特徴が得られる。
論文 参考訳(メタデータ) (2024-02-08T08:03:39Z) - MouSi: Poly-Visual-Expert Vision-Language Models [132.58949014605477]
本稿では,個々の視覚エンコーダの能力の相乗化にアンサンブルエキスパート技術を用いることを提案する。
この技術は、異なる視覚専門家の出力の処理を統一する融合ネットワークを導入する。
本実装では,SAMなどのモデルにおける位置占有率を,実質的な4096からより効率的で管理可能な64,さらには1。
論文 参考訳(メタデータ) (2024-01-30T18:09:11Z) - Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs [50.77984109941538]
近年のマルチモーダル LLM の視覚能力は, いまだに系統的な欠点を呈している。
CLIP-blind pairs'(CLIP-blind pairs)を識別する。
様々なCLIPに基づく視覚・言語モデルの評価を行い、CLIPモデルに挑戦する視覚パターンとマルチモーダルLLMの問題との間に顕著な相関関係を見出した。
論文 参考訳(メタデータ) (2024-01-11T18:58:36Z) - SPHINX: The Joint Mixing of Weights, Tasks, and Visual Embeddings for
Multi-modal Large Language Models [86.478087039015]
モデル重み、チューニングタスク、視覚埋め込みを併用した多目的多モード大言語モデル(MLLM)を提案する。
提案したジョイントミキシングに基づいて,高解像度画像のきめ細かい外観をより正確に捉えるための効率的な手法を提案する。
今後のMLLM研究におけるジョイントミキシングの探求に光を当てることを願っている。
論文 参考訳(メタデータ) (2023-11-13T18:59:47Z) - AssistGPT: A General Multi-modal Assistant that can Plan, Execute,
Inspect, and Learn [25.510696745075688]
我々は、Plan、Execute、Inspect、Learningと呼ばれるインターリーブコードと言語推論アプローチを備えたマルチモーダルAIアシスタントAssistGPTを提案する。
Plannerは自然言語を使ってExecutorで次にすべきツールを計画することができる。
我々は, A-OKVQA と NExT-QA のベンチマーク実験を行い, 最先端の結果を得た。
論文 参考訳(メタデータ) (2023-06-14T17:12:56Z) - Multilevel Hierarchical Network with Multiscale Sampling for Video
Question Answering [16.449212284367366]
ビデオQAのためのマルチスケールサンプリング機能を備えたMHN(Multilevel Hierarchical Network)を提案する。
MHNは、Recurrent Multimodal Interaction (RMI) と Parallel Visual Reasoning (PVR) の2つのモジュールからなる。
マルチスケールサンプリングにより、RMIは、各スケールにおける外見・動き情報の相互作用と質問埋め込みを反復して、マルチレベルな質問誘導視覚表現を構築する。
PVRは各レベルの視覚的手がかりを並列に推測し、関連するレベルの視覚情報に依存する可能性のある様々な質問タイプに適合する。
論文 参考訳(メタデータ) (2022-05-09T06:28:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。