論文の概要: MVP-Bench: Can Large Vision--Language Models Conduct Multi-level Visual Perception Like Humans?
- arxiv url: http://arxiv.org/abs/2410.04345v1
- Date: Sun, 6 Oct 2024 03:47:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 08:20:17.233536
- Title: MVP-Bench: Can Large Vision--Language Models Conduct Multi-level Visual Perception Like Humans?
- Title(参考訳): MVP-Bench: 大規模視覚言語モデルは、人間のように多段階の視覚知覚を実行できるか?
- Authors: Guanzhen Li, Yuxi Xie, Min-Yen Kan,
- Abstract要約: LVLM(Large Visual-Language Models)は、多段階の視覚知覚を行う能力について未検討のままである。
MVP-Benchは、LVLMの低レベルと高レベルの両方の視覚的知覚を体系的に評価する最初のビジュアル言語ベンチマークである。
MVP-Benchを用いて、10個のオープンソースと2個のクローズドソースのLVLMの視覚的認識を診断し、高いレベルの認識タスクが既存のLVLMに大きく挑戦していることを示す。
- 参考スコア(独自算出の注目度): 20.42118033193383
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humans perform visual perception at multiple levels, including low-level object recognition and high-level semantic interpretation such as behavior understanding. Subtle differences in low-level details can lead to substantial changes in high-level perception. For example, substituting the shopping bag held by a person with a gun suggests violent behavior, implying criminal or violent activity. Despite significant advancements in various multimodal tasks, Large Visual-Language Models (LVLMs) remain unexplored in their capabilities to conduct such multi-level visual perceptions. To investigate the perception gap between LVLMs and humans, we introduce MVP-Bench, the first visual-language benchmark systematically evaluating both low- and high-level visual perception of LVLMs. We construct MVP-Bench across natural and synthetic images to investigate how manipulated content influences model perception. Using MVP-Bench, we diagnose the visual perception of 10 open-source and 2 closed-source LVLMs, showing that high-level perception tasks significantly challenge existing LVLMs. The state-of-the-art GPT-4o only achieves an accuracy of $56\%$ on Yes/No questions, compared with $74\%$ in low-level scenarios. Furthermore, the performance gap between natural and manipulated images indicates that current LVLMs do not generalize in understanding the visual semantics of synthetic images as humans do. Our data and code are publicly available at https://github.com/GuanzhenLi/MVP-Bench.
- Abstract(参考訳): 人間は、低レベルの物体認識や行動理解のような高レベルの意味解釈を含む、複数のレベルで視覚的知覚を行う。
低レベルの細部における微妙な違いは、高レベルの知覚に大きな変化をもたらす可能性がある。
例えば、銃を持った人が持っていた買い物袋を代用することは、暴力行為を示唆し、犯罪行為や暴力行為を暗示する。
様々なマルチモーダルタスクの大幅な進歩にもかかわらず、LVLM(Large Visual-Language Models)はそのようなマルチレベル視覚知覚を行う能力について未解明のままである。
LVLMの低レベルと高レベルの両方の視覚知覚を体系的に評価する最初の視覚言語ベンチマークであるMVP-Benchを導入する。
本研究では,自然画像と合成画像にMVP-Benchを構築し,操作したコンテンツがモデル知覚に与える影響について検討する。
MVP-Benchを用いて、10個のオープンソースと2個のクローズドソースのLVLMの視覚的認識を診断し、高いレベルの認識タスクが既存のLVLMに大きく挑戦していることを示す。
最先端の GPT-4o は,低レベルのシナリオでは 754 % に対して,Yes/No の質問では 56 % の精度しか達成していない。
さらに、自然画像と操作画像のパフォーマンスギャップは、現在のLVLMが人間のように合成画像の視覚的意味を理解できないことを示している。
私たちのデータとコードはhttps://github.com/GuanzhenLi/MVP-Bench.comで公開されています。
関連論文リスト
- Explore the Hallucination on Low-level Perception for MLLMs [83.12180878559295]
低レベルの視覚知覚と理解タスクにおけるMLLMの自己認識性を定義し,評価することを目的としている。
低レベルの視覚に対する人間の反応をシミュレートするベンチマーク設定であるQL-Benchを提案する。
いくつかのモデルでは、ロバストな低レベル視覚能力を示すが、その自己認識性は比較的未発達である。
論文 参考訳(メタデータ) (2024-09-15T14:38:29Z) - Look, Compare, Decide: Alleviating Hallucination in Large Vision-Language Models via Multi-View Multi-Path Reasoning [24.270713960060142]
LVLM(Large Vision-Language Models)は、マルチモーダルコンテキスト理解における印象的な機能を示す。
彼らはまだ、画像の内容と矛盾する出力を生成することを参照して幻覚に悩まされている。
LVLMの生来の能力を最大限活用して幻覚を減らすことを目的とした、トレーニングフリーフレームワークである textbfMVP を提案する。
論文 参考訳(メタデータ) (2024-08-30T09:40:10Z) - Visual Description Grounding Reduces Hallucinations and Boosts Reasoning in LVLMs [52.497823009176074]
LVLM(Large Vision-Language Models)はしばしば、幻覚として知られる事実情報を誤認する応答を生成する。
視覚的知覚の向上とLVLMの推論能力の向上を目的とした学習自由度手法であるVisual Description Grounded Decoding (VDGD)を紹介した。
論文 参考訳(メタデータ) (2024-05-24T16:21:59Z) - Finer: Investigating and Enhancing Fine-Grained Visual Concept Recognition in Large Vision Language Models [57.95366341738857]
詳細な分析では、命令調整されたLVLMはモダリティギャップを示し、同じ概念に対応するテキスト入力と視覚入力の相違を示す。
我々は,LVLMの細粒度視覚理解能力を評価するために,複数の属性中心評価ベンチマークであるFinerを提案し,説明可能性を大幅に改善した。
論文 参考訳(メタデータ) (2024-02-26T05:43:51Z) - Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs [50.77984109941538]
近年のマルチモーダル LLM の視覚能力は, いまだに系統的な欠点を呈している。
CLIP-blind pairs'(CLIP-blind pairs)を識別する。
様々なCLIPに基づく視覚・言語モデルの評価を行い、CLIPモデルに挑戦する視覚パターンとマルチモーダルLLMの問題との間に顕著な相関関係を見出した。
論文 参考訳(メタデータ) (2024-01-11T18:58:36Z) - VCoder: Versatile Vision Encoders for Multimodal Large Language Models [46.95488342139727]
MLLM(Multimodal Large Language Models)は近年,視覚言語タスクにおける優れたパフォーマンスを実現している。
しかし、ある画像内のエンティティを識別またはカウントするよう促された場合、既存のMLLMシステムは失敗する。
We propose using Versatile vision enCoders (VCoder) as perception eyes for Multimodal LLMs。
論文 参考訳(メタデータ) (2023-12-21T18:49:47Z) - Good Questions Help Zero-Shot Image Reasoning [110.1671684828904]
質問駆動型視覚探索(QVix)は、大規模視覚言語モデル(LVLM)の探索能力を高める新しい促進戦略である。
QVixは、視覚的なシーンのより広い探索を可能にし、視覚的な質問応答や視覚的エンターテイメントといったタスクにおけるLVLMの推論精度と深さを改善している。
我々は,ScienceQAやきめ細かな視覚分類など,難易度の高いゼロショット視覚言語ベンチマークの評価を行い,QVixが既存の手法よりも優れていることを示した。
論文 参考訳(メタデータ) (2023-12-04T03:18:51Z) - Mitigating Hallucination in Visual Language Models with Visual
Supervision [33.05550629039951]
大きな視覚言語モデル(LVLM)は幻覚に悩まされている。
鍵となる問題は、マルチモーダルなコンテキストで詳細なコンテンツを理解できないことだ。
本稿では,LVLMのトレーニングを容易にするために,より詳細な視覚アノテーションとより識別可能な視覚モデルを提案する。
論文 参考訳(メタデータ) (2023-11-27T09:30:02Z) - TouchStone: Evaluating Vision-Language Models by Language Models [91.69776377214814]
本稿では,LVLMの様々な能力を総合的に評価するために,強大な言語モデルを用いた評価手法を提案する。
オープンワールドイメージと質問からなる包括的ビジュアル対話データセットTouchStoneを構築し,5つの主要な機能カテゴリと27のサブタスクをカバーした。
GPT-4のような強力なLVLMは、テキスト機能のみを活用することで、対話品質を効果的に評価できることを実証する。
論文 参考訳(メタデータ) (2023-08-31T17:52:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。