論文の概要: Towards Perceiving Small Visual Details in Zero-shot Visual Question
Answering with Multimodal LLMs
- arxiv url: http://arxiv.org/abs/2310.16033v3
- Date: Mon, 12 Feb 2024 05:00:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-13 21:55:27.172225
- Title: Towards Perceiving Small Visual Details in Zero-shot Visual Question
Answering with Multimodal LLMs
- Title(参考訳): マルチモーダルllmを用いたゼロショット視覚質問応答における小さな視覚詳細の知覚に向けて
- Authors: Jiarui Zhang, Mahyar Khayatkhoei, Prateek Chhikara, Filip Ilievski
- Abstract要約: MLLMは画像の細部だけでなく細部までも知覚できるかどうかを検討する。
視覚的質問に対する回答におけるゼロショット精度は,視覚的対象の大きさに非常に敏感であることを示す。
MLLMのゼロショット性能を改善するために,5つの視覚的トリミング法を提案する。
- 参考スコア(独自算出の注目度): 12.598351373932234
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Large Language Models (MLLMs) have recently achieved promising
zero-shot accuracy on visual question answering (VQA) -- a fundamental task
affecting various downstream applications and domains. Given the great
potential for the broad use of these models, it is important to investigate
their limitations in dealing with different image and question properties. In
this work, we investigate whether MLLMs can perceive small details as well as
large details in images. In particular, we show that their zero-shot accuracy
in answering visual questions is very sensitive to the size of the visual
subject of the question, declining up to 46% with size. Furthermore, we show
that this effect is causal by observing that human visual cropping can
significantly mitigate their sensitivity to size. Inspired by the usefulness of
human cropping, we then propose five automatic visual cropping methods --
leveraging either external localization models or the decision process of the
given MLLM itself -- as inference time mechanisms to improve the zero-shot
performance of MLLMs. We study their effectiveness on four popular VQA
datasets, and a subset of the VQAv2 dataset tailored towards fine visual
details. Our findings suggest that MLLMs should be used with caution in
detail-sensitive VQA applications, and that visual cropping is a promising
direction to improve their zero-shot performance. To facilitate further
investigation of MLLMs' behaviors, our code and data are publicly released.
- Abstract(参考訳): マルチモーダル大規模言語モデル(MLLM)は、最近、様々な下流アプリケーションやドメインに影響を及ぼす基本的なタスクである視覚的質問応答(VQA)において、ゼロショットの精度を約束している。
これらのモデルが広範に使用される可能性を考えると、異なる画像と質問特性を扱う際の制限を検討することが重要である。
本研究では,MLLMが画像の細部だけでなく細部も知覚できるかどうかを検討する。
特に,視覚的質問への回答におけるゼロショット精度は,質問の視覚的主題の大きさに非常に敏感であり,最大で46%まで低下することが示された。
さらに,この効果は,人間の視覚のトリッピングが,そのサイズに対する感受性を著しく低下させる可能性があることを観察することによる因果性を示す。
次に,人間の収穫の有用性に着想を得て,MLLMのゼロショット性能を向上させるための推論時間機構として,外部局所化モデルと所与のMLLM自体の決定過程を平均化する5つの視覚的収穫法を提案する。
VQAv2データセットのサブセットと4つのVQAv2データセットについて,その有効性を検討した。
以上の結果から,MLLMは細部感応性VQAアプリケーションに注意を払って使用すべきであり,視覚的トリミングはゼロショット性能を向上させる上で有望な方向であることを示唆した。
MLLMの動作のさらなる調査を容易にするため、コードとデータを公開している。
関連論文リスト
- Understanding Information Storage and Transfer in Multi-modal Large Language Models [51.20840103605018]
本研究では,マルチモーダル大規模言語モデルを用いて,現実的な視覚的質問応答タスクにおいて情報処理を行う方法について検討する。
鍵となる発見は、これらのMLLMが情報記憶のためにずっと古いレイヤの自己注意ブロックに依存していることを示している。
モデル編集アルゴリズムであるMultEditを導入し、誤りを訂正し、MLLMに新しいロングテール情報を挿入する。
論文 参考訳(メタデータ) (2024-06-06T16:35:36Z) - Multi-modal Auto-regressive Modeling via Visual Words [96.25078866446053]
本稿では,視覚的特徴を大規模多モードモデルの語彙上の確率分布にマッピングする視覚的単語の概念を提案する。
さらに、LMM内の意味空間における視覚的特徴の分布と、視覚情報を表現するためにテキスト埋め込みを使用することの可能性について検討する。
論文 参考訳(メタデータ) (2024-03-12T14:58:52Z) - Exploring Perceptual Limitation of Multimodal Large Language Models [57.567868157293994]
我々は、いくつかの最先端MLLMにおける小さな視覚物体の知覚を定量的に研究する。
この制限に寄与できる4つの独立した要因を特定します。
オブジェクトの品質が低く、オブジェクトサイズも小さいため、MLLMの視覚的質問に答える能力は独立して低下する。
論文 参考訳(メタデータ) (2024-02-12T03:04:42Z) - A Benchmark for Multi-modal Foundation Models on Low-level Vision: from
Single Images to Pairs [76.24832641793621]
低レベルの視覚に関連する人間の言語応答をエミュレートするためのベンチマーク設定を設計する。
我々は,MLLMの低レベルの認識関連質問応答と記述評価を,単一画像から画像ペアへ拡張する。
複数のMLLMが単一の画像に対して十分な低レベルの視覚能力を持つことを示したが、GPT-4Vのみが人間よりも高い精度で比較できる。
論文 参考訳(メタデータ) (2024-02-11T06:44:11Z) - Mementos: A Comprehensive Benchmark for Multimodal Large Language Model
Reasoning over Image Sequences [80.54979242912944]
本稿では,MLLMの逐次画像推論能力を評価するためのベンチマークであるMementosを紹介する。
MLLMは与えられた画像列の動的情報を正確に記述するのに苦労しており、しばしば幻覚/誤表現につながる。
論文 参考訳(メタデータ) (2024-01-19T07:10:13Z) - Rephrase, Augment, Reason: Visual Grounding of Questions for Vision-Language Models [59.05769810380928]
Rephrase, Augment and Reason (RepARe) は勾配のないフレームワークで、基礎となる視覚言語モデルを用いて画像に関する詳細な情報を抽出する。
その結果、VQAv2では3.85%(絶対)、A-OKVQAでは6.41%、VizWizでは7.94%の増加が見られた。
論文 参考訳(メタデータ) (2023-10-09T16:57:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。