論文の概要: Visual Cropping Improves Zero-Shot Question Answering of Multimodal
Large Language Models
- arxiv url: http://arxiv.org/abs/2310.16033v1
- Date: Tue, 24 Oct 2023 17:48:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 17:28:40.202001
- Title: Visual Cropping Improves Zero-Shot Question Answering of Multimodal
Large Language Models
- Title(参考訳): マルチモーダル大言語モデルのゼロショット質問応答を改善するビジュアルクロップ
- Authors: Jiarui Zhang, Mahyar Khayatkhoei, Prateek Chhikara, Filip Ilievski
- Abstract要約: マルチモーダル大言語モデル (LLM) は近年,視覚質問応答 (VQA) におけるゼロショット精度を有望に達成している。
視覚的質問に答える際のゼロショット精度は、その質問の被写体の大きさに非常に敏感であり、最大で46%まで低下することを示した。
マルチモーダルLCMのゼロショット性能を向上させるため, 自動収穫方式を3つ提案する。
- 参考スコア(独自算出の注目度): 12.598351373932234
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Large Language Models (LLMs) have recently achieved promising
zero-shot accuracy on visual question answering (VQA) -- a fundamental task
affecting various downstream applications and domains. Given the great
potential for the broad use of these models, it is important to investigate
their limitations in dealing with different image and question properties. In
this work, we investigate whether multimodal LLMs can perceive small details as
well as large details in images. In particular, we show that their zero-shot
accuracy in answering visual questions is very sensitive to the size of the
visual subject of the question, declining up to $46\%$ with size. Furthermore,
we show that this effect is causal by observing that human visual cropping can
significantly mitigate their sensitivity to size. Inspired by the usefulness of
human cropping, we then propose three automatic visual cropping methods as
inference time mechanisms to improve the zero-shot performance of multimodal
LLMs. We study their effectiveness on four popular VQA datasets, and a subset
of the VQAv2 dataset tailored towards fine visual details. Our findings suggest
that multimodal LLMs should be used with caution in detail-sensitive VQA
applications, and that visual cropping is a promising direction to improve
their zero-shot performance. Our code and data are publicly available.
- Abstract(参考訳): マルチモーダル大規模言語モデル(LLM)は、最近、様々な下流アプリケーションやドメインに影響を及ぼす基本的なタスクである視覚的質問応答(VQA)において、ゼロショットの精度を約束している。
これらのモデルが広範に使用される可能性を考えると、異なる画像と質問特性を扱う際の制限を検討することが重要である。
本研究では,マルチモーダルLLMが画像の細部だけでなく細部も知覚できるかどうかを検討する。
特に,視覚的質問に対する回答におけるゼロショット精度は,被写体の大きさに非常に敏感であり,最大4,6\%まで低下することを示した。
さらに,この効果は,人間の視覚のトリッピングが,そのサイズに対する感受性を著しく低下させる可能性があることを観察することによる因果性を示す。
そこで本研究では,マルチモーダルLCMのゼロショット性能を向上させるために,推定時間機構として3つの自動収穫法を提案する。
VQAv2データセットのサブセットと4つのVQAv2データセットについて,その有効性を検討した。
以上の結果から,マルチモーダルLCMは細部感応性VQAアプリケーションに注意を払って使用すべきであり,視覚的トリミングはゼロショット性能を向上させる上で有望な方向であることが示唆された。
私たちのコードとデータは公開されています。
関連論文リスト
- Rethinking VLMs and LLMs for Image Classification [6.550471260627169]
大きな言語モデル(LLM)は、新しい機能を実現するために、Visual Language Models(VLM)と統合されつつある。
オブジェクト認識やシーン認識では,LLMを使わないVLMの方が,VLMよりも優れた性能が得られることを示す。
本稿では,視覚的タスクをタスクに適したモデルに効率的にルーティングする,比較的小さなLCMを含む軽量な修正法を提案する。
論文 参考訳(メタデータ) (2024-10-03T23:40:21Z) - Reasoning Paths with Reference Objects Elicit Quantitative Spatial Reasoning in Large Vision-Language Models [61.899791071654654]
定量的空間的推論のために設計された5つのカテゴリに271の質問があるベンチマークQ-Spatial Benchを導入する。
本課題における最先端の視覚言語モデル(VLM)の性能について検討する。
本研究では,参照オブジェクトを視覚的手がかりとして,VLMが量的空間的疑問に答えることを奨励するゼロショットプロンプト技術であるSpatialPromptを開発した。
論文 参考訳(メタデータ) (2024-09-15T16:45:42Z) - Understanding Information Storage and Transfer in Multi-modal Large Language Models [51.20840103605018]
本研究では,マルチモーダル大規模言語モデルを用いて,現実的な視覚的質問応答タスクにおいて情報処理を行う方法について検討する。
鍵となる発見は、これらのMLLMが情報記憶のためにずっと古いレイヤの自己注意ブロックに依存していることを示している。
モデル編集アルゴリズムであるMultEditを導入し、誤りを訂正し、MLLMに新しいロングテール情報を挿入する。
論文 参考訳(メタデータ) (2024-06-06T16:35:36Z) - Exploring Perceptual Limitation of Multimodal Large Language Models [57.567868157293994]
我々は、いくつかの最先端MLLMにおける小さな視覚物体の知覚を定量的に研究する。
この制限に寄与できる4つの独立した要因を特定します。
オブジェクトの品質が低く、オブジェクトサイズも小さいため、MLLMの視覚的質問に答える能力は独立して低下する。
論文 参考訳(メタデータ) (2024-02-12T03:04:42Z) - Q-Bench+: A Benchmark for Multi-modal Foundation Models on Low-level Vision from Single Images to Pairs [71.07108539262721]
低レベルの視覚に関連する人間の言語応答をエミュレートするためのベンチマーク設定を設計する。
我々は,MLLMの低レベルの認識関連質問応答と記述評価を,単一画像から画像ペアへ拡張する。
複数のMLLMが単一の画像に対して十分な低レベルの視覚能力を持つことを示したが、GPT-4Vのみが人間よりも高い精度で比較できる。
論文 参考訳(メタデータ) (2024-02-11T06:44:11Z) - Mementos: A Comprehensive Benchmark for Multimodal Large Language Model
Reasoning over Image Sequences [80.54979242912944]
本稿では,MLLMの逐次画像推論能力を評価するためのベンチマークであるMementosを紹介する。
MLLMは与えられた画像列の動的情報を正確に記述するのに苦労しており、しばしば幻覚/誤表現につながる。
論文 参考訳(メタデータ) (2024-01-19T07:10:13Z) - Rephrase, Augment, Reason: Visual Grounding of Questions for Vision-Language Models [59.05769810380928]
Rephrase, Augment and Reason (RepARe) は勾配のないフレームワークで、基礎となる視覚言語モデルを用いて画像に関する詳細な情報を抽出する。
その結果、VQAv2では3.85%(絶対)、A-OKVQAでは6.41%、VizWizでは7.94%の増加が見られた。
論文 参考訳(メタデータ) (2023-10-09T16:57:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。