論文の概要: ViCrop: Perceiving Small Visual Details in Zero-shot Visual Question
Answering with Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2310.16033v2
- Date: Mon, 1 Jan 2024 23:50:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-04 16:33:27.881542
- Title: ViCrop: Perceiving Small Visual Details in Zero-shot Visual Question
Answering with Multimodal Large Language Models
- Title(参考訳): ViCrop: マルチモーダル大言語モデルを用いたゼロショット視覚質問応答における小さな視覚的詳細認識
- Authors: Jiarui Zhang, Mahyar Khayatkhoei, Prateek Chhikara, Filip Ilievski
- Abstract要約: 視覚的質問に対するMLLMのゼロショット精度は,その質問に関連する被写体の大きさに非常に敏感であることを示す。
MLLMのゼロショットVQAを向上させるために,自動視覚トリミングを利用するフレームワークであるViCropを提案する。
- 参考スコア(独自算出の注目度): 12.598351373932234
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Large Language Models (MLLMs) have recently achieved promising
zero-shot accuracy on visual question answering (VQA) -- a fundamental task
affecting various downstream applications and domains. Given the great
potential for the broad use of these models, it is important to investigate
their limitations in dealing with different image and question properties. In
this work, we investigate whether MLLMs can perceive details as well as larger
components in images. In particular, we show that their zero-shot accuracy in
answering visual questions is very sensitive to the size of the visual subject
related to the question, declining up to $45.91\%$ with size. Furthermore, we
show that this effect is causal by observing that human visual cropping can
significantly mitigate their sensitivity to size. To scale up the usefulness of
human cropping, we propose ViCrop, a general framework that utilizes automatic
visual cropping to enhance zero-shot VQA of MLLMs. We construct five variants
of ViCrop leveraging either external localization models or the decision
process of the given MLLM itself. Our results show that ViCrop improves MLLMs'
zero-shot accuracy across different VQA datasets, for example, enhances
BLIP2-T5's performance by $32.23\%$ on the TextVQA test set. To facilitate
further investigation of MLLMs' behaviors, our code is publicly released.
- Abstract(参考訳): マルチモーダル大規模言語モデル(MLLM)は、最近、様々な下流アプリケーションやドメインに影響を及ぼす基本的なタスクである視覚的質問応答(VQA)において、ゼロショットの精度を約束している。
これらのモデルが広範に使用される可能性を考えると、異なる画像と質問特性を扱う際の制限を検討することが重要である。
本研究では,MLLMが画像の構成要素だけでなく細部も知覚できるかどうかを検討する。
特に、視覚的質問に対する回答におけるゼロショット精度は、質問に関連する視覚的主題のサイズに非常に敏感であり、サイズに応じて45.91\%まで低下することを示す。
さらに,この効果は,人間の視覚のトリッピングが,そのサイズに対する感受性を著しく低下させる可能性があることを観察することによる因果性を示す。
人間の収穫の有用性を増大させるため,自動収穫技術を用いてMLLMのゼロショットVQAを向上する一般的なフレームワークであるViCropを提案する。
所与のMLLM自体の外部ローカライゼーションモデルまたは決定プロセスを利用する5種類のViCropを構築した。
その結果、ViCropは、さまざまなVQAデータセット間でMLLMのゼロショット精度を改善し、例えば、TextVQAテストセットにおいて、BLIP2-T5のパフォーマンスを32.23\%$で向上させることがわかった。
MLLMの動作のさらなる調査を容易にするため,我々のコードは公開されている。
関連論文リスト
- Rethinking VLMs and LLMs for Image Classification [6.550471260627169]
大きな言語モデル(LLM)は、新しい機能を実現するために、Visual Language Models(VLM)と統合されつつある。
オブジェクト認識やシーン認識では,LLMを使わないVLMの方が,VLMよりも優れた性能が得られることを示す。
本稿では,視覚的タスクをタスクに適したモデルに効率的にルーティングする,比較的小さなLCMを含む軽量な修正法を提案する。
論文 参考訳(メタデータ) (2024-10-03T23:40:21Z) - Reasoning Paths with Reference Objects Elicit Quantitative Spatial Reasoning in Large Vision-Language Models [61.899791071654654]
定量的空間的推論のために設計された5つのカテゴリに271の質問があるベンチマークQ-Spatial Benchを導入する。
本課題における最先端の視覚言語モデル(VLM)の性能について検討する。
本研究では,参照オブジェクトを視覚的手がかりとして,VLMが量的空間的疑問に答えることを奨励するゼロショットプロンプト技術であるSpatialPromptを開発した。
論文 参考訳(メタデータ) (2024-09-15T16:45:42Z) - Understanding Information Storage and Transfer in Multi-modal Large Language Models [51.20840103605018]
本研究では,マルチモーダル大規模言語モデルを用いて,現実的な視覚的質問応答タスクにおいて情報処理を行う方法について検討する。
鍵となる発見は、これらのMLLMが情報記憶のためにずっと古いレイヤの自己注意ブロックに依存していることを示している。
モデル編集アルゴリズムであるMultEditを導入し、誤りを訂正し、MLLMに新しいロングテール情報を挿入する。
論文 参考訳(メタデータ) (2024-06-06T16:35:36Z) - Exploring Perceptual Limitation of Multimodal Large Language Models [57.567868157293994]
我々は、いくつかの最先端MLLMにおける小さな視覚物体の知覚を定量的に研究する。
この制限に寄与できる4つの独立した要因を特定します。
オブジェクトの品質が低く、オブジェクトサイズも小さいため、MLLMの視覚的質問に答える能力は独立して低下する。
論文 参考訳(メタデータ) (2024-02-12T03:04:42Z) - Q-Bench+: A Benchmark for Multi-modal Foundation Models on Low-level Vision from Single Images to Pairs [71.07108539262721]
低レベルの視覚に関連する人間の言語応答をエミュレートするためのベンチマーク設定を設計する。
我々は,MLLMの低レベルの認識関連質問応答と記述評価を,単一画像から画像ペアへ拡張する。
複数のMLLMが単一の画像に対して十分な低レベルの視覚能力を持つことを示したが、GPT-4Vのみが人間よりも高い精度で比較できる。
論文 参考訳(メタデータ) (2024-02-11T06:44:11Z) - Mementos: A Comprehensive Benchmark for Multimodal Large Language Model
Reasoning over Image Sequences [80.54979242912944]
本稿では,MLLMの逐次画像推論能力を評価するためのベンチマークであるMementosを紹介する。
MLLMは与えられた画像列の動的情報を正確に記述するのに苦労しており、しばしば幻覚/誤表現につながる。
論文 参考訳(メタデータ) (2024-01-19T07:10:13Z) - Rephrase, Augment, Reason: Visual Grounding of Questions for Vision-Language Models [59.05769810380928]
Rephrase, Augment and Reason (RepARe) は勾配のないフレームワークで、基礎となる視覚言語モデルを用いて画像に関する詳細な情報を抽出する。
その結果、VQAv2では3.85%(絶対)、A-OKVQAでは6.41%、VizWizでは7.94%の増加が見られた。
論文 参考訳(メタデータ) (2023-10-09T16:57:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。