論文の概要: MLLMs Know Where to Look: Training-free Perception of Small Visual Details with Multimodal LLMs
- arxiv url: http://arxiv.org/abs/2502.17422v1
- Date: Mon, 24 Feb 2025 18:54:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:59:34.732642
- Title: MLLMs Know Where to Look: Training-free Perception of Small Visual Details with Multimodal LLMs
- Title(参考訳): MLLMは見るべき場所を知る:マルチモーダルLLMを用いた小さな視覚的詳細のトレーニング不要の知覚
- Authors: Jiarui Zhang, Mahyar Khayatkhoei, Prateek Chhikara, Filip Ilievski,
- Abstract要約: 我々はMLLMが画像に関する質問に答える際に、小さな視覚的詳細を大きなものと同じくらい効果的に知覚できるかどうかを検討する。
本研究では,MLLM自体の内部知識を活用する学習自由な視覚介入手法を提案する。
- 参考スコア(独自算出の注目度): 11.532430076027554
- License:
- Abstract: Multimodal Large Language Models (MLLMs) have experienced rapid progress in visual recognition tasks in recent years. Given their potential integration into many critical applications, it is important to understand the limitations of their visual perception. In this work, we study whether MLLMs can perceive small visual details as effectively as large ones when answering questions about images. We observe that their performance is very sensitive to the size of the visual subject of the question, and further show that this effect is in fact causal by conducting an intervention study. Next, we study the attention patterns of MLLMs when answering visual questions, and intriguingly find that they consistently know where to look, even when they provide the wrong answer. Based on these findings, we then propose training-free visual intervention methods that leverage the internal knowledge of any MLLM itself, in the form of attention and gradient maps, to enhance its perception of small visual details. We evaluate our proposed methods on two widely-used MLLMs and seven visual question answering benchmarks and show that they can significantly improve MLLMs' accuracy without requiring any training. Our results elucidate the risk of applying MLLMs to visual recognition tasks concerning small details and indicate that visual intervention using the model's internal state is a promising direction to mitigate this risk.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は近年,視覚認知タスクの急速な進歩を経験している。
多くの重要なアプリケーションに統合される可能性を考えると、視覚的知覚の限界を理解することが重要である。
本研究では,画像に関する疑問に答える際に,MLLMが小さな視覚的詳細を,大きな視覚的詳細と同じくらい効果的に知覚できるかどうかを検討する。
本研究は,視覚的対象の大きさに非常に敏感であることを示すとともに,介入研究を行うことによって,この効果が実際に因果関係にあることを示すものである。
次に,視覚的質問に答える際のMLLMの注意パターンについて検討し,その答えが間違っていても,視線を常に知っていることを興味深いことに見出した。
これらの知見に基づいて, MLLM自体の内部知識を, 注意と勾配マップの形で活用し, 視覚的細部を微妙に知覚する学習自由な視覚介入手法を提案する。
提案手法を広義のMLLMと7つの視覚的質問応答ベンチマークで評価し,学習を必要とせずにMLLMの精度を大幅に向上させることができることを示す。
本研究は,MLLMを視覚的認識タスクに適用するリスクを明らかにするとともに,モデルの内部状態を用いた視覚介入が,このリスクを軽減するための有望な方向であることを示唆するものである。
関連論文リスト
- Do Multimodal Large Language Models See Like Humans? [50.938168841711445]
MLLM(Multimodal Large Language Models)は、様々なビジョンタスクにおいて、近年の大規模言語モデルの進歩を生かして、印象的な成果を上げている。
MLLMは人間と同じような視覚情報を知覚しているか?
HVSBenchは、人間の視覚を反映する基本的な視覚タスクにおいて、MLLMと人間の視覚システム(HVS)の整合性を評価するために設計された大規模なベンチマークである。
論文 参考訳(メタデータ) (2024-12-12T18:59:25Z) - Explore the Hallucination on Low-level Perception for MLLMs [83.12180878559295]
低レベルの視覚知覚と理解タスクにおけるMLLMの自己認識性を定義し,評価することを目的としている。
低レベルの視覚に対する人間の反応をシミュレートするベンチマーク設定であるQL-Benchを提案する。
いくつかのモデルでは、ロバストな低レベル視覚能力を示すが、その自己認識性は比較的未発達である。
論文 参考訳(メタデータ) (2024-09-15T14:38:29Z) - Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge [76.45868419402265]
マルチモーダルな大言語モデル(MLLM)は、膨大な高品質の画像テキストデータセットをトレーニングすることで、大きな進歩を遂げている。
しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMにとって困難である。
本稿では、特殊な視覚モデルから派生した細粒度の外部知識をMLLMに統合する新しい視覚的プロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-07-05T17:43:30Z) - Exploring Perceptual Limitation of Multimodal Large Language Models [57.567868157293994]
我々は、いくつかの最先端MLLMにおける小さな視覚物体の知覚を定量的に研究する。
この制限に寄与できる4つの独立した要因を特定します。
オブジェクトの品質が低く、オブジェクトサイズも小さいため、MLLMの視覚的質問に答える能力は独立して低下する。
論文 参考訳(メタデータ) (2024-02-12T03:04:42Z) - Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs [50.77984109941538]
近年のマルチモーダル LLM の視覚能力は, いまだに系統的な欠点を呈している。
CLIP-blind pairs'(CLIP-blind pairs)を識別する。
様々なCLIPに基づく視覚・言語モデルの評価を行い、CLIPモデルに挑戦する視覚パターンとマルチモーダルLLMの問題との間に顕著な相関関係を見出した。
論文 参考訳(メタデータ) (2024-01-11T18:58:36Z) - Incorporating Visual Experts to Resolve the Information Loss in
Multimodal Large Language Models [121.83413400686139]
本稿では,MLLMの視覚知覚能力を向上させるために,知識の混合強化機構を提案する。
本稿では,マルチタスクエンコーダとビジュアルツールを既存のMLLM訓練と推論パイプラインに組み込む新しい手法を提案する。
論文 参考訳(メタデータ) (2024-01-06T02:02:34Z) - V*: Guided Visual Search as a Core Mechanism in Multimodal LLMs [34.211455081027964]
V*は、LLMの世界知識を利用して効率的なビジュアルクエリを行うビジュアルサーチ機構である。
本研究は,マルチモーダルシステムに視覚検索機能を組み込むことの必要性を強調した。
論文 参考訳(メタデータ) (2023-12-21T18:55:06Z) - Towards Perceiving Small Visual Details in Zero-shot Visual Question
Answering with Multimodal LLMs [12.598351373932234]
MLLMは画像の細部だけでなく細部までも知覚できるかどうかを検討する。
視覚的質問に対する回答におけるゼロショット精度は,視覚的対象の大きさに非常に敏感であることを示す。
MLLMのゼロショット性能を改善するために,5つの視覚的トリミング法を提案する。
論文 参考訳(メタデータ) (2023-10-24T17:48:04Z) - From CLIP to DINO: Visual Encoders Shout in Multi-modal Large Language
Models [36.41816380074965]
大規模言語モデル(MLLM)における視覚エンコーダの有効性について検討する。
以上の結果から,CLIPの浅層構造は,接地や領域理解といったきめ細かいタスクに特に有利であることがわかった。
我々は,CLIPとDINOをMergingと統合したシンプルな機能統合戦略であるCOMMを提案する。
論文 参考訳(メタデータ) (2023-10-13T02:41:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。