論文の概要: Where do Large Vision-Language Models Look at when Answering Questions?
- arxiv url: http://arxiv.org/abs/2503.13891v1
- Date: Tue, 18 Mar 2025 04:34:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-19 14:16:09.780264
- Title: Where do Large Vision-Language Models Look at when Answering Questions?
- Title(参考訳): 大規模視覚言語モデルは質問に対する答えをどこで見るのか?
- Authors: Xiaoying Xing, Chia-Wen Kuo, Li Fuxin, Yulei Niu, Fan Chen, Ming Li, Ying Wu, Longyin Wen, Sijie Zhu,
- Abstract要約: LVLM(Large Vision-Language Models)は、視覚言語理解と推論タスクにおいて有望な性能を示す。
我々は既存のヒートマップ可視化手法を拡張し、オープンな視覚的質問応答のためのLVLMをサポートする。
我々は,視覚情報を必要とするベンチマークにおいて,最先端のLVLMを包括的に分析する。
- 参考スコア(独自算出の注目度): 35.39354978511109
- License:
- Abstract: Large Vision-Language Models (LVLMs) have shown promising performance in vision-language understanding and reasoning tasks. However, their visual understanding behaviors remain underexplored. A fundamental question arises: to what extent do LVLMs rely on visual input, and which image regions contribute to their responses? It is non-trivial to interpret the free-form generation of LVLMs due to their complicated visual architecture (e.g., multiple encoders and multi-resolution) and variable-length outputs. In this paper, we extend existing heatmap visualization methods (e.g., iGOS++) to support LVLMs for open-ended visual question answering. We propose a method to select visually relevant tokens that reflect the relevance between generated answers and input image. Furthermore, we conduct a comprehensive analysis of state-of-the-art LVLMs on benchmarks designed to require visual information to answer. Our findings offer several insights into LVLM behavior, including the relationship between focus region and answer correctness, differences in visual attention across architectures, and the impact of LLM scale on visual understanding. The code and data are available at https://github.com/bytedance/LVLM_Interpretation.
- Abstract(参考訳): LVLM(Large Vision-Language Models)は、視覚言語理解と推論タスクにおいて有望な性能を示す。
しかし、その視覚的理解行動は未解明のままである。
LVLMはどの範囲において視覚入力に依存しており、どの画像領域がその応答に寄与するか?
複雑な視覚アーキテクチャ(例えば、多重エンコーダ、マルチ解像度)と可変長出力のため、LVLMのフリーフォーム生成を解釈するのは簡単ではない。
本稿では,既存のヒートマップ可視化手法(例えばiGOS++)を拡張し,オープンな視覚的質問応答のためのLVLMをサポートする。
生成した回答と入力画像の関係を反映した視覚的関連トークンを選択する手法を提案する。
さらに、視覚情報を必要とするベンチマーク上で、最先端のLVLMを包括的に分析する。
この結果から,焦点領域と回答の正しさの関係,アーキテクチャ間の視覚的注意の相違,LLMスケールが視覚的理解に与える影響など,LVLMの行動に関するいくつかの知見が得られた。
コードとデータはhttps://github.com/bytedance/LVLM_Interpretationで公開されている。
関連論文リスト
- Beyond Sight: Towards Cognitive Alignment in LVLM via Enriched Visual Knowledge [24.538839144639653]
LVLM(Large Vision-Language Models)は、学習済みのビジョンと言語コンポーネントを個別に統合する。
これらのモデルはしばしば、視覚エンコーダ(VE)と大言語モデル(LLM)の「認知的不整合」の中核的な問題に遭遇する。
論文 参考訳(メタデータ) (2024-11-25T18:33:14Z) - Targeted Visual Prompting for Medical Visual Question Answering [3.600327818936722]
マルチモーダル・大規模言語モデル(MLLM)は、古典的なモデルアーキテクチャの代替として登場した。
単純な視覚的誤りは、これらのモデルの実際の視覚的理解能力に疑問を投げかけた。
本稿では,MLLMに領域ベースの質問機能を持たせるための視覚的プロンプトを提案する。
論文 参考訳(メタデータ) (2024-08-06T08:58:20Z) - IDA-VLM: Towards Movie Understanding via ID-Aware Large Vision-Language Model [52.697180472760635]
本稿では,複数の視覚シナリオにまたがるキャラクタ・アイデンティティ・メモリと認識の可能性について検討する。
我々は,ID参照を用いた視覚的指導チューニングを提案し,ID対応大規模視覚言語モデル IDA-VLM を開発した。
本研究は,4次元にわたるインスタンスIDのメモリと認識におけるLVLMの検証を行うための,新しいベンチマークMM-IDを提案する。
論文 参考訳(メタデータ) (2024-07-10T12:11:59Z) - Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge [76.45868419402265]
マルチモーダルな大言語モデル(MLLM)は、膨大な高品質の画像テキストデータセットをトレーニングすることで、大きな進歩を遂げている。
しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMにとって困難である。
本稿では、特殊な視覚モデルから派生した細粒度の外部知識をMLLMに統合する新しい視覚的プロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-07-05T17:43:30Z) - From Redundancy to Relevance: Information Flow in LVLMs Across Reasoning Tasks [33.476693301050275]
我々は,視覚的質問応答と画像キャプションタスクのために,様々なLVLMの切り抜き戦略を用いて実験を行った。
視覚的表現の貢献の観点から情報の流れを探索することにより、浅い層に収束する傾向にあるが、より深い層に分散する傾向があることを観察する。
論文 参考訳(メタデータ) (2024-06-04T13:52:54Z) - Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。
この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。
実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文 参考訳(メタデータ) (2024-03-19T17:59:52Z) - RelationVLM: Making Large Vision-Language Models Understand Visual Relations [66.70252936043688]
本稿では,複数の画像にまたがっても動画内でも,様々なレベルの関係を解釈できる大規模視覚言語モデルであるRelationVLMを提案する。
具体的には,多段階的な関係認識学習手法とそれに対応するデータ構成戦略を考案し,意味的関係を理解する能力を備えた関係VLMを提案する。
論文 参考訳(メタデータ) (2024-03-19T15:01:19Z) - V*: Guided Visual Search as a Core Mechanism in Multimodal LLMs [34.211455081027964]
V*は、LLMの世界知識を利用して効率的なビジュアルクエリを行うビジュアルサーチ機構である。
本研究は,マルチモーダルシステムに視覚検索機能を組み込むことの必要性を強調した。
論文 参考訳(メタデータ) (2023-12-21T18:55:06Z) - Good Questions Help Zero-Shot Image Reasoning [110.1671684828904]
質問駆動型視覚探索(QVix)は、大規模視覚言語モデル(LVLM)の探索能力を高める新しい促進戦略である。
QVixは、視覚的なシーンのより広い探索を可能にし、視覚的な質問応答や視覚的エンターテイメントといったタスクにおけるLVLMの推論精度と深さを改善している。
我々は,ScienceQAやきめ細かな視覚分類など,難易度の高いゼロショット視覚言語ベンチマークの評価を行い,QVixが既存の手法よりも優れていることを示した。
論文 参考訳(メタデータ) (2023-12-04T03:18:51Z) - Rephrase, Augment, Reason: Visual Grounding of Questions for Vision-Language Models [59.05769810380928]
Rephrase, Augment and Reason (RepARe) は勾配のないフレームワークで、基礎となる視覚言語モデルを用いて画像に関する詳細な情報を抽出する。
その結果、VQAv2では3.85%(絶対)、A-OKVQAでは6.41%、VizWizでは7.94%の増加が見られた。
論文 参考訳(メタデータ) (2023-10-09T16:57:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。