論文の概要: Can VLMs Recall Factual Associations From Visual References?
- arxiv url: http://arxiv.org/abs/2508.18297v1
- Date: Fri, 22 Aug 2025 16:47:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-27 17:42:38.501996
- Title: Can VLMs Recall Factual Associations From Visual References?
- Title(参考訳): VLMは視覚的参照からファクトアソシエーションをリコールできるか?
- Authors: Dhananjay Ashok, Ashutosh Chaubey, Hirona J. Arai, Jonathan May, Jesse Thomason,
- Abstract要約: 視覚言語モデル(VLM)のマルチモーダルグラウンドリングにおける系統的欠陥を同定する。
VLMは、実体のイメージ表現に頼らざるを得ず、現実の知識を思い出す能力を持っている。
このようなリンク障害は、モデル内部状態における異なるパターンの表現と相関していることを示す。
- 参考スコア(独自算出の注目度): 30.821053378797007
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Through a controlled study, we identify a systematic deficiency in the multimodal grounding of Vision Language Models (VLMs). While VLMs can recall factual associations when provided a textual reference to an entity; their ability to do so is significantly diminished when the reference is visual instead. Forcing VLMs to rely on image representations of an entity halves their ability to recall factual knowledge, suggesting that VLMs struggle to link their internal knowledge of an entity with its image representation. We show that such linking failures are correlated with the expression of distinct patterns in model internal states, and that probes on these internal states achieve over 92% accuracy at flagging cases where the VLM response is unreliable. These probes can be applied, without retraining, to identify when a VLM will fail to correctly answer a question that requires an understanding of multimodal input. When used to facilitate selective prediction on a visual question answering task, the probes increase coverage by 7.87% (absolute) while also reducing the risk of error by 0.9% (absolute). Addressing the systematic, detectable deficiency is an important avenue in language grounding, and we provide informed recommendations for future directions.
- Abstract(参考訳): 制御された研究を通して、視覚言語モデル(VLM)のマルチモーダルグラウンドリングにおける系統的欠陥を同定する。
VLMは、エンティティへのテキスト参照を提供すると、事実関連を思い出すことができるが、参照が視覚的であると、それを行う能力は著しく低下する。
VLMは、実体のイメージ表現に頼らざるを得ず、実体の内的知識とイメージ表現を結びつけるのに苦戦していることを示唆している。
このようなリンク障害はモデル内部状態の異なるパターンの表現と相関し,VLM応答が信頼できない場合に,これらの内部状態のプローブが92%以上の精度が得られることを示す。
これらのプローブは、再訓練せずに適用でき、VLMがマルチモーダル入力の理解を必要とする問題に正しく答えられないかどうかを特定できる。
視覚的質問応答タスクの選択的予測を容易にするために使用されると、プローブはカバレッジを7.87%(絶対)増加させ、エラーのリスクを0.9%(絶対)減少させる。
言語基盤の体系的かつ検出可能な欠損に対処することは重要な道のりであり,今後の方向性を示唆する勧告を提供する。
関連論文リスト
- Right this way: Can VLMs Guide Us to See More to Answer Questions? [11.693356269848517]
質問応答シナリオでは、人間が利用可能な情報が十分かどうかを評価し、必要であれば追加情報を求める。
対照的に、視覚言語モデル(VLM)は、情報の十分性を評価することなく、直接的かつ一発的な応答を生成するのが一般的である。
本研究は,VLMにおける情報アセスメントと取得のギャップを狭める可能性を示し,その性能を人間に近づけるものである。
論文 参考訳(メタデータ) (2024-11-01T06:43:54Z) - MarvelOVD: Marrying Object Recognition and Vision-Language Models for Robust Open-Vocabulary Object Detection [107.15164718585666]
開語彙検出コンテキスト下でのVLMの偏り予測の根本原因について検討した。
私たちの観察は、非常に優れたトレーニングターゲットを生成する、単純で効果的なパラダイム、コード化されたMarvelOVDにつながります。
我々の手法は、他の最先端技術よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2024-07-31T09:23:57Z) - BEAF: Observing BEfore-AFter Changes to Evaluate Hallucination in Vision-language Models [20.697019266074747]
視覚言語モデル(VLM)は、視覚エンコーダと大型言語モデル(LLM)を組み合わせて世界を認識する。
近年の研究では、VLMは幻覚に弱いことが示されている。
我々は、True Understanding (TU)、IGnorance (IG)、StuBbornness (SB)、InDecision (ID)といった新しいメトリクスを紹介します。
論文 参考訳(メタデータ) (2024-07-18T12:11:12Z) - Can Large Vision-Language Models Correct Semantic Grounding Errors By Themselves? [61.899791071654654]
本稿では,視覚言語モデル(VLM)が,フィードバックの「受信」によって意味的接地を改善することができるかどうかを検討する。
適切に刺激すれば、VLMは1ステップと反復の両方でフィードバックを活用できる。
検討したすべての設定において、すべてのモデルにまたがる自動フィードバックを用いて、基底精度を一貫して改善することを示す。
論文 参考訳(メタデータ) (2024-04-09T17:59:04Z) - LLMs' Reading Comprehension Is Affected by Parametric Knowledge and Struggles with Hypothetical Statements [59.71218039095155]
言語モデルの自然言語理解(NLU)能力を評価するための主要な手段として、読解理解(RC)があげられる。
文脈がモデルの内部知識と一致している場合、モデルの回答がコンテキスト理解に由来するのか、あるいは内部情報から生じるのかを識別することは困難である。
この問題に対処するために、架空の事実や実体に基づいて、想像上のデータにRCを使うことを提案する。
論文 参考訳(メタデータ) (2024-04-09T13:08:56Z) - ViCor: Bridging Visual Understanding and Commonsense Reasoning with Large Language Models [27.5219975853389]
事前学習された視覚・言語モデル (VLM) と大規模言語モデル (LLM) は,様々な視覚コモンセンス推論問題に長けている。
画像内容以外の結論を推測することが目的である場合、VLMは困難に直面し、LLMは十分な視覚的証拠を与えられた場合、その答えをよく推測するために常識を使用することができる。
論文 参考訳(メタデータ) (2023-10-09T17:10:35Z) - Rephrase, Augment, Reason: Visual Grounding of Questions for Vision-Language Models [59.05769810380928]
Rephrase, Augment and Reason (RepARe) は勾配のないフレームワークで、基礎となる視覚言語モデルを用いて画像に関する詳細な情報を抽出する。
その結果、VQAv2では3.85%(絶対)、A-OKVQAでは6.41%、VizWizでは7.94%の増加が見られた。
論文 参考訳(メタデータ) (2023-10-09T16:57:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。