論文の概要: Do Images Speak Louder than Words? Investigating the Effect of Textual Misinformation in VLMs
- arxiv url: http://arxiv.org/abs/2601.19202v1
- Date: Tue, 27 Jan 2026 05:04:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-28 15:26:51.182624
- Title: Do Images Speak Louder than Words? Investigating the Effect of Textual Misinformation in VLMs
- Title(参考訳): 画像は単語よりも音声を聴くか? : VLMにおけるテキスト誤報の効果の検討
- Authors: Chi Zhang, Wenxuan Ding, Jiale Liu, Mingrui Wu, Qingyun Wu, Ray Mooney,
- Abstract要約: Vision-Language Models (VLM)は、Visual-Question-Answering (VQA)ベンチマークで強力なマルチモーダル推論能力を示している。
これらのモデルが、誤解を招くテキストのプロンプトに対して脆弱であることを示し、しばしば矛盾するテキストを支持する明確な視覚的証拠をオーバーライドしている。
- 参考スコア(独自算出の注目度): 17.56537230934894
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Vision-Language Models (VLMs) have shown strong multimodal reasoning capabilities on Visual-Question-Answering (VQA) benchmarks. However, their robustness against textual misinformation remains under-explored. While existing research has studied the effect of misinformation in text-only domains, it is not clear how VLMs arbitrate between contradictory information from different modalities. To bridge the gap, we first propose the CONTEXT-VQA (i.e., Conflicting Text) dataset, consisting of image-question pairs together with systematically generated persuasive prompts that deliberately conflict with visual evidence. Then, a thorough evaluation framework is designed and executed to benchmark the susceptibility of various models to these conflicting multimodal inputs. Comprehensive experiments over 11 state-of-the-art VLMs reveal that these models are indeed vulnerable to misleading textual prompts, often overriding clear visual evidence in favor of the conflicting text, and show an average performance drop of over 48.2% after only one round of persuasive conversation. Our findings highlight a critical limitation in current VLMs and underscore the need for improved robustness against textual manipulation.
- Abstract(参考訳): Vision-Language Models (VLM)は、Visual-Question-Answering (VQA)ベンチマークで強力なマルチモーダル推論能力を示している。
しかし、その文章の誤報に対する頑健さは未解明のままである。
既存の研究では、テキストのみのドメインにおける誤情報の影響について研究されているが、VLMが異なるモダリティから矛盾する情報をどう仲裁するかは明らかになっていない。
このギャップを埋めるために、まず、画像検索ペアと、視覚的証拠と意図的に矛盾する体系的に生成された説得的プロンプトからなるCONTEXT-VQAデータセットを提案する。
そして、これらの矛盾するマルチモーダル入力に対する様々なモデルの感受性をベンチマークするために、徹底的な評価フレームワークを設計、実行します。
11種類の最先端のVLMに関する総合的な実験では、これらのモデルが誤解を招くテキストのプロンプトに弱いことが示され、しばしば矛盾するテキストに有利な明確な視覚的証拠をオーバーライドし、1ラウンドの説得力のある会話の後に平均48.2%以上のパフォーマンス低下を示す。
本研究は,現在のVLMの限界を浮き彫りにして,テキスト操作に対する堅牢性向上の必要性を浮き彫りにした。
関連論文リスト
- DIVER: Dynamic Iterative Visual Evidence Reasoning for Multimodal Fake News Detection [6.225860651499494]
多モーダル偽ニュース検出は、敵対的誤報の軽減に不可欠である。
進化的,エビデンス駆動推論パラダイムに基づくフレームワークであるDIVER(Dynamic Iterative Visual Evidence Reasoning)を提案する。
Weibo、Weibo21、GossipCopの実験では、DIVERは最先端のベースラインを平均2.72%上回っている。
論文 参考訳(メタデータ) (2026-01-12T04:01:33Z) - Analyzing Reasoning Consistency in Large Multimodal Models under Cross-Modal Conflicts [74.47786985522762]
テキスト慣性(textual inertia)と呼ばれる重要な障害モードを特定し、矛盾する視覚的証拠を無視しながら、モデルは間違ったテキストに盲目的に固執する傾向がある。
本稿では,多種多様なLMMの推論連鎖に摂動を構造的に注入するLogicGraph摂動プロトコルを提案する。
その結果,10%未満の症例で自己修正が成功し,主に視覚的テキスト誤りの伝播に寄与することが判明した。
論文 参考訳(メタデータ) (2026-01-07T16:39:34Z) - Multimodal Fact Checking with Unified Visual, Textual, and Contextual Representations [2.139909491081949]
我々は"MultiCheck"と呼ばれる微細なマルチモーダル事実検証のための統一的なフレームワークを提案する。
我々のアーキテクチャは、テキストと画像のための専用エンコーダと、要素間相互作用を用いた相互関係をキャプチャする融合モジュールを組み合わせる。
我々はFactify 2データセットに対する我々のアプローチを評価し、F1の重み付けスコア0.84を達成し、ベースラインを大幅に上回った。
論文 参考訳(メタデータ) (2025-08-07T07:36:53Z) - Text Speaks Louder than Vision: ASCII Art Reveals Textual Biases in Vision-Language Models [93.46875303598577]
視覚言語モデル(VLM)は、マルチモーダル情報処理において急速に進歩しているが、競合する信号の整合性は未解明のままである。
この研究は、VLMがASCIIアートをどう処理するかを考察する。
論文 参考訳(メタデータ) (2025-04-02T10:47:07Z) - Words or Vision: Do Vision-Language Models Have Blind Faith in Text? [34.88114876390461]
VLM(Vision-Language Models)は、視覚中心のタスクに対する視覚情報とテキスト情報の統合に優れる。
視覚中心設定における視覚データや様々なテキスト入力に直面するVLMのモダリティ嗜好について検討する。
不整合が発生した場合、VLMは視覚的データよりもテキストデータを不均等に信頼する。
論文 参考訳(メタデータ) (2025-03-04T02:21:07Z) - ConTextual: Evaluating Context-Sensitive Text-Rich Visual Reasoning in Large Multimodal Models [92.60282074937305]
テキストリッチな画像に対して文脈に敏感な推論を必要とする人為的な命令を特徴とする新しいデータセットであるConTextualを紹介した。
そこで本研究では,14の基盤モデルの性能評価実験を行い,人為的な性能基準を確立する。
GPT-4Vとヒトのパフォーマンスの30.8%の有意な性能差を観察した。
論文 参考訳(メタデータ) (2024-01-24T09:07:11Z) - Enhancing Argument Structure Extraction with Efficient Leverage of
Contextual Information [79.06082391992545]
本稿では,コンテキスト情報を完全に活用する効率的なコンテキスト認識モデル(ECASE)を提案する。
文脈情報や議論情報を集約するために,シーケンスアテンションモジュールと距離重み付き類似度損失を導入する。
各種ドメインの5つのデータセットに対する実験により,我々のモデルが最先端の性能を達成することを示す。
論文 参考訳(メタデータ) (2023-10-08T08:47:10Z) - A Multi-Modal Context Reasoning Approach for Conditional Inference on
Joint Textual and Visual Clues [23.743431157431893]
共同文と視覚的手がかりの条件推論は多モーダル推論タスクである。
我々はModCRというマルチモーダルコンテキスト推論手法を提案する。
2つの対応するデータセットに対して広範囲な実験を行い、実験結果により性能が大幅に向上した。
論文 参考訳(メタデータ) (2023-05-08T08:05:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。