論文の概要: Read or Ignore? A Unified Benchmark for Typographic-Attack Robustness and Text Recognition in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2512.11899v1
- Date: Wed, 10 Dec 2025 08:34:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.008476
- Title: Read or Ignore? A Unified Benchmark for Typographic-Attack Robustness and Text Recognition in Vision-Language Models
- Title(参考訳): 読み書き??視覚言語モデルにおけるタイポグラフィー・アタックロバストネスとテキスト認識のための統一ベンチマーク
- Authors: Futa Waseda, Shojiro Yamabe, Daiki Shiono, Kento Sasaki, Tsubasa Takahashi,
- Abstract要約: 大型視覚言語モデル(LVLM)は、タイポグラフィー攻撃に対して脆弱である。
既存の評価プロトコルと防御は、頑健性を達成するためにテキストを無視することを暗黙的に奨励する。
本稿では,視覚的質問応答における選択的テキスト使用を形式化した読み書きVQA(RIO-VQA)を紹介する。
- 参考スコア(独自算出の注目度): 6.1438667397171685
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large vision-language models (LVLMs) are vulnerable to typographic attacks, where misleading text within an image overrides visual understanding. Existing evaluation protocols and defenses, largely focused on object recognition, implicitly encourage ignoring text to achieve robustness; however, real-world scenarios often require joint reasoning over both objects and text (e.g., recognizing pedestrians while reading traffic signs). To address this, we introduce a novel task, Read-or-Ignore VQA (RIO-VQA), which formalizes selective text use in visual question answering (VQA): models must decide, from context, when to read text and when to ignore it. For evaluation, we present the Read-or-Ignore Benchmark (RIO-Bench), a standardized dataset and protocol that, for each real image, provides same-scene counterfactuals (read / ignore) by varying only the textual content and question type. Using RIO-Bench, we show that strong LVLMs and existing defenses fail to balance typographic robustness and text-reading capability, highlighting the need for improved approaches. Finally, RIO-Bench enables a novel data-driven defense that learns adaptive selective text use, moving beyond prior non-adaptive, text-ignoring defenses. Overall, this work reveals a fundamental misalignment between the existing evaluation scope and real-world requirements, providing a principled path toward reliable LVLMs. Our Project Page is at https://turingmotors.github.io/rio-vqa/.
- Abstract(参考訳): 大きな視覚言語モデル(LVLM)は、画像内の誤解を招くテキストが視覚的理解をオーバーライドする、タイポグラフィー攻撃に対して脆弱である。
既存の評価プロトコルと防御は、主にオブジェクト認識に焦点を当てており、強靭性を達成するためにテキストを無視することを暗黙的に奨励するが、現実のシナリオでは、オブジェクトとテキストの両方(例えば、交通標識を読みながら歩行者を認識する)を共同で推論する必要があることが多い。
視覚的質問応答(VQA: visual question answering)における選択的テキストの使用を形式化する新しいタスクであるRead-or-Ignore VQA(RIO-VQA: Read-or-Ignore VQA)を導入する。
評価のために,各実画像に対して,テキストの内容と質問タイプのみを変化させることで,同一シーンの逆ファクト(読み取り/無視)を提供する,標準化されたデータセットとプロトコルであるRead-or-Ignore Benchmark(RIO-Bench)を提案する。
RIO-Benchを用いて、強力なLVLMと既存の防御は、タイポグラフィーの堅牢性とテキスト読取能力のバランスが取れないことを示し、改善されたアプローチの必要性を強調した。
最後に、ROO-Benchは、適応的な選択的なテキスト使用を学ぶ、新しいデータ駆動型防御を可能にする。
全体として、本研究は、既存の評価範囲と実世界の要件の根本的な相違を明らかにし、信頼性の高いLVLMへの原則的な経路を提供する。
私たちのプロジェクトページはhttps://turingmotors.github.io/rio-vqa/です。
関連論文リスト
- Constrained Prompt Enhancement for Improving Zero-Shot Generalization of Vision-Language Models [57.357091028792325]
ウェブスケールのデータに基づいて事前訓練された視覚言語モデル(VLM)は、ゼロショットの一般化を約束するが、しばしば意味的ミスアライメントに悩まされる。
視覚・テクストアライメントを改善するために,制約付きプロンプトエンハンスメント(CPE)法を提案する。
提案手法はTGSSG(Topology-Guided Synonymous Semantic Generation)とCADRS(Calegory-Agnostic Discriminative Region Selection)の2つの重要なコンポーネントから構成される。
論文 参考訳(メタデータ) (2025-08-24T15:45:22Z) - ConText: Driving In-context Learning for Text Removal and Segmentation [59.6299939669307]
本稿では,視覚的インコンテキスト学習パラダイムを光学的文字認識タスクに適用する最初の研究について述べる。
画像除去・分離方式のタスクチェイン・コンポジトリを提案する。
また、連鎖したプロンプトパターンを潜在クエリ表現に統合するコンテキスト認識アグリゲーションも導入する。
論文 参考訳(メタデータ) (2025-06-04T10:06:32Z) - See then Tell: Enhancing Key Information Extraction with Vision Grounding [32.445618057103324]
STNet(See then Tell Net)は、視覚基盤の正確な答えを提供するために設計された、新しいエンドツーエンドモデルである。
モデルの可視性を高めるため、広範囲に構造化されたテーブル認識データセットを収集する。
提案手法は,KIE性能の大幅な向上を実証し,公開データセットの最先端化を実現している。
論文 参考訳(メタデータ) (2024-09-29T06:21:05Z) - Test-time Contrastive Concepts for Open-world Semantic Segmentation with Vision-Language Models [14.899741072838994]
最近のCLIP-like Vision-Language Models (VLM)は、大量の画像テキストペアで事前訓練され、オープン語彙セマンティックセマンティックセグメンテーションへの道を開いた。
本稿では,クエリ固有のテキストコントラストの概念を自動生成する2つのアプローチを提案する。
論文 参考訳(メタデータ) (2024-07-06T12:18:43Z) - Advancing Visual Grounding with Scene Knowledge: Benchmark and Method [74.72663425217522]
ビジュアルグラウンドディング(VG)は、視覚と言語の間にきめ細かいアライメントを確立することを目的としている。
既存のVGデータセットの多くは、単純な記述テキストを使って構築されている。
我々は、アンダーラインScene underline-guided underlineVisual underlineGroundingの新たなベンチマークを提案する。
論文 参考訳(メタデータ) (2023-07-21T13:06:02Z) - Visually-augmented pretrained language models for NLP tasks without
images [77.74849855049523]
既存のソリューションはしばしば視覚的知識増強のために明示的なイメージに依存している。
我々は、新しいtextbfVisually-textbfAugmented fine-tuningアプローチを提案する。
我々のアプローチは、BERT、RoBERTa、BART、T5を異なるスケールで継続的に改善することができる。
論文 参考訳(メタデータ) (2022-12-15T16:13:25Z) - Look, Read and Ask: Learning to Ask Questions by Reading Text in Images [3.3972119795940525]
テキストベースの視覚的質問生成(TextVQG)の新たな問題を提案する。
テキストVQGに対処するために,OCR で一貫した視覚的質問生成モデルを提案する。
論文 参考訳(メタデータ) (2022-11-23T13:52:46Z) - Fine-Grained Semantically Aligned Vision-Language Pre-Training [151.7372197904064]
大規模な視覚言語による事前学習は、幅広い下流タスクにおいて顕著な進歩を見せている。
既存の手法は主に、画像とテキストのグローバルな表現の類似性によって、モーダル間のアライメントをモデル化する。
ゲーム理論的相互作用の新たな視点から, 微粒なセマンティックアライメントを学習する, 微粒なセマンティックなvisiOn-langUage PrEトレーニングフレームワークであるLOを導入する。
論文 参考訳(メタデータ) (2022-08-04T07:51:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。