論文の概要: Visible Yet Unreadable: A Systematic Blind Spot of Vision Language Models Across Writing Systems
- arxiv url: http://arxiv.org/abs/2509.06996v1
- Date: Thu, 04 Sep 2025 05:35:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-10 14:38:27.00958
- Title: Visible Yet Unreadable: A Systematic Blind Spot of Vision Language Models Across Writing Systems
- Title(参考訳): Visibleはまだ読めない: システム全体にわたる視覚言語モデルの体系的な盲点
- Authors: Jie Zhang, Ting Xu, Gelei Deng, Runyi Hu, Han Qiu, Tianwei Zhang, Qing Guo, Ivor Tsang,
- Abstract要約: 先進視覚言語モデル(VLM)がこのレジリエンスを共有しているかどうかを検討する。
我々は、異なる筆記システムにまたがる2つの心理物理学的なベンチマークを構築した。
クリーンテキスト上での強いパフォーマンスにもかかわらず、現代のVLMはこれらの摂動の下で深刻な低下を見せている。
- 参考スコア(独自算出の注目度): 25.47053654117902
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Writing is a universal cultural technology that reuses vision for symbolic communication. Humans display striking resilience: we readily recognize words even when characters are fragmented, fused, or partially occluded. This paper investigates whether advanced vision language models (VLMs) share this resilience. We construct two psychophysics inspired benchmarks across distinct writing systems, Chinese logographs and English alphabetic words, by splicing, recombining, and overlaying glyphs to yield ''visible but unreadable'' stimuli for models while remaining legible to humans. Despite strong performance on clean text, contemporary VLMs show a severe drop under these perturbations, frequently producing unrelated or incoherent outputs. The pattern suggests a structural limitation: models heavily leverage generic visual invariances but under rely on compositional priors needed for robust literacy. We release stimuli generation code, prompts, and evaluation protocols to facilitate transparent replication and follow up work. Our findings motivate architectures and training strategies that encode symbol segmentation, composition, and binding across scripts, and they delineate concrete challenges for deploying multimodal systems in education, accessibility, cultural heritage, and security.
- Abstract(参考訳): 執筆は、象徴的なコミュニケーションのためのビジョンを再利用する普遍的な文化技術である。
文字が断片化されたり、融合されたり、あるいは部分的に隠されたりしても、私たちは言葉を容易に認識できます。
本稿では,先進視覚言語モデル(VLM)がこのレジリエンスを共有しているかどうかを検討する。
我々は,異なる筆記システム,中国語のロググラフ,英語のアルファベット語のベンチマークを2つ構築し,グリフをスプライシング,再結合,オーバーレイすることで,人間に可視性を維持しながらモデルに対して「可視だが読めない」刺激を与える。
クリーンテキスト上での強いパフォーマンスにもかかわらず、現代のVLMはこれらの摂動の下で深刻な低下を示し、しばしば無関係または不整合な出力を生成する。
このパターンは構造的制限を示唆している:モデルは一般的な視覚的不変性を大いに活用するが、堅牢なリテラシーに必要な構成的事前に依存している。
透明な複製と追従作業を容易にするための刺激生成コード、プロンプト、評価プロトコルをリリースする。
本研究は, 記号のセグメンテーション, 構成, およびスクリプト間のバインディングを符号化するアーキテクチャとトレーニング戦略を動機付け, 教育, アクセシビリティ, 文化遺産, セキュリティにマルチモーダルシステムを展開する上での具体的な課題を整理した。
関連論文リスト
- Text Speaks Louder than Vision: ASCII Art Reveals Textual Biases in Vision-Language Models [93.46875303598577]
視覚言語モデル(VLM)は、マルチモーダル情報処理において急速に進歩しているが、競合する信号の整合性は未解明のままである。
この研究は、VLMがASCIIアートをどう処理するかを考察する。
論文 参考訳(メタデータ) (2025-04-02T10:47:07Z) - Empowering Backbone Models for Visual Text Generation with Input Granularity Control and Glyph-Aware Training [68.41837295318152]
拡散に基づくテキスト・ツー・イメージモデルでは、多様性と美学の素晴らしい成果が示されているが、視覚的なテキストで画像を生成するのに苦労している。
既存のバックボーンモデルには、ミススペル、テキスト生成の失敗、中国語テキストのサポートの欠如といった制限がある。
本稿では,英語と中国語の視覚テキスト生成にバックボーンモデルを活用するための一連の手法を提案する。
論文 参考訳(メタデータ) (2024-10-06T10:25:39Z) - Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization [52.935150075484074]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。
結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。
この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文 参考訳(メタデータ) (2023-09-09T03:01:38Z) - Visually-Situated Natural Language Understanding with Contrastive
Reading Model and Frozen Large Language Models [24.456117679941816]
Contrastive Reading Model (Cream)は、Large Language Models (LLM)の言語画像理解能力を高めるために設計された、新しいニューラルネットワークである。
我々のアプローチは、視覚と言語理解のギャップを埋め、より洗練されたドキュメントインテリジェンスアシスタントの開発の道を開く。
論文 参考訳(メタデータ) (2023-05-24T11:59:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。