論文の概要: Reading $\neq$ Seeing: Diagnosing and Closing the Typography Gap in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2603.08497v1
- Date: Mon, 09 Mar 2026 15:31:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:16.304319
- Title: Reading $\neq$ Seeing: Diagnosing and Closing the Typography Gap in Vision-Language Models
- Title(参考訳): 視線-言語モデルにおけるタイポグラフィーギャップの診断と閉鎖
- Authors: Heng Zhou, Ao Yu, Li Kang, Yuchen Fan, Yutao Fan, Xiufeng Song, Hejia Geng, Yiran Qin,
- Abstract要約: 視覚言語モデルは画像中のテキストを読むのにほぼ完璧な精度を達成するが、大部分はタイポグラフィー・ブラインドである。
フォントファミリ,サイズ,スタイル,色認識を26種,スクリプト4種,難易度3種で評価することにより,このギャップを系統的に検討した。
視覚言語理解におけるタイポグラフィーギャップの解消を支援するため,評価フレームワーク,データ,微調整レシピをリリースする。
- 参考スコア(独自算出の注目度): 16.13083848552738
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Models achieve near-perfect accuracy at reading text in images, yet prove largely typography-blind: capable of recognizing what text says, but not how it looks. We systematically investigate this gap by evaluating font family, size, style, and color recognition across 26 fonts, four scripts, and three difficulty levels. Our evaluation of 15 state-of-the-art VLMs reveals a striking perception hierarchy: color recognition is near-perfect, yet font style detection remains universally poor. We further find that model scale fails to predict performance and that accuracy is uniform across difficulty levels, together pointing to a training-data omission rather than a capacity ceiling. LoRA fine-tuning on a small set of synthetic samples substantially improves an open-source model, narrowing the gap to the best closed-source system and surpassing it on font size recognition. Font style alone remains resistant to fine-tuning, suggesting that relational visual reasoning may require architectural innovation beyond current patch-based encoders. We release our evaluation framework, data, and fine-tuning recipe to support progress in closing the typographic gap in vision-language understanding.
- Abstract(参考訳): Vision-Language Modelsは画像中のテキストを読むのにほぼ完璧な精度を実現します。
フォントファミリ,サイズ,スタイル,色認識を26種,スクリプト4種,難易度3種で評価することにより,このギャップを系統的に検討した。
15の最先端VLMに対する評価では、色認識は完璧に近いが、フォントスタイルの検出は一般的には貧弱である、という印象的な認識階層が示される。
さらに、モデルスケールは性能予測に失敗し、精度は難易度にわたって均一であり、同時に、キャパシティ天井ではなくトレーニングデータの欠落を指し示している。
少量の合成サンプルのLORA微調整は、オープンソースモデルを大幅に改善し、最良のクローズドソースシステムとのギャップを狭め、フォントサイズ認識に取って代わる。
フォントスタイルだけでは微調整には耐えられないため、リレーショナルビジュアル推論は現在のパッチベースのエンコーダを超えるアーキテクチャ革新を必要とする可能性がある。
視覚言語理解におけるタイポグラフィーギャップの解消を支援するため,評価フレームワーク,データ,微調整レシピをリリースする。
関連論文リスト
- STELLAR: Scene Text Editor for Low-Resource Languages and Real-World Data [3.622341086373503]
Scene Text Editor for Low-Resource LAnguages and Real-world data。
STELLARは、言語適応型グリフエンコーダとマルチステージトレーニング戦略を通じて、信頼できる多言語編集を可能にする。
また,STIPLAR(Scene Text Image Pairs of Low-Resource lAnguages and Real-world data)という新たなデータセットを構築し,評価を行った。
論文 参考訳(メタデータ) (2025-11-13T05:18:03Z) - Vocabulary-free Fine-grained Visual Recognition via Enriched Contextually Grounded Vision-Language Model [52.01031460230826]
伝統的なアプローチは固定語彙と閉集合分類パラダイムに大きく依存している。
近年の研究では、大規模言語モデルと視覚言語モデル(VLM)を組み合わせることで、オープンセット認識が可能であることが実証されている。
そこで本研究では,精密な視覚認識のための最先端の手法であるEnriched-FineRを提案する。
論文 参考訳(メタデータ) (2025-07-30T20:06:01Z) - Texture or Semantics? Vision-Language Models Get Lost in Font Recognition [53.14935624161711]
FRB(Font Recognition Benchmark)は15のフォントからなるコンパクトで構造化されたデータセットである。
FRBには2つのバージョンがある: (i) 簡単なバージョン、10つの文を異なるフォントで描画するバージョン、 (ii) ハードバージョン。
フォント認識タスクにおける様々なVLMの広範な評価を通じて,以下の重要な知見を得た。
論文 参考訳(メタデータ) (2025-03-31T06:33:21Z) - Extract Free Dense Misalignment from CLIP [7.0247398611254175]
この研究はCLIP4DMと呼ばれる新しいアプローチを提案する。
我々は、個々のテキストトークンの負の勾配を誤適応を示すために、勾配に基づく属性計算法を改良する。
提案手法は,ゼロショットモデル間の最先端性能と微調整モデルとの競合性能を示す。
論文 参考訳(メタデータ) (2024-12-24T12:51:05Z) - ASCIIEval: Benchmarking Models' Visual Perception in Text Strings via ASCII Art [83.95594027644124]
我々は,この問題を認識タスクとみなし,新しいベンチマークASCIIEvalを構築した。
精巧な分類木を持つ3Kサンプルに加えて、さらなる拡張のためのトレーニングセットもカバーしている。
テキスト入力が与えられた言語モデルは、ASCIIアートの概念に基づいて視覚的知覚能力を示す。
画像入力において,オープンソースのMLLMは,微細なテキスト認識と集合的視覚知覚のトレードオフに悩まされていることが明らかになった。
論文 参考訳(メタデータ) (2024-10-02T16:46:01Z) - Capturing Style in Author and Document Representation [4.323709559692927]
著者と文書の埋め込みをスタイリスティックな制約で学習する新しいアーキテクチャを提案する。
本稿では,Gutenbergプロジェクトから抽出した文芸コーパス,Blog Authorship,IMDb62の3つのデータセットについて評価を行った。
論文 参考訳(メタデータ) (2024-07-18T10:01:09Z) - Do LVLMs Understand Charts? Analyzing and Correcting Factual Errors in Chart Captioning [90.13978453378768]
生成したチャートキャプションに事実誤りを包括的に分類する。
大規模な人間のアノテーションの取り組みは、様々なチャートキャプションモデルによって作られたキャプションのエラーパターンと頻度に関する洞察を提供する。
分析の結果,GPT-4Vを含む最先端モデルでさえ,事実不正確なキャプションを頻繁に生成していることが判明した。
論文 参考訳(メタデータ) (2023-12-15T19:16:21Z) - Linguistic More: Taking a Further Step toward Efficient and Accurate
Scene Text Recognition [92.6211155264297]
Scene Text Recognition (STR) タスクの単純さと効率性から,視覚モデルへの注目が高まっている。
最近の視覚モデルでは,(1)純粋な視覚に基づく問合せによって注意のドリフトが発生し,認識不良が生じ,言語的不感なドリフト(LID)問題として要約される。
我々は,正確なテキスト認識のための視覚モデルの言語的能力を検討するために,$textbfL$inguistic $textbfP$erception $textbfV$ision model (LPV)を提案する。
論文 参考訳(メタデータ) (2023-05-09T02:52:47Z) - DS-Fusion: Artistic Typography via Discriminated and Stylized Diffusion [10.75789076591325]
1つ以上の文字フォントをスタイリングすることで,芸術的タイポグラフィーを自動的に生成する新しい手法を提案する。
提案手法では,大規模言語モデルを用いてテキストや視覚画像をブリッジしてスタイリングし,教師なし生成モデルを構築する。
論文 参考訳(メタデータ) (2023-03-16T19:12:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。