論文の概要: Texture or Semantics? Vision-Language Models Get Lost in Font Recognition
- arxiv url: http://arxiv.org/abs/2503.23768v1
- Date: Mon, 31 Mar 2025 06:33:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 14:38:53.827960
- Title: Texture or Semantics? Vision-Language Models Get Lost in Font Recognition
- Title(参考訳): テクスチャーとセマンティックス : 視覚言語モデルがフォント認識において失われる
- Authors: Zhecheng Li, Guoxian Song, Yujun Cai, Zhen Xiong, Junsong Yuan, Yiwei Wang,
- Abstract要約: FRB(Font Recognition Benchmark)は15のフォントからなるコンパクトで構造化されたデータセットである。
FRBには2つのバージョンがある: (i) 簡単なバージョン、10つの文を異なるフォントで描画するバージョン、 (ii) ハードバージョン。
現在のVLMはフォント認識能力に限界があり,多くの最先端モデルでは良好な性能が得られていない。
- 参考スコア(独自算出の注目度): 48.856390495568114
- License:
- Abstract: Modern Vision-Language Models (VLMs) exhibit remarkable visual and linguistic capabilities, achieving impressive performance in various tasks such as image recognition and object localization. However, their effectiveness in fine-grained tasks remains an open question. In everyday scenarios, individuals encountering design materials, such as magazines, typography tutorials, research papers, or branding content, may wish to identify aesthetically pleasing fonts used in the text. Given their multimodal capabilities and free accessibility, many VLMs are often considered potential tools for font recognition. This raises a fundamental question: Do VLMs truly possess the capability to recognize fonts? To investigate this, we introduce the Font Recognition Benchmark (FRB), a compact and well-structured dataset comprising 15 commonly used fonts. FRB includes two versions: (i) an easy version, where 10 sentences are rendered in different fonts, and (ii) a hard version, where each text sample consists of the names of the 15 fonts themselves, introducing a stroop effect that challenges model perception. Through extensive evaluation of various VLMs on font recognition tasks, we arrive at the following key findings: (i) Current VLMs exhibit limited font recognition capabilities, with many state-of-the-art models failing to achieve satisfactory performance. (ii) Few-shot learning and Chain-of-Thought (CoT) prompting provide minimal benefits in improving font recognition accuracy across different VLMs. (iii) Attention analysis sheds light on the inherent limitations of VLMs in capturing semantic features.
- Abstract(参考訳): 現代の視覚言語モデル(VLM)は、画像認識や物体の局所化といった様々なタスクにおいて、目覚しい視覚的および言語的能力を発揮している。
しかし、細粒度タスクにおけるそれらの有効性は未解決の問題である。
日常的なシナリオでは、雑誌、タイポグラフィーチュートリアル、研究論文、ブランディングコンテンツといったデザイン素材に遭遇する個人は、テキストで使用される美的なフォントを識別したいと考えるかもしれない。
マルチモーダル機能とフリーアクセシビリティを考えると、多くのVLMはフォント認識の潜在的なツールとみなされることが多い。
VLMは本当にフォントを認識する能力を持っていますか?
そこで本研究ではFont Recognition Benchmark (FRB) を提案する。FRBは15のフォントからなるコンパクトで構造化されたデータセットである。
FRBには2つのバージョンがある。
(i)簡単なバージョンで、10の文を異なるフォントで描画し、
(i) ハードバージョンでは、各テキストサンプルが15フォントの名前からなり、モデル知覚に挑戦するストループ効果が導入された。
フォント認識タスクにおける様々なVLMの広範な評価を通じて、以下の重要な発見に至った。
(i)現在のVLMはフォント認識能力に限界があり,多くの最先端モデルでは良好な性能が得られていない。
(II)Few-shot LearningとChain-of-Thought (CoT)は、異なるVLM間でフォント認識精度を改善する上で、最小限の利点をもたらす。
三 注意分析は、意味的特徴を捉える際に、VLMの本質的な限界に光を当てる。
関連論文リスト
- One-Shot Multilingual Font Generation Via ViT [2.023301270280465]
フォントデザインは、中国語、日本語、韓国語といったログラフ言語に固有の課題をもたらす。
本稿では,多言語フォント生成のためのビジョントランスフォーマー(ViT)ベースのモデルを提案する。
論文 参考訳(メタデータ) (2024-12-15T23:52:35Z) - Visual Perception in Text Strings [24.60102607739684]
本研究では,ASCIIアートを代表的アーティファクトとして選択し,各概念を表現するための線と明るさを文字で表現する。
評価データセットを構築することにより,このタスクにおけるモデル性能をベンチマークし,モデルの視覚的知覚能力を引き出すためのトレーニングセットを収集する。
その結果、人間は100%近い精度を達成できるが、最先端のLSMとMLLMははるかに遅れていることがわかった。
論文 参考訳(メタデータ) (2024-10-02T16:46:01Z) - Attention Prompting on Image for Large Vision-Language Models [63.794304207664176]
本稿では,画像上の注意喚起という新しいプロンプト手法を提案する。
我々は,CLIPのような補助モデルを用いて,テキストクエリに依存する入力画像に対するアテンションヒートマップを生成する。
各種バイソン言語ベンチマークの実験により,本手法の有効性が検証された。
論文 参考訳(メタデータ) (2024-09-25T17:59:13Z) - StrucTexTv3: An Efficient Vision-Language Model for Text-rich Image Perception, Comprehension, and Beyond [68.0107158115377]
我々は、テキストリッチな画像のための様々なインテリジェントなタスクに取り組むために、効率的な視覚言語モデルStrucTexTv3を開発した。
学習を通してStrucTexTv3の知覚と理解能力を高める。
提案手法は,テキストに富んだ画像認識タスクでSOTAを達成し,理解タスクの性能を大幅に向上させた。
論文 参考訳(メタデータ) (2024-05-31T16:55:04Z) - FontCLIP: A Semantic Typography Visual-Language Model for Multilingual
Font Applications [27.609008096617057]
FontCLIPは、大きな視覚言語モデルの意味的理解とタイポグラフィー的知識を結びつけるモデルである。
タイポグラフィー固有の知識を事前学習したCLIPモデルの包括的視覚言語知識に統合する。
FontCLIPの双対モダリティと一般化能力は多言語・多言語フォントの検索と文字形状の最適化を可能にする。
論文 参考訳(メタデータ) (2024-03-11T06:08:16Z) - Enhancing Visual Document Understanding with Contrastive Learning in
Large Visual-Language Models [56.76307866160105]
文書オブジェクト協調学習(Document Object Contrastive Learning, DoCo)と呼ばれる対照的な学習フレームワークを提案する。
DoCoは補助的なマルチモーダルエンコーダを利用して文書オブジェクトの特徴を取得し、それをLVLM(Large Visual-Language Models)の視覚エンコーダによって生成された視覚的特徴に合わせる。
提案するDoCoは,様々なLVLMの事前学習において,推論過程における計算複雑性の増大を招くことなく,プラグイン・アンド・プレイの事前学習手法として機能することが実証された。
論文 参考訳(メタデータ) (2024-02-29T10:17:27Z) - Representing Online Handwriting for Recognition in Large Vision-Language
Models [8.344510330567495]
本稿では,テキストとして,画像として,時間順のストローク列を含む新しいデジタルインク(オンライン手書き)のトークン化表現を提案する。
この表現は、最先端のオンライン筆跡認識器に匹敵する結果が得られることを示す。
論文 参考訳(メタデータ) (2024-02-23T13:11:10Z) - Few-shot Action Recognition with Captioning Foundation Models [61.40271046233581]
CapFSARは、テキストを手動でアノテートすることなく、マルチモーダルモデルの知識を利用するフレームワークである。
Transformerをベースとしたビジュアルテキストアグリゲーションモジュールはさらに、モーダル時間間の補完情報を組み込むように設計されている。
複数の標準的な数ショットベンチマークの実験では、提案したCapFSARが既存の手法に対して好適に動作することを示した。
論文 参考訳(メタデータ) (2023-10-16T07:08:39Z) - OCRBench: On the Hidden Mystery of OCR in Large Multimodal Models [122.27878464009181]
テキスト関連視覚タスクにおいて, GPT4V や Gemini などの大規模マルチモーダルモデルの包括的評価を行った。
OCRBenchには29のデータセットがあり、最も包括的なOCR評価ベンチマークが利用できる。
論文 参考訳(メタデータ) (2023-05-13T11:28:37Z) - HENet: Forcing a Network to Think More for Font Recognition [10.278412487287882]
本稿では,フォント認識タスクを解決するプラグインモジュールを備えた新しいフォント認識器を提案する。
プラグイン可能なモジュールは、最も識別しやすい機能を隠蔽し、HEブロックと呼ばれる類似フォントの難しい例を解決するために、他の複雑な機能を考えるようにネットワークに強制する。
論文 参考訳(メタデータ) (2021-10-21T03:25:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。