論文の概要: How Do Large Vision-Language Models See Text in Image? Unveiling the Distinctive Role of OCR Heads
- arxiv url: http://arxiv.org/abs/2505.15865v1
- Date: Wed, 21 May 2025 10:53:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:47.823433
- Title: How Do Large Vision-Language Models See Text in Image? Unveiling the Distinctive Role of OCR Heads
- Title(参考訳): 画像中のテキストをどのように見るか : OCRヘッドの識別的役割を解明する
- Authors: Ingeol Baek, Hwan Chang, Sunghyun Ryu, Hwanhee Lee,
- Abstract要約: 光文字認識ヘッド(OCRヘッド)と呼ばれる画像からテキストを認識するための頭部を特定する。
1)少ないスパース:以前の検索ヘッドとは異なり、画像からテキスト情報を抽出するために多数のヘッドが活性化される。
我々は,OCRと従来の検索ヘッドの両方にCoT(Chain-of-Thought)を適用し,これらのヘッドをマスキングすることで,下流タスクにおける知見を検証した。
- 参考スコア(独自算出の注目度): 3.6152232645741025
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite significant advancements in Large Vision Language Models (LVLMs), a gap remains, particularly regarding their interpretability and how they locate and interpret textual information within images. In this paper, we explore various LVLMs to identify the specific heads responsible for recognizing text from images, which we term the Optical Character Recognition Head (OCR Head). Our findings regarding these heads are as follows: (1) Less Sparse: Unlike previous retrieval heads, a large number of heads are activated to extract textual information from images. (2) Qualitatively Distinct: OCR heads possess properties that differ significantly from general retrieval heads, exhibiting low similarity in their characteristics. (3) Statically Activated: The frequency of activation for these heads closely aligns with their OCR scores. We validate our findings in downstream tasks by applying Chain-of-Thought (CoT) to both OCR and conventional retrieval heads and by masking these heads. We also demonstrate that redistributing sink-token values within the OCR heads improves performance. These insights provide a deeper understanding of the internal mechanisms LVLMs employ in processing embedded textual information in images.
- Abstract(参考訳): LVLM(Large Vision Language Models)の大幅な進歩にもかかわらず、特にその解釈可能性や、画像内のテキスト情報の発見と解釈方法に関してギャップが残っている。
本稿では,光学文字認識ヘッド(OCRヘッド)と呼ばれる,画像からテキストを認識するための特定の頭部を特定するために,様々なLVLMを探索する。
1)少ないスパース:以前の検索ヘッドとは異なり、画像からテキスト情報を抽出するために多数のヘッドが活性化される。
2)定性的識別:OCRヘッドは一般検索ヘッドと大きく異なる特性を有し,その特性に類似性が低かった。
(3) Statically Activated: これらの頭部の活性化頻度はOCRスコアと密接に一致している。
我々は,OCRと従来の検索ヘッドの両方にCoT(Chain-of-Thought)を適用し,これらのヘッドをマスキングすることで,下流タスクにおける知見を検証した。
また,OCRヘッド内のシンクトケン値の再分配により,性能が向上することを示した。
これらの知見は、LVLMが画像に埋め込まれたテキスト情報を処理する際に使用する内部メカニズムをより深く理解する。
関連論文リスト
- InstructOCR: Instruction Boosting Scene Text Spotting [10.724187109801251]
InstructOCRは、革新的な命令ベースのシーンテキストスポッティングモデルである。
私たちのフレームワークは、トレーニングと推論にテキストエンコーダと画像エンコーダの両方を使用します。
広く使われているベンチマークで最先端の結果が得られます。
論文 参考訳(メタデータ) (2024-12-20T03:23:26Z) - CC-OCR: A Comprehensive and Challenging OCR Benchmark for Evaluating Large Multimodal Models in Literacy [50.78228433498211]
CC-OCRは、マルチシーンテキスト読取、多言語テキスト読取、文書解析、キー情報抽出の4つのOCR中心のトラックで構成されている。
39のサブセットと7,058のフルアノテートされたイメージが含まれており、そのうち41%が実際のアプリケーションからソースされ、初めてリリースされた。
我々は9つの顕著なLMMを評価し、これらのモデルの長所と短所、特にテキストの接地、多目的化、繰り返しの幻覚について明らかにした。
論文 参考訳(メタデータ) (2024-12-03T07:03:25Z) - See then Tell: Enhancing Key Information Extraction with Vision Grounding [54.061203106565706]
STNet(See then Tell Net)は,視覚基盤の正確な答えを提供するために設計された,新しいエンドツーエンドモデルである。
モデルの可視性を高めるため、広範囲に構造化されたテーブル認識データセットを収集する。
論文 参考訳(メタデータ) (2024-09-29T06:21:05Z) - OCRBench: On the Hidden Mystery of OCR in Large Multimodal Models [122.27878464009181]
テキスト関連視覚タスクにおいて, GPT4V や Gemini などの大規模マルチモーダルモデルの包括的評価を行った。
OCRBenchには29のデータセットがあり、最も包括的なOCR評価ベンチマークが利用できる。
論文 参考訳(メタデータ) (2023-05-13T11:28:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。