Fugu-MT 論文翻訳(概要): How Do Large Vision-Language Models See Text in Image? Unveiling the Distinctive Role of OCR Heads

論文の概要: How Do Large Vision-Language Models See Text in Image? Unveiling the Distinctive Role of OCR Heads

arxiv url: http://arxiv.org/abs/2505.15865v1
Date: Wed, 21 May 2025 10:53:41 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-23 17:12:47.823433
Title: How Do Large Vision-Language Models See Text in Image? Unveiling the Distinctive Role of OCR Heads
Title（参考訳）: 画像中のテキストをどのように見るか : OCRヘッドの識別的役割を解明する
Authors: Ingeol Baek, Hwan Chang, Sunghyun Ryu, Hwanhee Lee,
Abstract要約: 光文字認識ヘッド(OCRヘッド)と呼ばれる画像からテキストを認識するための頭部を特定する。 1)少ないスパース:以前の検索ヘッドとは異なり、画像からテキスト情報を抽出するために多数のヘッドが活性化される。我々は,OCRと従来の検索ヘッドの両方にCoT(Chain-of-Thought)を適用し,これらのヘッドをマスキングすることで,下流タスクにおける知見を検証した。
参考スコア（独自算出の注目度）: 3.6152232645741025
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Despite significant advancements in Large Vision Language Models (LVLMs), a gap remains, particularly regarding their interpretability and how they locate and interpret textual information within images. In this paper, we explore various LVLMs to identify the specific heads responsible for recognizing text from images, which we term the Optical Character Recognition Head (OCR Head). Our findings regarding these heads are as follows: (1) Less Sparse: Unlike previous retrieval heads, a large number of heads are activated to extract textual information from images. (2) Qualitatively Distinct: OCR heads possess properties that differ significantly from general retrieval heads, exhibiting low similarity in their characteristics. (3) Statically Activated: The frequency of activation for these heads closely aligns with their OCR scores. We validate our findings in downstream tasks by applying Chain-of-Thought (CoT) to both OCR and conventional retrieval heads and by masking these heads. We also demonstrate that redistributing sink-token values within the OCR heads improves performance. These insights provide a deeper understanding of the internal mechanisms LVLMs employ in processing embedded textual information in images.
Abstract（参考訳）: LVLM(Large Vision Language Models)の大幅な進歩にもかかわらず、特にその解釈可能性や、画像内のテキスト情報の発見と解釈方法に関してギャップが残っている。本稿では,光学文字認識ヘッド(OCRヘッド)と呼ばれる,画像からテキストを認識するための特定の頭部を特定するために,様々なLVLMを探索する。 1)少ないスパース:以前の検索ヘッドとは異なり、画像からテキスト情報を抽出するために多数のヘッドが活性化される。 2)定性的識別:OCRヘッドは一般検索ヘッドと大きく異なる特性を有し,その特性に類似性が低かった。 (3) Statically Activated: これらの頭部の活性化頻度はOCRスコアと密接に一致している。我々は,OCRと従来の検索ヘッドの両方にCoT(Chain-of-Thought)を適用し,これらのヘッドをマスキングすることで,下流タスクにおける知見を検証した。また,OCRヘッド内のシンクトケン値の再分配により,性能が向上することを示した。これらの知見は、LVLMが画像に埋め込まれたテキスト情報を処理する際に使用する内部メカニズムをより深く理解する。

関連論文リスト

InstructOCR: Instruction Boosting Scene Text Spotting [10.724187109801251]
InstructOCRは、革新的な命令ベースのシーンテキストスポッティングモデルである。私たちのフレームワークは、トレーニングと推論にテキストエンコーダと画像エンコーダの両方を使用します。広く使われているベンチマークで最先端の結果が得られます。
論文参考訳（メタデータ） (2024-12-20T03:23:26Z)
CC-OCR: A Comprehensive and Challenging OCR Benchmark for Evaluating Large Multimodal Models in Literacy [50.78228433498211]
CC-OCRは、マルチシーンテキスト読取、多言語テキスト読取、文書解析、キー情報抽出の4つのOCR中心のトラックで構成されている。 39のサブセットと7,058のフルアノテートされたイメージが含まれており、そのうち41%が実際のアプリケーションからソースされ、初めてリリースされた。我々は9つの顕著なLMMを評価し、これらのモデルの長所と短所、特にテキストの接地、多目的化、繰り返しの幻覚について明らかにした。
論文参考訳（メタデータ） (2024-12-03T07:03:25Z)
LLV-FSR: Exploiting Large Language-Vision Prior for Face Super-resolution [67.23699927053191]
LLV-FSRと呼ばれる新しいフレームワークを提案する。このフレームワークは、大きな視覚言語モデルと高次視覚モデルのパワーと、顔超解像の課題とをマージする。 MMCelebA-HQデータセットのPSNRでSOTAを0.43dB以上上回って,提案手法は再構築品質と知覚品質の両方を著しく改善することを示した。
論文参考訳（メタデータ） (2024-11-14T09:12:18Z)
See then Tell: Enhancing Key Information Extraction with Vision Grounding [54.061203106565706]
STNet(See then Tell Net)は,視覚基盤の正確な答えを提供するために設計された,新しいエンドツーエンドモデルである。モデルの可視性を高めるため、広範囲に構造化されたテーブル認識データセットを収集する。
論文参考訳（メタデータ） (2024-09-29T06:21:05Z)
MARS: Paying more attention to visual attributes for text-based person search [6.438244172631555]
本稿ではMARS(Mae-Attribute-Relation-Sensitive)という新しいTBPSアーキテクチャを提案する。ビジュアルレコンストラクションロスと属性ロスという2つの重要なコンポーネントを導入することで、現在の最先端モデルを強化する。 CUHK-PEDES、ICFG-PEDES、RSTPReidの3つの一般的なデータセットの実験では、パフォーマンス改善が報告されている。
論文参考訳（メタデータ） (2024-07-05T06:44:43Z)
Retrieval Head Mechanistically Explains Long-Context Factuality [56.78951509492645]
我々は,検索ヘッドをダブする特別なタイプの注意ヘッドが,主に情報検索に責任があることを実証した。本研究は,検索ヘッドが思考の連鎖(CoT)推論に強く影響していることを示し,モデルが質問や以前生成した文脈を頻繁に参照する必要があることを示す。我々は、幻覚の低減、推論の改善、KVキャッシュの圧縮に関する今後の研究を促進すると信じている。
論文参考訳（メタデータ） (2024-04-24T00:24:03Z)
OCRBench: On the Hidden Mystery of OCR in Large Multimodal Models [122.27878464009181]
テキスト関連視覚タスクにおいて, GPT4V や Gemini などの大規模マルチモーダルモデルの包括的評価を行った。 OCRBenchには29のデータセットがあり、最も包括的なOCR評価ベンチマークが利用できる。
論文参考訳（メタデータ） (2023-05-13T11:28:37Z)
CLIPTER: Looking at the Bigger Picture in Scene Text Recognition [10.561377899703238]
私たちは、CLIPのような現代視覚言語モデルの能力を利用して、作物ベースの認識者にシーンレベルの情報を提供する。我々は,視覚言語モデルから得られた画像全体の表現を,クロスアテンションゲート機構を介して認識語レベルの特徴と融合させることにより,これを実現する。
論文参考訳（メタデータ） (2023-01-18T12:16:19Z)
Transparent Human Evaluation for Image Captioning [70.03979566548823]
画像キャプションモデルのためのルーリックに基づく人間評価プロトコルを開発した。人為的キャプションは機械的キャプションよりも著しく高品質であることを示す。この研究は、画像キャプションのためのより透明な評価プロトコルを促進することを願っている。
論文参考訳（メタデータ） (2021-11-17T07:09:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。