論文の概要: Q-Mask: Query-driven Causal Masks for Text Anchoring in OCR-Oriented Vision-Language Models
- arxiv url: http://arxiv.org/abs/2604.00161v1
- Date: Tue, 31 Mar 2026 19:09:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:31.684754
- Title: Q-Mask: Query-driven Causal Masks for Text Anchoring in OCR-Oriented Vision-Language Models
- Title(参考訳): Q-Mask: OCR指向視覚言語モデルにおけるテキストアンコリングのためのクエリ駆動因果マスク
- Authors: Longwei Xu, Feng Feng, Shaojie Zhang, Xin Chen, Hang Li, Anan Du, Hailong Yu, Pei Fu, Zhenbo Luo, Jian Luan,
- Abstract要約: 因果クエリ駆動型マスクデコーダ(CQMD)に基づく正確なOCRフレームワークを提案する。
Q-Maskは、最後のOCR出力を生成する前に、クエリ条件付き視覚マスクを逐次生成する因果視覚復号を実行する。
CQMDをトレーニングするために、特定のテキスト要素に対応するきめ細かいマスクを付加した画像テキストペアの大規模データセットであるTextAnchor-26Mを構築した。
- 参考スコア(独自算出の注目度): 20.508411710998313
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Optical Character Recognition (OCR) is increasingly regarded as a foundational capability for modern vision-language models (VLMs), enabling them not only to read text in images but also to support downstream reasoning in real-world visual question answering (VQA). However, practical applications further require reliable text anchors, i.e., accurately grounding queried text to its corresponding spatial region. To systematically evaluate this capability, we introduce TextAnchor-Bench (TABench), a benchmark for fine-grained text-region grounding, which reveals that both general-purpose and OCR-specific VLMs still struggle to establish accurate and stable text anchors. To address this limitation, we propose Q-Mask, a precise OCR framework built upon a causal query-driven mask decoder (CQMD). Inspired by chain-of-thought reasoning, Q-Mask performs causal visual decoding that sequentially generates query-conditioned visual masks before producing the final OCR output. This visual CoT paradigm disentangles where the text is from what the text is, enforcing grounded evidence acquisition prior to recognition and enabling explicit text anchor construction during inference. To train CQMD, we construct TextAnchor-26M, a large-scale dataset of image-text pairs annotated with fine-grained masks corresponding to specific textual elements, encouraging stable text-region correspondences and injecting strong spatial priors into VLM training. Extensive experiments demonstrate that Q-Mask substantially improves text anchoring and understanding across diverse visual scenes.
- Abstract(参考訳): 光文字認識(OCR)は、現代の視覚言語モデル(VLM)の基本機能として、画像中のテキストを読むだけでなく、現実世界の視覚的質問応答(VQA)で下流の推論をサポートする。
しかし、実際的な応用には、信頼性の高いテキストアンカー、すなわち、クエリされたテキストを対応する空間領域に正確に接地する必要がある。
この機能を体系的に評価するために,テキスト領域の微細化のためのベンチマークであるTextAnchor-Bench (TABench)を導入する。
この制限に対処するために、因果クエリ駆動マスクデコーダ(CQMD)上に構築された正確なOCRフレームワークであるQ-Maskを提案する。
Q-Maskは連鎖推論にインスパイアされ、最後のOCR出力を生成する前にクエリ条件付き視覚マスクを逐次生成する因果視覚復号を実行する。
この視覚的CoTパラダイムは、テキストがテキストのどこにあるのかを歪め、認識の前に根拠付きエビデンスを取得させ、推論中に明示的なテキストアンカー構築を可能にする。
CQMDをトレーニングするために,特定のテキスト要素に対応するきめ細かいマスクを付加した大規模な画像テキストペアのデータセットであるTextAnchor-26Mを構築し,安定したテキスト領域対応を奨励し,VLMトレーニングに強い空間先行を注入する。
大規模な実験により、Q-Maskは様々な視覚シーンにおけるテキストアンカーと理解を大幅に改善することが示された。
関連論文リスト
- An Effective Data Augmentation Method by Asking Questions about Scene Text Images [5.189562992500781]
本稿では,構造化質問応答タスクによるOCRトレーニングを強化するVQAにインスパイアされたデータ拡張フレームワークを提案する。
各画像テキストペアに対して、存在、位置、頻度といった文字レベルの属性を探索する自然言語質問を生成する。
これらの補助的なタスクはよりきめ細かい推論を奨励し、OCRモデルは視覚的特徴をテキストクエリと整列させ、画像と質問を共同で推論する。
論文 参考訳(メタデータ) (2026-03-03T23:18:53Z) - VISTA-Bench: Do Vision-Language Models Really Understand Visualized Text as Well as Pure Text? [51.02924254085878]
VLM(Vision-Language Models)は、テキスト入力と視覚入力のクロスモーダル理解において、優れたパフォーマンスを実現している。
VISTA-Benchは、マルチモーダル認識、推論、および非モーダル理解領域のベンチマークである。
論文 参考訳(メタデータ) (2026-02-04T17:48:55Z) - When Text-as-Vision Meets Semantic IDs in Generative Recommendation: An Empirical Study [48.67151986743594]
テキストを視覚信号として扱うことでセマンティックID学習の表現設計を再考する。
項目記述を画像に描画することで得られるOCRに基づくテキスト表現の体系的な実証的研究を行う。
OCR-text は, セマンティックID 学習における標準テキスト埋め込みと一意に一致しているか, 上回っていることがわかった。
論文 参考訳(メタデータ) (2026-01-21T06:18:57Z) - Knowing Where to Focus: Attention-Guided Alignment for Text-based Person Search [64.15205542003056]
本稿では,AGM(Atention-Guided Mask)モデリングとTEM(Text Enrichment Module)という,2つの革新的なコンポーネントを備えたAGA(Atention-Guided Alignment)フレームワークを紹介する。
AGA は CUHK-PEDES と ICFG-PEDES と RSTP でそれぞれ78.36%、67.31%、67.4% に達した。
論文 参考訳(メタデータ) (2024-12-19T17:51:49Z) - See then Tell: Enhancing Key Information Extraction with Vision Grounding [32.445618057103324]
STNet(See then Tell Net)は、視覚基盤の正確な答えを提供するために設計された、新しいエンドツーエンドモデルである。
モデルの可視性を高めるため、広範囲に構造化されたテーブル認識データセットを収集する。
提案手法は,KIE性能の大幅な向上を実証し,公開データセットの最先端化を実現している。
論文 参考訳(メタデータ) (2024-09-29T06:21:05Z) - Decoder Pre-Training with only Text for Scene Text Recognition [54.93037783663204]
シーンテキスト認識(STR)事前学習法は,主に合成データセットに依存し,顕著な進歩を遂げている。
STR(DPTR)用テキストのみを用いたDecoder Pre-trainingという新しい手法を提案する。
DPTRはCLIPテキストエンコーダが生成したテキスト埋め込みを擬似視覚埋め込みとして扱い、デコーダの事前訓練に使用する。
論文 参考訳(メタデータ) (2024-08-11T06:36:42Z) - Class-Aware Mask-Guided Feature Refinement for Scene Text Recognition [56.968108142307976]
CAM(Class-Aware Mask-Guided Feature refinement)と呼ばれる新しい手法を提案する。
本手法では,背景およびテキストスタイルのノイズを抑制するために,標準クラス対応グリフマスクを導入している。
標準マスク特徴とテキスト特徴とのアライメントを強化することにより、モジュールはより効果的な融合を保証する。
論文 参考訳(メタデータ) (2024-02-21T09:22:45Z) - Look, Read and Ask: Learning to Ask Questions by Reading Text in Images [3.3972119795940525]
テキストベースの視覚的質問生成(TextVQG)の新たな問題を提案する。
テキストVQGに対処するために,OCR で一貫した視覚的質問生成モデルを提案する。
論文 参考訳(メタデータ) (2022-11-23T13:52:46Z) - TextOCR: Towards large-scale end-to-end reasoning for arbitrary-shaped
scene text [23.04601165885908]
実画像に900kの注釈付き単語を付加した任意の形状のシーンテキストの検出と認識を行うTextOCRを提案する。
現状のテキスト認識(OCR)モデルはTextOCRではうまく動作しないことを示す。
我々はTextOCRトレーニングされたOCRモデルを使用してPixelM4Cモデルを作成し、エンドツーエンドで画像に基づいてシーンテキストベースの推論を行う。
論文 参考訳(メタデータ) (2021-05-12T07:50:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。