論文の概要: VL-Reader: Vision and Language Reconstructor is an Effective Scene Text Recognizer
- arxiv url: http://arxiv.org/abs/2409.11656v1
- Date: Wed, 18 Sep 2024 02:46:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-19 19:19:53.413492
- Title: VL-Reader: Vision and Language Reconstructor is an Effective Scene Text Recognizer
- Title(参考訳): VL-Reader:視覚と言語再構成は効果的なシーンテキスト認識装置である
- Authors: Humen Zhong, Zhibo Yang, Zhaohai Li, Peng Wang, Jun Tang, Wenqing Cheng, Cong Yao,
- Abstract要約: 本稿では,VL-Readerという,革新的なシーンテキスト認識手法を提案する。
VL-Readerの新規性は、プロセス全体を通して視覚と言語の間の広範な相互作用にある。
トレーニング前の段階では、VL-Readerはマスクされたビジュアルトークンとテキストトークンの両方を再構築するが、微調整の段階では、ネットワークはマスクされた領域を使わずに画像からすべての文字を再構成する。
- 参考スコア(独自算出の注目度): 22.06023928642522
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Text recognition is an inherent integration of vision and language, encompassing the visual texture in stroke patterns and the semantic context among the character sequences. Towards advanced text recognition, there are three key challenges: (1) an encoder capable of representing the visual and semantic distributions; (2) a decoder that ensures the alignment between vision and semantics; and (3) consistency in the framework during pre-training, if it exists, and fine-tuning. Inspired by masked autoencoding, a successful pre-training strategy in both vision and language, we propose an innovative scene text recognition approach, named VL-Reader. The novelty of the VL-Reader lies in the pervasive interplay between vision and language throughout the entire process. Concretely, we first introduce a Masked Visual-Linguistic Reconstruction (MVLR) objective, which aims at simultaneously modeling visual and linguistic information. Then, we design a Masked Visual-Linguistic Decoder (MVLD) to further leverage masked vision-language context and achieve bi-modal feature interaction. The architecture of VL-Reader maintains consistency from pre-training to fine-tuning. In the pre-training stage, VL-Reader reconstructs both masked visual and text tokens, while in the fine-tuning stage, the network degrades to reconstruct all characters from an image without any masked regions. VL-reader achieves an average accuracy of 97.1% on six typical datasets, surpassing the SOTA by 1.1%. The improvement was even more significant on challenging datasets. The results demonstrate that vision and language reconstructor can serve as an effective scene text recognizer.
- Abstract(参考訳): テキスト認識は視覚と言語の本質的な統合であり、ストロークパターンの視覚的テクスチャと、文字列間の意味的文脈を含んでいる。
高度なテキスト認識に向けては,(1)視覚的および意味的分布を表現可能なエンコーダ,(2)視覚と意味論の整合性を保証するデコーダ,(3)事前学習時のフレームワークの整合性,および微調整の3つの課題がある。
視覚と言語の両方においてトレーニング前戦略として成功したマスク付きオートエンコーディングに触発されて,VL-Readerという,革新的なシーンテキスト認識手法を提案する。
VL-Readerの新規性は、プロセス全体を通して視覚と言語の間の広範な相互作用にある。
具体的には,視覚情報と言語情報を同時にモデル化することを目的とした,Masked Visual-Linguistic Reconstruction (MVLR) の目的について紹介する。
次に,マスク付き視覚言語コンテキストを更に活用し,双方向の機能相互作用を実現するために,Masked Visual-Linguistic Decoder (MVLD) を設計する。
VL-Readerのアーキテクチャは、事前トレーニングから微調整までの一貫性を維持している。
トレーニング前の段階では、VL-Readerはマスクされたビジュアルトークンとテキストトークンの両方を再構築するが、微調整の段階では、ネットワークはマスクされた領域を使わずに画像からすべての文字を再構成する。
VLリーダーは6つの典型的なデータセットで平均97.1%の精度を達成し、SOTAを1.1%上回る。
この改善は、挑戦的なデータセットでさらに重要になった。
その結果,視覚と言語再構成器が効果的なシーンテキスト認識器として機能できることが示唆された。
関連論文リスト
- UReader: Universal OCR-free Visually-situated Language Understanding
with Multimodal Large Language Model [108.85584502396182]
MLLM(Multimodal Large Language Model)に基づく汎用OCRのない視覚的言語理解の最初の探索であるUReaderを提案する。
MLLMの浅いテキスト認識能力を利用することで、パラメータを1.2%だけ微調整した。
言語理解タスク10のうち8つは、最先端のocrフリーな性能を実現している。
論文 参考訳(メタデータ) (2023-10-08T11:33:09Z) - MaskOCR: Text Recognition with Masked Encoder-Decoder Pretraining [68.05105411320842]
本稿では,従来のエンコーダ・デコーダ認識フレームワークにおいて,視覚と言語を事前学習するための新しいアプローチであるMaskOCRを提案する。
マスク付き画像モデリング手法を用いて、未ラベルのテキスト画像の集合を用いて特徴エンコーダを事前学習する。
テキストデータを合成されたテキスト画像に変換し、視覚と言語のデータモダリティを統一し、シーケンスデコーダの言語モデリング能力を向上する。
論文 参考訳(メタデータ) (2022-06-01T08:27:19Z) - Vision-Language Pre-Training for Boosting Scene Text Detectors [57.08046351495244]
シーンテキスト検出に視覚言語を用いた共同学習を特に応用する。
本稿では,視覚言語による事前学習を通して,文脈化された共同表現を学習することを提案する。
事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができる。
論文 参考訳(メタデータ) (2022-04-29T03:53:54Z) - Single-Stream Multi-Level Alignment for Vision-Language Pretraining [103.09776737512078]
モーダルを複数のレベルで整列させる単一ストリームモデルを提案する。
対称的相互モダリティ再構築と擬似ラベル付きキーワード予測という2つの新しいタスクを用いてこれを実現する。
我々は、ゼロショット/ファインチューニングされた画像/テキスト検索、参照表現、VQAといった一連の視覚言語タスクにおいて、トップパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-27T21:16:10Z) - Language Matters: A Weakly Supervised Pre-training Approach for Scene
Text Detection and Spotting [69.77701325270047]
本稿では,シーンテキストを効果的に表現できる弱教師付き事前学習手法を提案する。
本ネットワークは,画像エンコーダと文字認識型テキストエンコーダから構成され,視覚的特徴とテキスト的特徴を抽出する。
実験により、事前訓練されたモデルは、重みを他のテキスト検出やスポッティングネットワークに転送しながら、Fスコアを+2.5%、+4.8%改善することが示された。
論文 参考訳(メタデータ) (2022-03-08T08:10:45Z) - From Two to One: A New Scene Text Recognizer with Visual Language
Modeling Network [70.47504933083218]
本稿では,視覚情報と言語情報を結合として見る視覚言語モデリングネットワーク(VisionLAN)を提案する。
VisionLANは39%のスピード向上を実現し、正確な認識のための視覚的特徴を高めるために言語情報を適応的に検討する。
論文 参考訳(メタデータ) (2021-08-22T07:56:24Z) - E2E-VLP: End-to-End Vision-Language Pre-training Enhanced by Visual
Learning [31.622393984150314]
本稿では,V+L理解と生成のための視覚言語事前学習モデルを提案する。
視覚表現と画像とテキスト間のセマンティックアライメントを共同で学習するための統合トランスフォーマーフレームワークを構築した。
論文 参考訳(メタデータ) (2021-06-03T12:50:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。