論文の概要: ODM: A Text-Image Further Alignment Pre-training Approach for Scene Text
Detection and Spotting
- arxiv url: http://arxiv.org/abs/2403.00303v1
- Date: Fri, 1 Mar 2024 06:13:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 18:07:31.091451
- Title: ODM: A Text-Image Further Alignment Pre-training Approach for Scene Text
Detection and Spotting
- Title(参考訳): ODM:シーンテキスト検出とスポッティングのためのテキスト画像追加事前学習手法
- Authors: Chen Duan and Pei Fu and Shan Guo and Qianyi Jiang and Xiaoming Wei
- Abstract要約: 我々は OCR-Text Destylization Modeling (ODM) と呼ばれる新しい事前学習手法を提案する。
ODMは、画像中の様々なスタイルのテキストを、テキストプロンプトに基づいて一様に転送する。
本手法は,シーンテキストの検出やスポッティング作業において,現在の事前学習方法よりも性能が大幅に向上し,性能が向上する。
- 参考スコア(独自算出の注目度): 9.00895209642856
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, text-image joint pre-training techniques have shown
promising results in various tasks. However, in Optical Character Recognition
(OCR) tasks, aligning text instances with their corresponding text regions in
images poses a challenge, as it requires effective alignment between text and
OCR-Text (referring to the text in images as OCR-Text to distinguish from the
text in natural language) rather than a holistic understanding of the overall
image content. In this paper, we propose a new pre-training method called
OCR-Text Destylization Modeling (ODM) that transfers diverse styles of text
found in images to a uniform style based on the text prompt. With ODM, we
achieve better alignment between text and OCR-Text and enable pre-trained
models to adapt to the complex and diverse styles of scene text detection and
spotting tasks. Additionally, we have designed a new labeling generation method
specifically for ODM and combined it with our proposed Text-Controller module
to address the challenge of annotation costs in OCR tasks, allowing a larger
amount of unlabeled data to participate in pre-training. Extensive experiments
on multiple public datasets demonstrate that our method significantly improves
performance and outperforms current pre-training methods in scene text
detection and spotting tasks. Code is available at
{https://github.com/PriNing/ODM}.
- Abstract(参考訳): 近年,テキストイメージ共同学習技術は様々なタスクにおいて有望な成果を上げている。
しかし、ocrタスクでは、全体の画像内容の全体的理解ではなく、テキストとocrテキスト(画像中のテキストをocrテキストとして参照して自然言語でテキストと区別する)の効果的なアライメントを必要とするため、画像内のテキストインスタンスと対応するテキスト領域を整合させることが課題となる。
本稿では,ocr-text destylization modeling (odm) と呼ばれる,画像中の多様なテキストスタイルをテキストプロンプトに基づいて均一なスタイルに転送する新しい事前学習手法を提案する。
ODMにより、テキストとOCR-Textの整合性が向上し、事前学習されたモデルがシーンテキストの検出やスポッティングタスクの複雑なスタイルに適応できるようにする。
さらに、ODM専用の新しいラベル生成手法を設計し、提案したText-Controllerモジュールと組み合わせて、OCRタスクのアノテーションコストの課題に対処し、大量のラベル付きデータが事前学習に参加できるようにする。
複数の公開データセットに対する大規模な実験により,本手法は性能を著しく向上し,シーンテキストの検出やスポッティングタスクにおける現在の事前学習方法より優れていることが示された。
コードは、https://github.com/PriNing/ODM}で入手できる。
関連論文リスト
- Decoder Pre-Training with only Text for Scene Text Recognition [54.93037783663204]
シーンテキスト認識(STR)事前学習法は,主に合成データセットに依存し,顕著な進歩を遂げている。
STR(DPTR)用テキストのみを用いたDecoder Pre-trainingという新しい手法を提案する。
DPTRはCLIPテキストエンコーダが生成したテキスト埋め込みを擬似視覚埋め込みとして扱い、デコーダの事前訓練に使用する。
論文 参考訳(メタデータ) (2024-08-11T06:36:42Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Vision-Language Pre-Training for Boosting Scene Text Detectors [57.08046351495244]
シーンテキスト検出に視覚言語を用いた共同学習を特に応用する。
本稿では,視覚言語による事前学習を通して,文脈化された共同表現を学習することを提案する。
事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができる。
論文 参考訳(メタデータ) (2022-04-29T03:53:54Z) - SwinTextSpotter: Scene Text Spotting via Better Synergy between Text
Detection and Text Recognition [73.61592015908353]
本稿では,SwinTextSpotter と呼ばれるシーンテキストスポッティングフレームワークを提案する。
動的頭部を検出器とするトランスを用いて、2つのタスクを新しい認識変換機構で統一する。
この設計は、追加の修正モジュールも文字レベルのアノテーションも必要としない簡潔なフレームワークをもたらす。
論文 参考訳(メタデータ) (2022-03-19T01:14:42Z) - Language Matters: A Weakly Supervised Pre-training Approach for Scene
Text Detection and Spotting [69.77701325270047]
本稿では,シーンテキストを効果的に表現できる弱教師付き事前学習手法を提案する。
本ネットワークは,画像エンコーダと文字認識型テキストエンコーダから構成され,視覚的特徴とテキスト的特徴を抽出する。
実験により、事前訓練されたモデルは、重みを他のテキスト検出やスポッティングネットワークに転送しながら、Fスコアを+2.5%、+4.8%改善することが示された。
論文 参考訳(メタデータ) (2022-03-08T08:10:45Z) - TextOCR: Towards large-scale end-to-end reasoning for arbitrary-shaped
scene text [23.04601165885908]
実画像に900kの注釈付き単語を付加した任意の形状のシーンテキストの検出と認識を行うTextOCRを提案する。
現状のテキスト認識(OCR)モデルはTextOCRではうまく動作しないことを示す。
我々はTextOCRトレーニングされたOCRモデルを使用してPixelM4Cモデルを作成し、エンドツーエンドで画像に基づいてシーンテキストベースの推論を行う。
論文 参考訳(メタデータ) (2021-05-12T07:50:42Z) - Scene Text Retrieval via Joint Text Detection and Similarity Learning [68.24531728554892]
シーンテキスト検索は、与えられたクエリテキストと同じまたは類似している画像ギャラリーからすべてのテキストインスタンスをローカライズし、検索することを目的としています。
自然画像からクエリテキストと各テキストインスタンスのクロスモーダルな類似性を直接学習することでこの問題に対処します。
このように、検出されたテキストインスタンスを学習された類似度でランク付けすることで、シーンテキスト検索を簡単に実行できます。
論文 参考訳(メタデータ) (2021-04-04T07:18:38Z) - SCATTER: Selective Context Attentional Scene Text Recognizer [16.311256552979835]
Scene Text Recognition (STR) は複雑な画像背景に対してテキストを認識するタスクである。
現在のSOTA(State-of-the-art)メソッドは、任意の形で書かれたテキストを認識するのに依然として苦労している。
Selective Context Attentional Text Recognizer (SCATTER) というSTRの新しいアーキテクチャを導入する。
論文 参考訳(メタデータ) (2020-03-25T09:20:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。