論文の概要: TextOCR: Towards large-scale end-to-end reasoning for arbitrary-shaped
scene text
- arxiv url: http://arxiv.org/abs/2105.05486v1
- Date: Wed, 12 May 2021 07:50:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-13 22:59:33.335546
- Title: TextOCR: Towards large-scale end-to-end reasoning for arbitrary-shaped
scene text
- Title(参考訳): TextOCR:任意の形のシーンテキストの大規模エンドツーエンド推論を目指して
- Authors: Amanpreet Singh, Guan Pang, Mandy Toh, Jing Huang, Wojciech Galuba,
Tal Hassner
- Abstract要約: 実画像に900kの注釈付き単語を付加した任意の形状のシーンテキストの検出と認識を行うTextOCRを提案する。
現状のテキスト認識(OCR)モデルはTextOCRではうまく動作しないことを示す。
我々はTextOCRトレーニングされたOCRモデルを使用してPixelM4Cモデルを作成し、エンドツーエンドで画像に基づいてシーンテキストベースの推論を行う。
- 参考スコア(独自算出の注目度): 23.04601165885908
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A crucial component for the scene text based reasoning required for TextVQA
and TextCaps datasets involve detecting and recognizing text present in the
images using an optical character recognition (OCR) system. The current systems
are crippled by the unavailability of ground truth text annotations for these
datasets as well as lack of scene text detection and recognition datasets on
real images disallowing the progress in the field of OCR and evaluation of
scene text based reasoning in isolation from OCR systems. In this work, we
propose TextOCR, an arbitrary-shaped scene text detection and recognition with
900k annotated words collected on real images from TextVQA dataset. We show
that current state-of-the-art text-recognition (OCR) models fail to perform
well on TextOCR and that training on TextOCR helps achieve state-of-the-art
performance on multiple other OCR datasets as well. We use a TextOCR trained
OCR model to create PixelM4C model which can do scene text based reasoning on
an image in an end-to-end fashion, allowing us to revisit several design
choices to achieve new state-of-the-art performance on TextVQA dataset.
- Abstract(参考訳): textvqaとtextcapsデータセットに必要なテキストベース推論の重要なコンポーネントは、光学式文字認識(ocr)システムを使用して画像中のテキストを検出し認識することである。
現状のシステムは,これらのデータセットに対する接地真理テキストアノテーションの有効性の欠如と,OCR分野の進歩を許さない実画像上でのシーンテキスト検出と認識データセットの欠如と,OCRシステムから切り離されたシーンテキストベースの推論の評価に障害がある。
本研究では,テキストvqaデータセットから実画像に900kアノテートされた単語を抽出し,任意の形状のテキスト検出と認識を行うtextocrを提案する。
現状のテキスト認識(OCR)モデルはTextOCRではうまく動作せず,TextOCR上でのトレーニングは,他の複数のOCRデータセット上での最先端のパフォーマンス向上にも有効であることを示す。
我々は、TextOCRトレーニングされたOCRモデルを使用して、PixelM4Cモデルを作成し、画像上のシーンテキストベースの推論をエンドツーエンドで行えるようにし、いくつかの設計選択を再検討し、TextVQAデータセット上で新しい最先端パフォーマンスを実現することができる。
関連論文リスト
- Decoder Pre-Training with only Text for Scene Text Recognition [54.93037783663204]
シーンテキスト認識(STR)事前学習法は,主に合成データセットに依存し,顕著な進歩を遂げている。
STR(DPTR)用テキストのみを用いたDecoder Pre-trainingという新しい手法を提案する。
DPTRはCLIPテキストエンコーダが生成したテキスト埋め込みを擬似視覚埋め込みとして扱い、デコーダの事前訓練に使用する。
論文 参考訳(メタデータ) (2024-08-11T06:36:42Z) - DLoRA-TrOCR: Mixed Text Mode Optical Character Recognition Based On Transformer [12.966765239586994]
マルチフォント、混合シーン、複雑なレイアウトは、従来のOCRモデルの認識精度に深刻な影響を及ぼす。
本稿では,事前学習したOCR変換器,すなわちDLoRA-TrOCRに基づくパラメータ効率の良い混合テキスト認識手法を提案する。
論文 参考訳(メタデータ) (2024-04-19T09:28:16Z) - ODM: A Text-Image Further Alignment Pre-training Approach for Scene Text Detection and Spotting [8.397246652127793]
我々は OCR-Text Destylization Modeling (ODM) と呼ばれる新しい事前学習手法を提案する。
ODMは、画像中の様々なスタイルのテキストを、テキストプロンプトに基づいて一様に転送する。
本手法は,シーンテキストの検出やスポッティング作業において,現在の事前学習方法よりも性能が大幅に向上し,性能が向上する。
論文 参考訳(メタデータ) (2024-03-01T06:13:53Z) - Enhancing Scene Text Detectors with Realistic Text Image Synthesis Using
Diffusion Models [63.99110667987318]
DiffTextは、前景のテキストと背景の本質的な特徴をシームレスにブレンドするパイプラインです。
テキストインスタンスが少なくなると、生成したテキストイメージはテキスト検出を支援する他の合成データを一貫して上回ります。
論文 参考訳(メタデータ) (2023-11-28T06:51:28Z) - STEP -- Towards Structured Scene-Text Spotting [9.339184886724812]
そこで本研究では,構造化シーンテキストスポッティングタスクを導入し,クエリの正規表現に従って,野生のテキストをスポッティングするシーンテキストOCRシステムを提案する。
提案するStructured TExt sPotter (STEP) は,OCRプロセスのガイドとして提供されるテキスト構造を利用するモデルである。
提案手法により,様々な実世界の読解シナリオにおけるゼロショット構造化テキストスポッティングの精度が向上する。
論文 参考訳(メタデータ) (2023-09-05T16:11:54Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Text Detection Forgot About Document OCR [0.0]
本稿では,テキスト認識と文書テキスト認識のためのいくつかの手法を比較した。
この結果から,現在提案されている文書テキスト検出手法は,文書テキスト検出において優れた結果が得られることが示唆された。
論文 参考訳(メタデータ) (2022-10-14T15:37:54Z) - PreSTU: Pre-Training for Scene-Text Understanding [49.288302725486226]
シーンテキスト理解(STU)に特化した新しい事前学習レシピであるPreSTUを提案する。
PreSTUは、OCR対応の事前学習目標を導入し、モデルが画像からテキストを認識し、残りの画像コンテンツに接続することを奨励する。
8つの視覚的質問応答と4つの画像キャプションベンチマークに対して,この事前学習アプローチの有効性を実証的に実証した。
論文 参考訳(メタデータ) (2022-09-12T18:29:55Z) - Language Matters: A Weakly Supervised Pre-training Approach for Scene
Text Detection and Spotting [69.77701325270047]
本稿では,シーンテキストを効果的に表現できる弱教師付き事前学習手法を提案する。
本ネットワークは,画像エンコーダと文字認識型テキストエンコーダから構成され,視覚的特徴とテキスト的特徴を抽出する。
実験により、事前訓練されたモデルは、重みを他のテキスト検出やスポッティングネットワークに転送しながら、Fスコアを+2.5%、+4.8%改善することが示された。
論文 参考訳(メタデータ) (2022-03-08T08:10:45Z) - Text Prior Guided Scene Text Image Super-resolution [11.396781380648756]
Scene Text Image Super- resolution (STISR) は低解像度(LR)シーンの解像度と画質を改善することを目的としている。
我々は、STISRモデルトレーニングにカテゴリテキストを組み込む試みを行っている。
STISRのためのマルチステージテキストガイド付き超解像フレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-29T12:52:33Z) - TAP: Text-Aware Pre-training for Text-VQA and Text-Caption [75.44716665758415]
テキストVQAとテキストキャプションタスクのためのテキスト認識事前学習(TAP)を提案する。
TAPは、事前トレーニングにシーンテキスト(OCRエンジンから生成される)を明示的に組み込む。
我々のアプローチは、複数のタスクで大きな利幅で芸術の状態を上回っている。
論文 参考訳(メタデータ) (2020-12-08T18:55:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。