論文の概要: TextOCR: Towards large-scale end-to-end reasoning for arbitrary-shaped
scene text
- arxiv url: http://arxiv.org/abs/2105.05486v1
- Date: Wed, 12 May 2021 07:50:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-13 22:59:33.335546
- Title: TextOCR: Towards large-scale end-to-end reasoning for arbitrary-shaped
scene text
- Title(参考訳): TextOCR:任意の形のシーンテキストの大規模エンドツーエンド推論を目指して
- Authors: Amanpreet Singh, Guan Pang, Mandy Toh, Jing Huang, Wojciech Galuba,
Tal Hassner
- Abstract要約: 実画像に900kの注釈付き単語を付加した任意の形状のシーンテキストの検出と認識を行うTextOCRを提案する。
現状のテキスト認識(OCR)モデルはTextOCRではうまく動作しないことを示す。
我々はTextOCRトレーニングされたOCRモデルを使用してPixelM4Cモデルを作成し、エンドツーエンドで画像に基づいてシーンテキストベースの推論を行う。
- 参考スコア(独自算出の注目度): 23.04601165885908
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A crucial component for the scene text based reasoning required for TextVQA
and TextCaps datasets involve detecting and recognizing text present in the
images using an optical character recognition (OCR) system. The current systems
are crippled by the unavailability of ground truth text annotations for these
datasets as well as lack of scene text detection and recognition datasets on
real images disallowing the progress in the field of OCR and evaluation of
scene text based reasoning in isolation from OCR systems. In this work, we
propose TextOCR, an arbitrary-shaped scene text detection and recognition with
900k annotated words collected on real images from TextVQA dataset. We show
that current state-of-the-art text-recognition (OCR) models fail to perform
well on TextOCR and that training on TextOCR helps achieve state-of-the-art
performance on multiple other OCR datasets as well. We use a TextOCR trained
OCR model to create PixelM4C model which can do scene text based reasoning on
an image in an end-to-end fashion, allowing us to revisit several design
choices to achieve new state-of-the-art performance on TextVQA dataset.
- Abstract(参考訳): textvqaとtextcapsデータセットに必要なテキストベース推論の重要なコンポーネントは、光学式文字認識(ocr)システムを使用して画像中のテキストを検出し認識することである。
現状のシステムは,これらのデータセットに対する接地真理テキストアノテーションの有効性の欠如と,OCR分野の進歩を許さない実画像上でのシーンテキスト検出と認識データセットの欠如と,OCRシステムから切り離されたシーンテキストベースの推論の評価に障害がある。
本研究では,テキストvqaデータセットから実画像に900kアノテートされた単語を抽出し,任意の形状のテキスト検出と認識を行うtextocrを提案する。
現状のテキスト認識(OCR)モデルはTextOCRではうまく動作せず,TextOCR上でのトレーニングは,他の複数のOCRデータセット上での最先端のパフォーマンス向上にも有効であることを示す。
我々は、TextOCRトレーニングされたOCRモデルを使用して、PixelM4Cモデルを作成し、画像上のシーンテキストベースの推論をエンドツーエンドで行えるようにし、いくつかの設計選択を再検討し、TextVQAデータセット上で新しい最先端パフォーマンスを実現することができる。
関連論文リスト
- Adversarial Training with OCR Modality Perturbation for Scene-Text Visual Question Answering [8.382903851560595]
Scene-Text Visual Question Answering (ST-VQA) は、画像中のシーンテキストを理解し、テキストコンテンツに関連する質問に答えることを目的としている。
既存の手法の多くは光学文字認識(OCR)システムの精度に大きく依存している。
本研究では,空間認識機能を備えたマルチモーダル対向学習アーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-03-14T11:22:06Z) - ODM: A Text-Image Further Alignment Pre-training Approach for Scene Text
Detection and Spotting [9.00895209642856]
我々は OCR-Text Destylization Modeling (ODM) と呼ばれる新しい事前学習手法を提案する。
ODMは、画像中の様々なスタイルのテキストを、テキストプロンプトに基づいて一様に転送する。
本手法は,シーンテキストの検出やスポッティング作業において,現在の事前学習方法よりも性能が大幅に向上し,性能が向上する。
論文 参考訳(メタデータ) (2024-03-01T06:13:53Z) - Enhancing Scene Text Detectors with Realistic Text Image Synthesis Using
Diffusion Models [63.99110667987318]
DiffTextは、前景のテキストと背景の本質的な特徴をシームレスにブレンドするパイプラインです。
テキストインスタンスが少なくなると、生成したテキストイメージはテキスト検出を支援する他の合成データを一貫して上回ります。
論文 参考訳(メタデータ) (2023-11-28T06:51:28Z) - STEP -- Towards Structured Scene-Text Spotting [9.339184886724812]
そこで本研究では,構造化シーンテキストスポッティングタスクを導入し,クエリの正規表現に従って,野生のテキストをスポッティングするシーンテキストOCRシステムを提案する。
提案するStructured TExt sPotter (STEP) は,OCRプロセスのガイドとして提供されるテキスト構造を利用するモデルである。
提案手法により,様々な実世界の読解シナリオにおけるゼロショット構造化テキストスポッティングの精度が向上する。
論文 参考訳(メタデータ) (2023-09-05T16:11:54Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [72.79006668848186]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Text Detection Forgot About Document OCR [0.0]
本稿では,テキスト認識と文書テキスト認識のためのいくつかの手法を比較した。
この結果から,現在提案されている文書テキスト検出手法は,文書テキスト検出において優れた結果が得られることが示唆された。
論文 参考訳(メタデータ) (2022-10-14T15:37:54Z) - PreSTU: Pre-Training for Scene-Text Understanding [49.288302725486226]
シーンテキスト理解(STU)に特化した新しい事前学習レシピであるPreSTUを提案する。
PreSTUは、OCR対応の事前学習目標を導入し、モデルが画像からテキストを認識し、残りの画像コンテンツに接続することを奨励する。
8つの視覚的質問応答と4つの画像キャプションベンチマークに対して,この事前学習アプローチの有効性を実証的に実証した。
論文 参考訳(メタデータ) (2022-09-12T18:29:55Z) - Language Matters: A Weakly Supervised Pre-training Approach for Scene
Text Detection and Spotting [69.77701325270047]
本稿では,シーンテキストを効果的に表現できる弱教師付き事前学習手法を提案する。
本ネットワークは,画像エンコーダと文字認識型テキストエンコーダから構成され,視覚的特徴とテキスト的特徴を抽出する。
実験により、事前訓練されたモデルは、重みを他のテキスト検出やスポッティングネットワークに転送しながら、Fスコアを+2.5%、+4.8%改善することが示された。
論文 参考訳(メタデータ) (2022-03-08T08:10:45Z) - Text Prior Guided Scene Text Image Super-resolution [11.396781380648756]
Scene Text Image Super- resolution (STISR) は低解像度(LR)シーンの解像度と画質を改善することを目的としている。
我々は、STISRモデルトレーニングにカテゴリテキストを組み込む試みを行っている。
STISRのためのマルチステージテキストガイド付き超解像フレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-29T12:52:33Z) - Scene Text Retrieval via Joint Text Detection and Similarity Learning [68.24531728554892]
シーンテキスト検索は、与えられたクエリテキストと同じまたは類似している画像ギャラリーからすべてのテキストインスタンスをローカライズし、検索することを目的としています。
自然画像からクエリテキストと各テキストインスタンスのクロスモーダルな類似性を直接学習することでこの問題に対処します。
このように、検出されたテキストインスタンスを学習された類似度でランク付けすることで、シーンテキスト検索を簡単に実行できます。
論文 参考訳(メタデータ) (2021-04-04T07:18:38Z) - TAP: Text-Aware Pre-training for Text-VQA and Text-Caption [75.44716665758415]
テキストVQAとテキストキャプションタスクのためのテキスト認識事前学習(TAP)を提案する。
TAPは、事前トレーニングにシーンテキスト(OCRエンジンから生成される)を明示的に組み込む。
我々のアプローチは、複数のタスクで大きな利幅で芸術の状態を上回っている。
論文 参考訳(メタデータ) (2020-12-08T18:55:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。