論文の概要: STEP -- Towards Structured Scene-Text Spotting
- arxiv url: http://arxiv.org/abs/2309.02356v2
- Date: Mon, 11 Dec 2023 09:21:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-13 01:48:36.967892
- Title: STEP -- Towards Structured Scene-Text Spotting
- Title(参考訳): step -- 構造化されたシーンテキストスポッティングへ
- Authors: Sergi Garcia-Bordils, Dimosthenis Karatzas, Mar\c{c}al Rusi\~nol
- Abstract要約: そこで本研究では,構造化シーンテキストスポッティングタスクを導入し,クエリの正規表現に従って,野生のテキストをスポッティングするシーンテキストOCRシステムを提案する。
提案するStructured TExt sPotter (STEP) は,OCRプロセスのガイドとして提供されるテキスト構造を利用するモデルである。
提案手法により,様々な実世界の読解シナリオにおけるゼロショット構造化テキストスポッティングの精度が向上する。
- 参考スコア(独自算出の注目度): 9.339184886724812
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce the structured scene-text spotting task, which requires a
scene-text OCR system to spot text in the wild according to a query regular
expression. Contrary to generic scene text OCR, structured scene-text spotting
seeks to dynamically condition both scene text detection and recognition on
user-provided regular expressions. To tackle this task, we propose the
Structured TExt sPotter (STEP), a model that exploits the provided text
structure to guide the OCR process. STEP is able to deal with regular
expressions that contain spaces and it is not bound to detection at the
word-level granularity. Our approach enables accurate zero-shot structured text
spotting in a wide variety of real-world reading scenarios and is solely
trained on publicly available data. To demonstrate the effectiveness of our
approach, we introduce a new challenging test dataset that contains several
types of out-of-vocabulary structured text, reflecting important reading
applications of fields such as prices, dates, serial numbers, license plates
etc. We demonstrate that STEP can provide specialised OCR performance on demand
in all tested scenarios.
- Abstract(参考訳): 我々は,クエリ正規表現に従ってテキストを野放しにするために,シーンテキストocrシステムを必要とする構造化シーンテキストスポッティングタスクを導入する。
一般的なシーンテキストOCRとは対照的に、構造化シーンテキストスポッティングは、ユーザが提供する正規表現に対して、シーンテキストの検出と認識の両方を動的に条件付けしようとする。
この課題に対処するために,提案したテキスト構造を利用してOCRプロセスのガイドを行うStructured TExt sPotter (STEP) を提案する。
STEPは空間を含む正規表現を扱うことができ、単語レベルの粒度での検出に縛られない。
提案手法により,さまざまな実世界の読影シナリオにおけるゼロショット構造化テキストスポッティングの精度が向上し,公開データのみをトレーニングできる。
提案手法の有効性を示すために,価格,日付,シリアル番号,ライセンスプレートなどの分野における重要な読み出しを反映した,語彙外構造化テキストを含む,新たな挑戦的テストデータセットを導入する。
テストシナリオのすべてにおいて,STEPが要求に応じて特別なOCR性能を提供できることを示す。
関連論文リスト
- Towards Unified Multi-granularity Text Detection with Interactive Attention [56.79437272168507]
Detect Any Text"は、シーンテキストの検出、レイアウト分析、ドキュメントページの検出を結合的なエンドツーエンドモデルに統合する高度なパラダイムである。
DATにおける重要なイノベーションは、テキストインスタンスの表現学習を大幅に強化する、粒度横断型アテンションモジュールである。
テストによると、DATは様々なテキスト関連ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-05-30T07:25:23Z) - Text Grouping Adapter: Adapting Pre-trained Text Detector for Layout Analysis [52.34110239735265]
本稿では,事前学習したテキスト検出装置のレイアウト解析を学習するためのモジュールであるText Grouping Adapter (TGA)を提案する。
我々の総合的な実験は、凍結した事前学習モデルであっても、TGAを様々な事前学習されたテキスト検出器やテキストスポッターに組み込むことで、より優れたレイアウト解析性能が得られることを示した。
論文 参考訳(メタデータ) (2024-05-13T05:48:35Z) - TextBlockV2: Towards Precise-Detection-Free Scene Text Spotting with Pre-trained Language Model [17.77384627944455]
既存のシーンテキストスポッターは、画像からテキストを見つけて書き起こすように設計されている。
提案するシーンテキストスポッターは、高度なPLMを活用して、きめ細かい検出を行うことなく性能を向上させる。
PLMベースの認識モジュールは、事前学習期間中に得られた包括的な言語知識から恩恵を受け、複雑なシナリオを効果的に処理する。
論文 参考訳(メタデータ) (2024-03-15T06:38:25Z) - ODM: A Text-Image Further Alignment Pre-training Approach for Scene Text Detection and Spotting [8.397246652127793]
我々は OCR-Text Destylization Modeling (ODM) と呼ばれる新しい事前学習手法を提案する。
ODMは、画像中の様々なスタイルのテキストを、テキストプロンプトに基づいて一様に転送する。
本手法は,シーンテキストの検出やスポッティング作業において,現在の事前学習方法よりも性能が大幅に向上し,性能が向上する。
論文 参考訳(メタデータ) (2024-03-01T06:13:53Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Contextual Text Block Detection towards Scene Text Understanding [85.40898487745272]
本稿では,シーン中のテキストをよりよく理解するためのコンテキストテキストブロック(CTB)を新たに検出する,コンテキストテキスト検出手法を提案する。
本稿では、まずテキスト単位を検出し、次にCTBにグループ化する二重検出タスクにより、新しい設定を定式化する。
そこで本研究では,統合テキスト単位をトークンとして扱うシーンテキストクラスタリング手法を設計し,それらを(同じCTBに延長する)順序付きトークンシーケンスにグループ化する。
論文 参考訳(メタデータ) (2022-07-26T14:59:25Z) - Text Detection & Recognition in the Wild for Robot Localization [1.52292571922932]
テキスト文字列とバウンディングボックスを同時に出力するエンド・ツー・エンドシーンテキストスポッティングモデルを提案する。
我々の中心的な貢献は、不規則かつ隠蔽されたテキスト領域を適切にキャプチャするために、エンドツーエンドのテキストスポッティングフレームワークを利用することである。
論文 参考訳(メタデータ) (2022-05-17T18:16:34Z) - Towards End-to-End Unified Scene Text Detection and Layout Analysis [60.68100769639923]
本稿では,シーンテキストの検出とレイアウト解析を統合化するタスクについて紹介する。
この新たな研究課題を実現するために、最初の階層的なシーンテキストデータセットが導入された。
また,シーンテキストを同時に検出し,テキストクラスタを統一的に形成する手法を提案する。
論文 参考訳(メタデータ) (2022-03-28T23:35:45Z) - TextOCR: Towards large-scale end-to-end reasoning for arbitrary-shaped
scene text [23.04601165885908]
実画像に900kの注釈付き単語を付加した任意の形状のシーンテキストの検出と認識を行うTextOCRを提案する。
現状のテキスト認識(OCR)モデルはTextOCRではうまく動作しないことを示す。
我々はTextOCRトレーニングされたOCRモデルを使用してPixelM4Cモデルを作成し、エンドツーエンドで画像に基づいてシーンテキストベースの推論を行う。
論文 参考訳(メタデータ) (2021-05-12T07:50:42Z) - Text Perceptron: Towards End-to-End Arbitrary-Shaped Text Spotting [49.768327669098674]
テキストパーセプトロン(Text Perceptron)という,エンドツーエンドのトレーニング可能なテキストスポッティング手法を提案する。
まず、テキスト読解順序と境界情報を学ぶ効率的なセグメンテーションベースのテキスト検出器を用いる。
次に、検出された特徴領域を正規形態に変換するために、新しい形状変換モジュール(STM)を設計する。
論文 参考訳(メタデータ) (2020-02-17T08:07:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。