論文の概要: DEER: Detection-agnostic End-to-End Recognizer for Scene Text Spotting
- arxiv url: http://arxiv.org/abs/2203.05122v1
- Date: Thu, 10 Mar 2022 02:41:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-12 02:05:17.183451
- Title: DEER: Detection-agnostic End-to-End Recognizer for Scene Text Spotting
- Title(参考訳): DEER:シーンテキストスポッティングのための検出不要なエンドツーエンド認識装置
- Authors: Seonghyeon Kim, Seung Shin, Yoonsik Kim, Han-Cheol Cho, Taeho Kil,
Jaeheung Surh, Seunghyun Park, Bado Lee, Youngmin Baek
- Abstract要約: 本稿では,新しい検出非依存のエンド・ツー・エンド認識フレームワークDEERを提案する。
提案手法は,検出モジュールと認識モジュール間の密接な依存関係を低減する。
通常のテキストスポッティングベンチマークと任意の形のテキストスポッティングベンチマークで競合する結果を得る。
- 参考スコア(独自算出の注目度): 11.705454066278898
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent end-to-end scene text spotters have achieved great improvement in
recognizing arbitrary-shaped text instances. Common approaches for text
spotting use region of interest pooling or segmentation masks to restrict
features to single text instances. However, this makes it hard for the
recognizer to decode correct sequences when the detection is not accurate i.e.
one or more characters are cropped out. Considering that it is hard to
accurately decide word boundaries with only the detector, we propose a novel
Detection-agnostic End-to-End Recognizer, DEER, framework. The proposed method
reduces the tight dependency between detection and recognition modules by
bridging them with a single reference point for each text instance, instead of
using detected regions. The proposed method allows the decoder to recognize the
texts that are indicated by the reference point, with features from the whole
image. Since only a single point is required to recognize the text, the
proposed method enables text spotting without an arbitrarily-shaped detector or
bounding polygon annotations. Experimental results present that the proposed
method achieves competitive results on regular and arbitrarily-shaped text
spotting benchmarks. Further analysis shows that DEER is robust to the
detection errors. The code and dataset will be publicly available.
- Abstract(参考訳): 最近のエンド・ツー・エンドのシーンテキストスポッターは任意のテキストインスタンスの認識において大きな改善を達成している。
テキストスポッティングの一般的なアプローチは、単一のテキストインスタンスに機能を制限するために関心プーリングまたはセグメンテーションマスクの領域を使用する。
しかし、検出が正確でない場合には、認識者が正しいシーケンスを復号することは困難である。
検出器だけでは単語境界を正確に決定することは困難であると考え,新しい検出非依存のエンドツーエンド認識器であるdeerを提案する。
提案手法は,検出された領域ではなく,各テキストインスタンスに対する単一の参照ポイントをブリッジすることで,検出と認識モジュール間の密接な依存関係を低減する。
提案手法により,デコーダは参照ポイントで示されるテキストを画像全体の特徴として認識することができる。
提案手法では,テキスト認識には1点のみが必要なため,任意の形状の検出器や多角形アノテーションを使わずにテキストスポッティングが可能となる。
実験の結果,本手法は正規および任意形状のテキストスポッティングベンチマークにおいて競合する結果が得られることがわかった。
さらなる分析により、DEERは検出エラーに対して堅牢であることが示された。
コードとデータセットは公開される予定だ。
関連論文リスト
- TextBlockV2: Towards Precise-Detection-Free Scene Text Spotting with Pre-trained Language Model [17.77384627944455]
既存のシーンテキストスポッターは、画像からテキストを見つけて書き起こすように設計されている。
提案するシーンテキストスポッターは、高度なPLMを活用して、きめ細かい検出を行うことなく性能を向上させる。
PLMベースの認識モジュールは、事前学習期間中に得られた包括的な言語知識から恩恵を受け、複雑なシナリオを効果的に処理する。
論文 参考訳(メタデータ) (2024-03-15T06:38:25Z) - Efficiently Leveraging Linguistic Priors for Scene Text Spotting [63.22351047545888]
本稿では,大規模テキストコーパスから言語知識を活用する手法を提案する。
シーンテキストデータセットとよく一致したテキスト分布を生成し、ドメイン内の微調整の必要性を取り除く。
実験結果から,本手法は認識精度を向上するだけでなく,単語のより正確な局所化を可能にすることが示された。
論文 参考訳(メタデータ) (2024-02-27T01:57:09Z) - SwinTextSpotter v2: Towards Better Synergy for Scene Text Spotting [126.01629300244001]
我々はSwinTextSpotter v2と呼ばれる新しいエンドツーエンドのシーンテキストスポッティングフレームワークを提案する。
我々は,新しい認識変換モジュールと認識アライメントモジュールを用いて,2つのタスク間の関係を強化する。
SwinTextSpotter v2は、様々な多言語(英語、中国語、ベトナム語)のベンチマークで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2024-01-15T12:33:00Z) - Decoupling Recognition from Detection: Single Shot Self-Reliant Scene
Text Spotter [34.09162878714425]
単発自撮りScene Text Spotter(SRSTS)を提案する。
テキストの検出と認識を並列に行い、共有された正のアンカーポイントでそれらをブリッジする。
本手法では,正確なテキスト境界を検出できない場合でも,テキストインスタンスを正しく認識することができる。
論文 参考訳(メタデータ) (2022-07-15T01:59:14Z) - SwinTextSpotter: Scene Text Spotting via Better Synergy between Text
Detection and Text Recognition [73.61592015908353]
本稿では,SwinTextSpotter と呼ばれるシーンテキストスポッティングフレームワークを提案する。
動的頭部を検出器とするトランスを用いて、2つのタスクを新しい認識変換機構で統一する。
この設計は、追加の修正モジュールも文字レベルのアノテーションも必要としない簡潔なフレームワークをもたらす。
論文 参考訳(メタデータ) (2022-03-19T01:14:42Z) - ARTS: Eliminating Inconsistency between Text Detection and Recognition
with Auto-Rectification Text Spotter [37.86206423441885]
我々は、Auto-Rectification Text Spotter (ARTS)と呼ばれる、シンプルだが堅牢なエンドツーエンドテキストスポッティングフレームワークを提案する。
本手法は10.5FPSの競争速度で全テキスト上のF値の77.1%のエンドツーエンドテキストスポッティングを実現する。
論文 参考訳(メタデータ) (2021-10-20T06:53:44Z) - Which and Where to Focus: A Simple yet Accurate Framework for
Arbitrary-Shaped Nearby Text Detection in Scene Images [8.180563824325086]
そこで本研究では,任意の形状の近接するシーンテキスト検出のための簡易かつ効果的な手法を提案する。
OMTS(One-to-Many Training Scheme)は、混乱を排除し、提案がより適切な基盤構造を学べるように設計されている。
また,提案提案に対してより効果的な機能を利用するために,提案機能注意モジュール(PFAM)を提案する。
論文 参考訳(メタデータ) (2021-09-08T06:25:37Z) - Scene Text Detection with Scribble Lines [59.698806258671105]
テキスト検出のための多角形の代わりにスクリブル線でテキストをアノテートすることを提案する。
さまざまな形状のテキストの一般的なラベリング方法であり、ラベリングコストが低くなります。
実験の結果,提案手法は弱ラベル法と元のポリゴン系ラベリング法との間の性能ギャップを橋渡しすることを示した。
論文 参考訳(メタデータ) (2020-12-09T13:14:53Z) - AE TextSpotter: Learning Visual and Linguistic Representation for
Ambiguous Text Spotting [98.08853679310603]
本研究はAmbiguity Elimination Text Spotter(AE TextSpotter)という新しいテキストスポッターを提案する。
AE TextSpotterは、視覚的特徴と言語的特徴の両方を学び、テキスト検出の曖昧さを著しく低減する。
我々の知る限り、言語モデルを用いてテキスト検出を改善するのはこれが初めてである。
論文 参考訳(メタデータ) (2020-08-03T08:40:01Z) - Text Perceptron: Towards End-to-End Arbitrary-Shaped Text Spotting [49.768327669098674]
テキストパーセプトロン(Text Perceptron)という,エンドツーエンドのトレーニング可能なテキストスポッティング手法を提案する。
まず、テキスト読解順序と境界情報を学ぶ効率的なセグメンテーションベースのテキスト検出器を用いる。
次に、検出された特徴領域を正規形態に変換するために、新しい形状変換モジュール(STM)を設計する。
論文 参考訳(メタデータ) (2020-02-17T08:07:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。