論文の概要: ARTS: Eliminating Inconsistency between Text Detection and Recognition
with Auto-Rectification Text Spotter
- arxiv url: http://arxiv.org/abs/2110.10405v1
- Date: Wed, 20 Oct 2021 06:53:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-22 17:19:13.709102
- Title: ARTS: Eliminating Inconsistency between Text Detection and Recognition
with Auto-Rectification Text Spotter
- Title(参考訳): ARTS:自動修正テキストスポッターによるテキスト検出と認識の不整合の解消
- Authors: Humen Zhong, Jun Tang, Wenhai Wang, Zhibo Yang, Cong Yao, Tong Lu
- Abstract要約: 我々は、Auto-Rectification Text Spotter (ARTS)と呼ばれる、シンプルだが堅牢なエンドツーエンドテキストスポッティングフレームワークを提案する。
本手法は10.5FPSの競争速度で全テキスト上のF値の77.1%のエンドツーエンドテキストスポッティングを実現する。
- 参考スコア(独自算出の注目度): 37.86206423441885
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent approaches for end-to-end text spotting have achieved promising
results. However, most of the current spotters were plagued by the
inconsistency problem between text detection and recognition. In this work, we
introduce and prove the existence of the inconsistency problem and analyze it
from two aspects: (1) inconsistency of text recognition features between
training and testing, and (2) inconsistency of optimization targets between
text detection and recognition. To solve the aforementioned issues, we propose
a differentiable Auto-Rectification Module (ARM) together with a new training
strategy to enable propagating recognition loss back into detection branch, so
that our detection branch can be jointly optimized by detection and recognition
targets, which largely alleviates the inconsistency problem between text
detection and recognition. Based on these designs, we present a simple yet
robust end-to-end text spotting framework, termed Auto-Rectification Text
Spotter (ARTS), to detect and recognize arbitrarily-shaped text in natural
scenes. Extensive experiments demonstrate the superiority of our method. In
particular, our ARTS-S achieves 77.1% end-to-end text spotting F-measure on
Total-Text at a competitive speed of 10.5 FPS, which significantly outperforms
previous methods in both accuracy and inference speed.
- Abstract(参考訳): 近年のエンドツーエンドテキストスポッティングのアプローチは有望な成果を上げている。
しかし、現在のスポッターのほとんどは、テキスト検出と認識の矛盾に苦しめられている。
本研究では,(1) テキスト検出と認識におけるテキスト認識機能の不整合,(2) テキスト検出と認識における最適化目標の不整合という2つの側面から,不整合問題の存在を紹介し,それを解析する。
上記の課題を解決するため,テキスト検出と認識の不整合をほとんど緩和する検出と認識のターゲットによって,検出ブランチを協調的に最適化できるように,新たなトレーニング戦略とともに,微分可能な自動修正モジュール(ARM)を提案する。
これらの設計に基づいて,自然場面における任意の形状のテキストの検出と認識を行うための,簡易かつ堅牢なエンドツーエンドテキストスポッティングフレームワークであるauto-rectification text spotter (arts)を提案する。
広範な実験により,本手法の優越性が示された。
特に、我々のARTS-Sは、トータルテキスト上の77.1%のテキストスポッティングFを10.5 FPSの競争速度で達成し、従来の手法よりも精度と推論速度の両方で大幅に向上した。
関連論文リスト
- SwinTextSpotter v2: Towards Better Synergy for Scene Text Spotting [126.01629300244001]
我々はSwinTextSpotter v2と呼ばれる新しいエンドツーエンドのシーンテキストスポッティングフレームワークを提案する。
我々は,新しい認識変換モジュールと認識アライメントモジュールを用いて,2つのタスク間の関係を強化する。
SwinTextSpotter v2は、様々な多言語(英語、中国語、ベトナム語)のベンチマークで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2024-01-15T12:33:00Z) - ESTextSpotter: Towards Better Scene Text Spotting with Explicit Synergy
in Transformer [88.61312640540902]
明示的な構文に基づくテキストスポッティング変換フレームワーク(ESTextSpotter)を紹介する。
本モデルは,1つのデコーダ内におけるテキスト検出と認識のための識別的,インタラクティブな特徴をモデル化することにより,明示的な相乗効果を実現する。
実験結果から,本モデルが従来の最先端手法よりも有意に優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-08-20T03:22:23Z) - Optimal Boxes: Boosting End-to-End Scene Text Recognition by Adjusting
Annotated Bounding Boxes via Reinforcement Learning [41.56134008044702]
Boxは、テキスト認識モデルとの互換性を高めるために、各テキスト境界ボックスの形状を調整する強化学習ベースの方法である。
実験により、調整された境界ボックスをトレーニングの真理として使用する場合、エンド・ツー・エンドのテキスト認識システムの性能を向上させることができることを示した。
論文 参考訳(メタデータ) (2022-07-25T06:58:45Z) - Decoupling Recognition from Detection: Single Shot Self-Reliant Scene
Text Spotter [34.09162878714425]
単発自撮りScene Text Spotter(SRSTS)を提案する。
テキストの検出と認識を並列に行い、共有された正のアンカーポイントでそれらをブリッジする。
本手法では,正確なテキスト境界を検出できない場合でも,テキストインスタンスを正しく認識することができる。
論文 参考訳(メタデータ) (2022-07-15T01:59:14Z) - SwinTextSpotter: Scene Text Spotting via Better Synergy between Text
Detection and Text Recognition [73.61592015908353]
本稿では,SwinTextSpotter と呼ばれるシーンテキストスポッティングフレームワークを提案する。
動的頭部を検出器とするトランスを用いて、2つのタスクを新しい認識変換機構で統一する。
この設計は、追加の修正モジュールも文字レベルのアノテーションも必要としない簡潔なフレームワークをもたらす。
論文 参考訳(メタデータ) (2022-03-19T01:14:42Z) - DEER: Detection-agnostic End-to-End Recognizer for Scene Text Spotting [11.705454066278898]
本稿では,新しい検出非依存のエンド・ツー・エンド認識フレームワークDEERを提案する。
提案手法は,検出モジュールと認識モジュール間の密接な依存関係を低減する。
通常のテキストスポッティングベンチマークと任意の形のテキストスポッティングベンチマークで競合する結果を得る。
論文 参考訳(メタデータ) (2022-03-10T02:41:05Z) - Towards Weakly-Supervised Text Spotting using a Multi-Task Transformer [21.479222207347238]
テキストスポッティングのための変換器ベースのアプローチであるTextTranSpotter(TTS)を紹介する。
TTSは、完全に管理された設定と弱い設定の両方で訓練される。
TextTranSpotterは、完全に教師された方法でトレーニングされ、複数のベンチマークで最先端の結果を表示する。
論文 参考訳(メタデータ) (2022-02-11T08:50:09Z) - MOST: A Multi-Oriented Scene Text Detector with Localization Refinement [67.35280008722255]
シーンテキスト検出のための新しいアルゴリズムを提案し、テキストローカリゼーションの品質を大幅に向上させる一連の戦略を提案する。
具体的には,テキスト・フィーチャー・アライメント・モジュール (TFAM) を提案し,特徴の受容領域を動的に調整する。
信頼できないものを排除するために、位置認識非最大抑制(PA-NMS)モジュールを考案する。
論文 参考訳(メタデータ) (2021-04-02T14:34:41Z) - Text Perceptron: Towards End-to-End Arbitrary-Shaped Text Spotting [49.768327669098674]
テキストパーセプトロン(Text Perceptron)という,エンドツーエンドのトレーニング可能なテキストスポッティング手法を提案する。
まず、テキスト読解順序と境界情報を学ぶ効率的なセグメンテーションベースのテキスト検出器を用いる。
次に、検出された特徴領域を正規形態に変換するために、新しい形状変換モジュール(STM)を設計する。
論文 参考訳(メタデータ) (2020-02-17T08:07:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。