論文の概要: SwinTextSpotter: Scene Text Spotting via Better Synergy between Text
Detection and Text Recognition
- arxiv url: http://arxiv.org/abs/2203.10209v1
- Date: Sat, 19 Mar 2022 01:14:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-22 16:13:02.983645
- Title: SwinTextSpotter: Scene Text Spotting via Better Synergy between Text
Detection and Text Recognition
- Title(参考訳): swintextspotter: テキスト検出とテキスト認識の相乗効果向上によるシーンテキストのスポッティング
- Authors: Mingxin Huang, Yuliang Liu, Zhenghao Peng, Chongyu Liu, Dahua Lin,
Shenggao Zhu, Nicholas Yuan, Kai Ding, Lianwen Jin
- Abstract要約: 本稿では,SwinTextSpotter と呼ばれるシーンテキストスポッティングフレームワークを提案する。
動的頭部を検出器とするトランスを用いて、2つのタスクを新しい認識変換機構で統一する。
この設計は、追加の修正モジュールも文字レベルのアノテーションも必要としない簡潔なフレームワークをもたらす。
- 参考スコア(独自算出の注目度): 73.61592015908353
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: End-to-end scene text spotting has attracted great attention in recent years
due to the success of excavating the intrinsic synergy of the scene text
detection and recognition. However, recent state-of-the-art methods usually
incorporate detection and recognition simply by sharing the backbone, which
does not directly take advantage of the feature interaction between the two
tasks. In this paper, we propose a new end-to-end scene text spotting framework
termed SwinTextSpotter. Using a transformer encoder with dynamic head as the
detector, we unify the two tasks with a novel Recognition Conversion mechanism
to explicitly guide text localization through recognition loss. The
straightforward design results in a concise framework that requires neither
additional rectification module nor character-level annotation for the
arbitrarily-shaped text. Qualitative and quantitative experiments on
multi-oriented datasets RoIC13 and ICDAR 2015, arbitrarily-shaped datasets
Total-Text and CTW1500, and multi-lingual datasets ReCTS (Chinese) and VinText
(Vietnamese) demonstrate SwinTextSpotter significantly outperforms existing
methods. Code is available at https://github.com/mxin262/SwinTextSpotter.
- Abstract(参考訳): 近年,シーンテキストの検出と認識の本質的な相乗効果の発掘に成功したことにより,エンド・ツー・エンドのシーンテキストスポッティングが注目されている。
しかし、最近の最先端の手法では、バックボーンを共有するだけで検出と認識を組み込むのが一般的である。
本稿では,SwinTextSpotter と呼ばれるシーン間テキストスポッティングフレームワークを提案する。
動的頭部を検出器とするトランスフォーマーエンコーダを用いて、認識損失によるテキストローカライゼーションを明示的にガイドする新しい認識変換機構により、2つのタスクを統一する。
単純な設計は、任意の字型テキストに対する追加の修正モジュールや文字レベルのアノテーションを必要としない簡潔なフレームワークをもたらす。
オブジェクト指向データセット RoIC13 と ICDAR 2015 の定性的かつ定量的な実験 トータルテキストとCTW1500 と多言語データセット ReCTS (中国語) と VinText (ベトナム語) は、SwinTextSpotter が既存の手法よりも大幅に優れていることを示した。
コードはhttps://github.com/mxin262/SwinTextSpotter.comで入手できる。
関連論文リスト
- Efficiently Leveraging Linguistic Priors for Scene Text Spotting [63.22351047545888]
本稿では,大規模テキストコーパスから言語知識を活用する手法を提案する。
シーンテキストデータセットとよく一致したテキスト分布を生成し、ドメイン内の微調整の必要性を取り除く。
実験結果から,本手法は認識精度を向上するだけでなく,単語のより正確な局所化を可能にすることが示された。
論文 参考訳(メタデータ) (2024-02-27T01:57:09Z) - SwinTextSpotter v2: Towards Better Synergy for Scene Text Spotting [126.01629300244001]
我々はSwinTextSpotter v2と呼ばれる新しいエンドツーエンドのシーンテキストスポッティングフレームワークを提案する。
我々は,新しい認識変換モジュールと認識アライメントモジュールを用いて,2つのタスク間の関係を強化する。
SwinTextSpotter v2は、様々な多言語(英語、中国語、ベトナム語)のベンチマークで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2024-01-15T12:33:00Z) - ESTextSpotter: Towards Better Scene Text Spotting with Explicit Synergy
in Transformer [88.61312640540902]
明示的な構文に基づくテキストスポッティング変換フレームワーク(ESTextSpotter)を紹介する。
本モデルは,1つのデコーダ内におけるテキスト検出と認識のための識別的,インタラクティブな特徴をモデル化することにより,明示的な相乗効果を実現する。
実験結果から,本モデルが従来の最先端手法よりも有意に優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-08-20T03:22:23Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Towards Weakly-Supervised Text Spotting using a Multi-Task Transformer [21.479222207347238]
テキストスポッティングのための変換器ベースのアプローチであるTextTranSpotter(TTS)を紹介する。
TTSは、完全に管理された設定と弱い設定の両方で訓練される。
TextTranSpotterは、完全に教師された方法でトレーニングされ、複数のベンチマークで最先端の結果を表示する。
論文 参考訳(メタデータ) (2022-02-11T08:50:09Z) - Text Perceptron: Towards End-to-End Arbitrary-Shaped Text Spotting [49.768327669098674]
テキストパーセプトロン(Text Perceptron)という,エンドツーエンドのトレーニング可能なテキストスポッティング手法を提案する。
まず、テキスト読解順序と境界情報を学ぶ効率的なセグメンテーションベースのテキスト検出器を用いる。
次に、検出された特徴領域を正規形態に変換するために、新しい形状変換モジュール(STM)を設計する。
論文 参考訳(メタデータ) (2020-02-17T08:07:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。