論文の概要: SwinTextSpotter v2: Towards Better Synergy for Scene Text Spotting
- arxiv url: http://arxiv.org/abs/2401.07641v1
- Date: Mon, 15 Jan 2024 12:33:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-17 17:09:39.770197
- Title: SwinTextSpotter v2: Towards Better Synergy for Scene Text Spotting
- Title(参考訳): SwinTextSpotter v2: シーンテキストスポッティングのシナジー向上を目指す
- Authors: Mingxin Huang and Dezhi Peng and Hongliang Li and Zhenghao Peng and
Chongyu Liu and Dahua Lin and Yuliang Liu and Xiang Bai and Lianwen Jin
- Abstract要約: 我々はSwinTextSpotter v2と呼ばれる新しいエンドツーエンドのシーンテキストスポッティングフレームワークを提案する。
我々は,新しい認識変換モジュールと認識アライメントモジュールを用いて,2つのタスク間の関係を強化する。
SwinTextSpotter v2は、様々な多言語(英語、中国語、ベトナム語)のベンチマークで最先端のパフォーマンスを達成した。
- 参考スコア(独自算出の注目度): 126.01629300244001
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: End-to-end scene text spotting, which aims to read the text in natural
images, has garnered significant attention in recent years. However, recent
state-of-the-art methods usually incorporate detection and recognition simply
by sharing the backbone, which does not directly take advantage of the feature
interaction between the two tasks. In this paper, we propose a new end-to-end
scene text spotting framework termed SwinTextSpotter v2, which seeks to find a
better synergy between text detection and recognition. Specifically, we enhance
the relationship between two tasks using novel Recognition Conversion and
Recognition Alignment modules. Recognition Conversion explicitly guides text
localization through recognition loss, while Recognition Alignment dynamically
extracts text features for recognition through the detection predictions. This
simple yet effective design results in a concise framework that requires
neither an additional rectification module nor character-level annotations for
the arbitrarily-shaped text. Furthermore, the parameters of the detector are
greatly reduced without performance degradation by introducing a Box Selection
Schedule. Qualitative and quantitative experiments demonstrate that
SwinTextSpotter v2 achieved state-of-the-art performance on various
multilingual (English, Chinese, and Vietnamese) benchmarks. The code will be
available at
\href{https://github.com/mxin262/SwinTextSpotterv2}{SwinTextSpotter v2}.
- Abstract(参考訳): 近年,自然画像でテキストを読むことを目的としたエンド・ツー・エンドのシーンテキストスポッティングが注目されている。
しかし、最近の最先端の手法では、バックボーンを共有するだけで検出と認識を組み込むのが一般的である。
本稿では,swaintextspotter v2と呼ばれる,テキスト検出と認識の相乗効果向上を目的とした,エンド・ツー・エンドのテキストスポッティングフレームワークを提案する。
具体的には、新しい認識変換と認識アライメントモジュールを用いた2つのタスク間の関係を強化する。
認識変換は認識損失を通じてテキストのローカライゼーションを明示的にガイドし、認識アライメントは検出予測を通じて認識のためのテキストの特徴を動的に抽出する。
このシンプルで効果的な設計は、任意の形のテキストに対して追加の修正モジュールや文字レベルのアノテーションを必要としない簡潔なフレームワークをもたらす。
さらに、ボックス選択スケジュールを導入することにより、性能劣化を伴わずに検出器のパラメータを大幅に低減する。
SwinTextSpotter v2は、様々な多言語(英語、中国語、ベトナム語)ベンチマークで最先端のパフォーマンスを達成した。
コードは \href{https://github.com/mxin262/SwinTextSpotterv2}{SwinTextSpotter v2} で入手できる。
関連論文リスト
- Efficiently Leveraging Linguistic Priors for Scene Text Spotting [63.22351047545888]
本稿では,大規模テキストコーパスから言語知識を活用する手法を提案する。
シーンテキストデータセットとよく一致したテキスト分布を生成し、ドメイン内の微調整の必要性を取り除く。
実験結果から,本手法は認識精度を向上するだけでなく,単語のより正確な局所化を可能にすることが示された。
論文 参考訳(メタデータ) (2024-02-27T01:57:09Z) - ESTextSpotter: Towards Better Scene Text Spotting with Explicit Synergy
in Transformer [88.61312640540902]
明示的な構文に基づくテキストスポッティング変換フレームワーク(ESTextSpotter)を紹介する。
本モデルは,1つのデコーダ内におけるテキスト検出と認識のための識別的,インタラクティブな特徴をモデル化することにより,明示的な相乗効果を実現する。
実験結果から,本モデルが従来の最先端手法よりも有意に優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-08-20T03:22:23Z) - Decoupling Recognition from Detection: Single Shot Self-Reliant Scene
Text Spotter [34.09162878714425]
単発自撮りScene Text Spotter(SRSTS)を提案する。
テキストの検出と認識を並列に行い、共有された正のアンカーポイントでそれらをブリッジする。
本手法では,正確なテキスト境界を検出できない場合でも,テキストインスタンスを正しく認識することができる。
論文 参考訳(メタデータ) (2022-07-15T01:59:14Z) - SwinTextSpotter: Scene Text Spotting via Better Synergy between Text
Detection and Text Recognition [73.61592015908353]
本稿では,SwinTextSpotter と呼ばれるシーンテキストスポッティングフレームワークを提案する。
動的頭部を検出器とするトランスを用いて、2つのタスクを新しい認識変換機構で統一する。
この設計は、追加の修正モジュールも文字レベルのアノテーションも必要としない簡潔なフレームワークをもたらす。
論文 参考訳(メタデータ) (2022-03-19T01:14:42Z) - Towards Weakly-Supervised Text Spotting using a Multi-Task Transformer [21.479222207347238]
テキストスポッティングのための変換器ベースのアプローチであるTextTranSpotter(TTS)を紹介する。
TTSは、完全に管理された設定と弱い設定の両方で訓練される。
TextTranSpotterは、完全に教師された方法でトレーニングされ、複数のベンチマークで最先端の結果を表示する。
論文 参考訳(メタデータ) (2022-02-11T08:50:09Z) - AE TextSpotter: Learning Visual and Linguistic Representation for
Ambiguous Text Spotting [98.08853679310603]
本研究はAmbiguity Elimination Text Spotter(AE TextSpotter)という新しいテキストスポッターを提案する。
AE TextSpotterは、視覚的特徴と言語的特徴の両方を学び、テキスト検出の曖昧さを著しく低減する。
我々の知る限り、言語モデルを用いてテキスト検出を改善するのはこれが初めてである。
論文 参考訳(メタデータ) (2020-08-03T08:40:01Z) - Text Perceptron: Towards End-to-End Arbitrary-Shaped Text Spotting [49.768327669098674]
テキストパーセプトロン(Text Perceptron)という,エンドツーエンドのトレーニング可能なテキストスポッティング手法を提案する。
まず、テキスト読解順序と境界情報を学ぶ効率的なセグメンテーションベースのテキスト検出器を用いる。
次に、検出された特徴領域を正規形態に変換するために、新しい形状変換モジュール(STM)を設計する。
論文 参考訳(メタデータ) (2020-02-17T08:07:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。