論文の概要: ESTextSpotter: Towards Better Scene Text Spotting with Explicit Synergy
in Transformer
- arxiv url: http://arxiv.org/abs/2308.10147v1
- Date: Sun, 20 Aug 2023 03:22:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-22 17:28:05.143595
- Title: ESTextSpotter: Towards Better Scene Text Spotting with Explicit Synergy
in Transformer
- Title(参考訳): ESTextSpotter: トランスフォーマーの明示的なシナジーによるシーンテキストスポッティングの改善
- Authors: Mingxin Huang, Jiaxin Zhang, Dezhi Peng, Hao Lu, Can Huang, Yuliang
Liu, Xiang Bai, Lianwen Jin
- Abstract要約: 明示的な構文に基づくテキストスポッティング変換フレームワーク(ESTextSpotter)を紹介する。
本モデルは,1つのデコーダ内におけるテキスト検出と認識のための識別的,インタラクティブな特徴をモデル化することにより,明示的な相乗効果を実現する。
実験結果から,本モデルが従来の最先端手法よりも有意に優れていたことが示唆された。
- 参考スコア(独自算出の注目度): 88.61312640540902
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, end-to-end scene text spotting approaches are evolving to
the Transformer-based framework. While previous studies have shown the crucial
importance of the intrinsic synergy between text detection and recognition,
recent advances in Transformer-based methods usually adopt an implicit synergy
strategy with shared query, which can not fully realize the potential of these
two interactive tasks. In this paper, we argue that the explicit synergy
considering distinct characteristics of text detection and recognition can
significantly improve the performance text spotting. To this end, we introduce
a new model named Explicit Synergy-based Text Spotting Transformer framework
(ESTextSpotter), which achieves explicit synergy by modeling discriminative and
interactive features for text detection and recognition within a single
decoder. Specifically, we decompose the conventional shared query into
task-aware queries for text polygon and content, respectively. Through the
decoder with the proposed vision-language communication module, the queries
interact with each other in an explicit manner while preserving discriminative
patterns of text detection and recognition, thus improving performance
significantly. Additionally, we propose a task-aware query initialization
scheme to ensure stable training. Experimental results demonstrate that our
model significantly outperforms previous state-of-the-art methods. Code is
available at https://github.com/mxin262/ESTextSpotter.
- Abstract(参考訳): 近年、エンドツーエンドのシーンテキストスポッティングアプローチがTransformerベースのフレームワークに進化している。
これまでの研究では、テキスト検出と認識の間に内在するシナジーの重要性が示されているが、トランスフォーマティブベースの手法の最近の進歩は、通常、共有クエリを伴う暗黙的なシナジー戦略を採用しており、これら2つの対話的タスクの可能性を完全には認識できない。
本稿では,テキスト検出と認識の異なる特徴を考慮に入れた明示的な相乗効果が,パフォーマンステキストスポッティングを著しく向上させることを論じる。
そこで本研究では,テキスト検出と認識のための識別的,インタラクティブな特徴を単一デコーダ内でモデル化することにより,明示的なシナジーを実現する,Explicit Synergy-based Text Spotting Transformer framework (ESTextSpotter) を提案する。
具体的には、従来の共有クエリを、テキストポリゴンとコンテンツのタスク対応クエリに分解する。
提案する視覚言語通信モジュールを用いたデコーダにより,テキスト検出と認識の識別パターンを保ちながら,クエリ同士を明示的な方法で対話し,性能を著しく向上させる。
さらに,安定したトレーニングを実現するタスク対応クエリ初期化スキームを提案する。
実験の結果,本モデルが従来の最先端手法を大きく上回ることがわかった。
コードはhttps://github.com/mxin262/estextspotterで入手できる。
関連論文リスト
- SwinTextSpotter v2: Towards Better Synergy for Scene Text Spotting [126.01629300244001]
我々はSwinTextSpotter v2と呼ばれる新しいエンドツーエンドのシーンテキストスポッティングフレームワークを提案する。
我々は,新しい認識変換モジュールと認識アライメントモジュールを用いて,2つのタスク間の関係を強化する。
SwinTextSpotter v2は、様々な多言語(英語、中国語、ベトナム語)のベンチマークで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2024-01-15T12:33:00Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Vision-Language Pre-Training for Boosting Scene Text Detectors [57.08046351495244]
シーンテキスト検出に視覚言語を用いた共同学習を特に応用する。
本稿では,視覚言語による事前学習を通して,文脈化された共同表現を学習することを提案する。
事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができる。
論文 参考訳(メタデータ) (2022-04-29T03:53:54Z) - SwinTextSpotter: Scene Text Spotting via Better Synergy between Text
Detection and Text Recognition [73.61592015908353]
本稿では,SwinTextSpotter と呼ばれるシーンテキストスポッティングフレームワークを提案する。
動的頭部を検出器とするトランスを用いて、2つのタスクを新しい認識変換機構で統一する。
この設計は、追加の修正モジュールも文字レベルのアノテーションも必要としない簡潔なフレームワークをもたらす。
論文 参考訳(メタデータ) (2022-03-19T01:14:42Z) - Towards Weakly-Supervised Text Spotting using a Multi-Task Transformer [21.479222207347238]
テキストスポッティングのための変換器ベースのアプローチであるTextTranSpotter(TTS)を紹介する。
TTSは、完全に管理された設定と弱い設定の両方で訓練される。
TextTranSpotterは、完全に教師された方法でトレーニングされ、複数のベンチマークで最先端の結果を表示する。
論文 参考訳(メタデータ) (2022-02-11T08:50:09Z) - TRIG: Transformer-Based Text Recognizer with Initial Embedding Guidance [15.72669617789124]
シーンテキスト認識(STR)は画像とテキストの間の重要なブリッジである。
最近の手法では、凍結初期埋め込みを使用してデコーダを誘導し、特徴をテキストにデコードし、精度が低下する。
TRansformer-based text recognizer with Initial embeddeding Guidance (TRIG) という,テキスト認識のための新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-11-16T09:10:39Z) - Text Perceptron: Towards End-to-End Arbitrary-Shaped Text Spotting [49.768327669098674]
テキストパーセプトロン(Text Perceptron)という,エンドツーエンドのトレーニング可能なテキストスポッティング手法を提案する。
まず、テキスト読解順序と境界情報を学ぶ効率的なセグメンテーションベースのテキスト検出器を用いる。
次に、検出された特徴領域を正規形態に変換するために、新しい形状変換モジュール(STM)を設計する。
論文 参考訳(メタデータ) (2020-02-17T08:07:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。