論文の概要: MANGO: A Mask Attention Guided One-Stage Scene Text Spotter
- arxiv url: http://arxiv.org/abs/2012.04350v1
- Date: Tue, 8 Dec 2020 10:47:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-16 21:15:52.561442
- Title: MANGO: A Mask Attention Guided One-Stage Scene Text Spotter
- Title(参考訳): マスクに注意を向けたワンステージテキストスポッターMango
- Authors: Liang Qiao, Ying Chen, Zhanzhan Cheng, Yunlu Xu, Yi Niu, Shiliang Pu
and Fei Wu
- Abstract要約: MANGOという,新しいMask AttentioN Guided One-stage text Spotting frameworkを提案する。
提案手法は,正規テキストスポッティングベンチマークと不規則テキストスポッティングベンチマークの両方において,競争力と新たな最先端性能を実現する。
- 参考スコア(独自算出の注目度): 41.66707532607276
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recently end-to-end scene text spotting has become a popular research topic
due to its advantages of global optimization and high maintainability in real
applications. Most methods attempt to develop various region of interest (RoI)
operations to concatenate the detection part and the sequence recognition part
into a two-stage text spotting framework. However, in such framework, the
recognition part is highly sensitive to the detected results (\emph{e.g.}, the
compactness of text contours). To address this problem, in this paper, we
propose a novel Mask AttentioN Guided One-stage text spotting framework named
MANGO, in which character sequences can be directly recognized without RoI
operation. Concretely, a position-aware mask attention module is developed to
generate attention weights on each text instance and its characters. It allows
different text instances in an image to be allocated on different feature map
channels which are further grouped as a batch of instance features. Finally, a
lightweight sequence decoder is applied to generate the character sequences. It
is worth noting that MANGO inherently adapts to arbitrary-shaped text spotting
and can be trained end-to-end with only coarse position information
(\emph{e.g.}, rectangular bounding box) and text annotations. Experimental
results show that the proposed method achieves competitive and even new
state-of-the-art performance on both regular and irregular text spotting
benchmarks, i.e., ICDAR 2013, ICDAR 2015, Total-Text, and SCUT-CTW1500.
- Abstract(参考訳): 近年,グローバルな最適化と実アプリケーションにおける高い保守性により,エンド・ツー・エンドのテキストスポッティングが注目されている。
ほとんどの方法は、検出部とシーケンス認識部を2段階のテキストスポッティングフレームワークにまとめるために、様々な関心領域(RoI)操作を開発する。
しかし、そのような枠組みでは、認識部は検出された結果に非常に敏感である(\emph{e.g.)。
テキストの輪郭のコンパクトさ)。
本稿では,文字列をRoI操作なしで直接認識できるMANGOという新しいテキストスポッティングフレームワークを提案する。
具体的には、位置認識マスク注意モジュールを開発し、各テキストインスタンスとその文字に対する注意重みを生成する。
画像内の異なるテキストインスタンスを異なるフィーチャーマップチャネルに割り当てることができ、さらにインスタンス機能のバッチとしてグループ化される。
最後に、文字列を生成するために軽量シーケンスデコーダを適用する。
MANGOは本質的に任意の形のテキストスポッティングに適応し、粗い位置情報(\emph{e.g)でエンドツーエンドにトレーニングできる点に注意が必要だ。
長方形のバウンディングボックス)とテキストアノテーションです。
実験結果から,本手法は通常のテキストスポッティングベンチマークと不規則テキストスポッティングベンチマーク,すなわち ICDAR 2013 ICDAR 2015 Total-Text と SCUT-CTW1500 において,競合的かつ新たな技術性能を実現する。
関連論文リスト
- Region Prompt Tuning: Fine-grained Scene Text Detection Utilizing Region Text Prompt [10.17947324152468]
リージョンプロンプトチューニング手法は、領域テキストプロンプトを個々の文字に分解し、視覚特徴マップを領域視覚トークンに分割する。
これにより、文字はトークンの局所的な特徴と一致し、詳細な特徴やきめ細かいテキストが省略されるのを避けることができる。
提案手法は,画像テキストプロセスから得られた一般的なスコアマップと,文字とトークンのマッチングから得られた領域スコアマップを組み合わせる。
論文 参考訳(メタデータ) (2024-09-20T15:24:26Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - ViewCo: Discovering Text-Supervised Segmentation Masks via Multi-View
Semantic Consistency [126.88107868670767]
テキスト教師付きセマンティックセグメンテーションのためのマルチテキストbfView textbfConsistent Learning (ViewCo)を提案する。
まず,同じ入力画像の複数ビューに対する対応性を学習するためのテキスト・ツー・ビュー整合性モデリングを提案する。
また,テキスト管理の曖昧性問題に対処するために,クロスビューセグメンテーション整合性モデリングを提案する。
論文 参考訳(メタデータ) (2023-01-31T01:57:52Z) - SwinTextSpotter: Scene Text Spotting via Better Synergy between Text
Detection and Text Recognition [73.61592015908353]
本稿では,SwinTextSpotter と呼ばれるシーンテキストスポッティングフレームワークを提案する。
動的頭部を検出器とするトランスを用いて、2つのタスクを新しい認識変換機構で統一する。
この設計は、追加の修正モジュールも文字レベルのアノテーションも必要としない簡潔なフレームワークをもたらす。
論文 参考訳(メタデータ) (2022-03-19T01:14:42Z) - PGNet: Real-time Arbitrarily-Shaped Text Spotting with Point Gathering
Network [54.03560668182197]
任意形状のテキストをリアルタイムで読み取るための,完全畳み込み点収集ネットワーク(PGNet)を提案する。
PG-CTCデコーダを用いて2次元空間から高レベル文字分類ベクトルを収集し,NMSやRoI操作を使わずにテキストシンボルに復号する。
実験により,提案手法は競争精度が向上し,走行速度が著しく向上することが確認された。
論文 参考訳(メタデータ) (2021-04-12T13:27:34Z) - SCATTER: Selective Context Attentional Scene Text Recognizer [16.311256552979835]
Scene Text Recognition (STR) は複雑な画像背景に対してテキストを認識するタスクである。
現在のSOTA(State-of-the-art)メソッドは、任意の形で書かれたテキストを認識するのに依然として苦労している。
Selective Context Attentional Text Recognizer (SCATTER) というSTRの新しいアーキテクチャを導入する。
論文 参考訳(メタデータ) (2020-03-25T09:20:28Z) - Text Perceptron: Towards End-to-End Arbitrary-Shaped Text Spotting [49.768327669098674]
テキストパーセプトロン(Text Perceptron)という,エンドツーエンドのトレーニング可能なテキストスポッティング手法を提案する。
まず、テキスト読解順序と境界情報を学ぶ効率的なセグメンテーションベースのテキスト検出器を用いる。
次に、検出された特徴領域を正規形態に変換するために、新しい形状変換モジュール(STM)を設計する。
論文 参考訳(メタデータ) (2020-02-17T08:07:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。