論文の概要: Mask TextSpotter v3: Segmentation Proposal Network for Robust Scene Text
Spotting
- arxiv url: http://arxiv.org/abs/2007.09482v1
- Date: Sat, 18 Jul 2020 17:25:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-09 05:52:13.056911
- Title: Mask TextSpotter v3: Segmentation Proposal Network for Robust Scene Text
Spotting
- Title(参考訳): Mask TextSpotter v3:ロバストなシーンテキストスポッティングのためのセグメンテーション提案ネットワーク
- Authors: Minghui Liao, Guan Pang, Jing Huang, Tal Hassner, Xiang Bai
- Abstract要約: ほとんどの任意形状のシーンテキストスポッターは、地域提案ネットワーク(RPN)を使用して提案を作成する。
Mask TextSpotter v3は、極端なアスペクト比や不規則な形状のテキストインスタンスを処理できます。
- 参考スコア(独自算出の注目度): 71.6244869235243
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent end-to-end trainable methods for scene text spotting, integrating
detection and recognition, showed much progress. However, most of the current
arbitrary-shape scene text spotters use region proposal networks (RPN) to
produce proposals. RPN relies heavily on manually designed anchors and its
proposals are represented with axis-aligned rectangles. The former presents
difficulties in handling text instances of extreme aspect ratios or irregular
shapes, and the latter often includes multiple neighboring instances into a
single proposal, in cases of densely oriented text. To tackle these problems,
we propose Mask TextSpotter v3, an end-to-end trainable scene text spotter that
adopts a Segmentation Proposal Network (SPN) instead of an RPN. Our SPN is
anchor-free and gives accurate representations of arbitrary-shape proposals. It
is therefore superior to RPN in detecting text instances of extreme aspect
ratios or irregular shapes. Furthermore, the accurate proposals produced by SPN
allow masked RoI features to be used for decoupling neighboring text instances.
As a result, our Mask TextSpotter v3 can handle text instances of extreme
aspect ratios or irregular shapes, and its recognition accuracy won't be
affected by nearby text or background noise. Specifically, we outperform
state-of-the-art methods by 21.9 percent on the Rotated ICDAR 2013 dataset
(rotation robustness), 5.9 percent on the Total-Text dataset (shape
robustness), and achieve state-of-the-art performance on the MSRA-TD500 dataset
(aspect ratio robustness). Code is available at:
https://github.com/MhLiao/MaskTextSpotterV3
- Abstract(参考訳): 近年, シーンテキストスポッティング, 検出と認識を統合したエンド・ツー・エンドのトレーニングが可能となった。
しかし、現在の任意のシーンテキストスポッターのほとんどは、提案を作成するために地域提案ネットワーク(RPN)を使用している。
RPNは手動設計のアンカーに大きく依存しており、その提案は軸方向の矩形で表される。
前者は、極端なアスペクト比や不規則な形状のテキストインスタンスを扱うのに困難を示し、後者は、密集したテキストの場合、複数の隣接するインスタンスを単一の提案に含めることが多い。
これらの問題に対処するために,RPNの代わりにSegmentation Proposal Network(SPN)を採用したエンドツーエンドのトレーニング可能なシーンテキストスポッターであるMask TextSpotter v3を提案する。
我々のSPNはアンカーフリーであり、任意の形の提案の正確な表現を提供する。
したがって、極端なアスペクト比や不規則な形状のテキストインスタンスを検出する場合、RPNよりも優れている。
さらに、SPNが作成する正確な提案により、隣接するテキストインスタンスの分離にマスク付きのRoI機能を使用することができる。
その結果、マスクテキストスポッターv3は、極端なアスペクト比や不規則な形状のテキストインスタンスを処理でき、その認識精度は、近くのテキストや背景ノイズに影響されない。
具体的には、回転したicdar 2013データセット(回転ロバスト性)の21.9%、全テキストデータセット(形状ロバスト性)の5.9%、msra-td500データセット(アスペクト比ロバスト性)の最先端性能を達成する。
コードは、https://github.com/MhLiao/MaskTextSpotterV3で入手できる。
関連論文リスト
- Adaptive Segmentation Network for Scene Text Detection [0.0]
セグメント化に基づくシーンテキスト検出のための背景画素とテキスト画素を区別する識別セグメンテーションしきい値を自動的に学習する。
さらに、マクロサイズと極端アスペクト比でテキストインスタンスをキャプチャするGE-FPN(Global-information Enhanced Feature Pyramid Network)を設計する。
最後に,提案したしきい値学習戦略とテキスト検出構造とともに,シーンテキスト検出のための適応ネットワーク(ASNet)を設計する。
論文 参考訳(メタデータ) (2023-07-27T17:37:56Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - TextDCT: Arbitrary-Shaped Text Detection via Discrete Cosine Transform
Mask [19.269070203448187]
任意形状のシーンテキスト検出は、フォント、サイズ、色、方向のさまざまな変更があるため、難しい作業である。
本研究では,テキストマスクをコンパクトなベクトルとして符号化する離散コサイン変換(DCT)を採用した,新しい軽量アンカーフリーテキスト検出フレームワークTextDCTを提案する。
TextDCTは、毎秒17.2フレームで85.1、CTW1500の15.1FPSで84.9、トータルテキストデータセットで84.9のF測定を実現している。
論文 参考訳(メタデータ) (2022-06-27T15:42:25Z) - CentripetalText: An Efficient Text Instance Representation for Scene
Text Detection [19.69057252363207]
我々はCentripetalText (CT) という名前の効率的なテキストインスタンス表現を提案する。
CTはテキストインスタンスをテキストカーネルと中心シフトの組み合わせに分解する。
シーンテキスト検出の課題に対して,本手法は既存の手法に比べて優れた,あるいは競合的な性能を発揮する。
論文 参考訳(メタデータ) (2021-07-13T09:34:18Z) - PAN++: Towards Efficient and Accurate End-to-End Spotting of
Arbitrarily-Shaped Text [85.7020597476857]
自然場面における任意の形状のテキストを効率的に検出し認識できる,エンドツーエンドのテキストスポッティングフレームワークpan++を提案する。
PAN++は、テキスト行を周辺ピクセルに囲まれたテキストカーネル(中央領域)として再構成するカーネル表現に基づいている。
ピクセルベースの表現として、カーネル表現は1つの完全な畳み込みネットワークによって予測できる。
論文 参考訳(メタデータ) (2021-05-02T07:04:30Z) - PGNet: Real-time Arbitrarily-Shaped Text Spotting with Point Gathering
Network [54.03560668182197]
任意形状のテキストをリアルタイムで読み取るための,完全畳み込み点収集ネットワーク(PGNet)を提案する。
PG-CTCデコーダを用いて2次元空間から高レベル文字分類ベクトルを収集し,NMSやRoI操作を使わずにテキストシンボルに復号する。
実験により,提案手法は競争精度が向上し,走行速度が著しく向上することが確認された。
論文 参考訳(メタデータ) (2021-04-12T13:27:34Z) - Rethinking Text Segmentation: A Novel Dataset and A Text-Specific
Refinement Approach [34.63444886780274]
テキストセグメンテーションは、現実世界のテキスト関連タスクの前提条件である。
本稿では,テキスト分割手法であるText Refinement Network (TexRNet)を紹介する。
TexRNetは、他の最先端セグメンテーション手法と比較して、テキストセグメンテーションのパフォーマンスを2%近く改善している。
論文 参考訳(メタデータ) (2020-11-27T22:50:09Z) - All you need is a second look: Towards Tighter Arbitrary shape text
detection [80.85188469964346]
長い曲線のテキストインスタンスは、CNNの受信フィールドサイズが制限されているため、断片化されがちである。
矩形や四角形のバウンディングボックスを用いた単純な表現は、より難しい任意の形のテキストを扱う際に不足する。
textitNASKは、予測された幾何学的属性を使用して、より厳密な表現でテキストインスタンスを再構築する。
論文 参考訳(メタデータ) (2020-04-26T17:03:41Z) - ContourNet: Taking a Further Step toward Accurate Arbitrary-shaped Scene
Text Detection [147.10751375922035]
本研究では,シーンテキストの偽陽性と大規模分散を効果的に処理するContourNetを提案する。
本手法は,両方向の応答値の高い予測を出力するだけで,これらの偽陽性を効果的に抑制する。
論文 参考訳(メタデータ) (2020-04-10T08:15:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。