論文の概要: All You Need is a Second Look: Towards Arbitrary-Shaped Text Detection
- arxiv url: http://arxiv.org/abs/2106.12720v1
- Date: Thu, 24 Jun 2021 01:44:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-26 07:15:56.713794
- Title: All You Need is a Second Look: Towards Arbitrary-Shaped Text Detection
- Title(参考訳): 第2に必要なのは、任意の形のテキスト検出です。
- Authors: Meng Cao, Can Zhang, Dongming Yang, Yuexian Zou
- Abstract要約: 本稿では,NASK (Need A Second looK) と呼ばれる2段階セグメンテーションによる任意のテキスト検出手法を提案する。
- 参考スコア(独自算出の注目度): 39.17648241471479
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Arbitrary-shaped text detection is a challenging task since curved texts in
the wild are of the complex geometric layouts. Existing mainstream methods
follow the instance segmentation pipeline to obtain the text regions. However,
arbitraryshaped texts are difficult to be depicted through one single
segmentation network because of the varying scales. In this paper, we propose a
two-stage segmentation-based detector, termed as NASK (Need A Second looK), for
arbitrary-shaped text detection. Compared to the traditional single-stage
segmentation network, our NASK conducts the detection in a coarse-to-fine
manner with the first stage segmentation spotting the rectangle text proposals
and the second one retrieving compact representations. Specifically, NASK is
composed of a Text Instance Segmentation (TIS) network (1st stage), a
Geometry-aware Text RoI Alignment (GeoAlign) module, and a Fiducial pOint
eXpression (FOX) module (2nd stage). Firstly, TIS extracts the augmented
features with a novel Group Spatial and Channel Attention (GSCA) module and
conducts instance segmentation to obtain rectangle proposals. Then, GeoAlign
converts these rectangles into the fixed size and encodes RoI-wise feature
representation. Finally, FOX disintegrates the text instance into serval
pivotal geometrical attributes to refine the detection results. Extensive
experimental results on three public benchmarks including Total-Text,
SCUTCTW1500, and ICDAR 2015 verify that our NASK outperforms recent
state-of-the-art methods.
- Abstract(参考訳): 任意形のテキスト検出は、複雑な幾何学的レイアウトの曲面テキストであるため、難しい作業である。
既存の主流メソッドは、テキスト領域を取得するためにインスタンスセグメンテーションパイプラインに従う。
しかし,任意の形状のテキストを1つのセグメンテーションネットワークで表現することは困難である。
本稿では,NASK (Need A Second looK) と呼ばれる2段階セグメンテーションによる任意のテキスト検出手法を提案する。
従来の単段分割ネットワークと比較して、NASKは長方形テキストの提案をスポットする第1段分割とコンパクト表現を検索する第2段分割とを粗い方法で検出する。
特に、NASKは、テキストインスタンスセグメンテーション(TIS)ネットワーク(第1ステージ)、幾何対応テキストRoIアライメント(GeoAlign)モジュール(GeoAlign)モジュール、およびFiducial pOint eXpression(FOX)モジュール(第2ステージ)から構成される。
まず、TISは、新しいグループ空間とチャネルアテンション(GSCA)モジュールで拡張機能を抽出し、長方形の提案を得るためにインスタンスセグメンテーションを行う。
次に、GeoAlignはこれらの矩形を固定サイズに変換し、RoI-wise特徴表現を符号化する。
最後に、foxはテキストインスタンスをserval pivotal geometrical attributeに分解し、検出結果を洗練する。
Total-Text, SCUTCTW1500, ICDAR 2015の3つの公開ベンチマークによる大規模な実験結果から、NASKが最近の最先端手法よりも優れていることが確認された。
関連論文リスト
- TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - ABCNet v2: Adaptive Bezier-Curve Network for Real-time End-to-end Text
Spotting [108.93803186429017]
エンドツーエンドのテキストスポッティングは、統一されたフレームワークで検出と認識を統合することを目指している。
本稿では、Adaptive Bezier Curve Network v2 (ABCNet v2) を提示することで、エンドツーエンドテキストスポッティングに取り組む。
1) 任意の形状のテキストをパラメータ化されたベジアー曲線で適応的に適合させ, セグメンテーション法と比較すると, 構造的な出力だけでなく, 制御可能な表現も提供できる。
様々なバイリンガル(英語と中国語)ベンチマークデータセットで実施された総合的な実験は、ABCNet v2が現状を達成することを実証している。
論文 参考訳(メタデータ) (2021-05-08T07:46:55Z) - Rethinking Text Segmentation: A Novel Dataset and A Text-Specific
Refinement Approach [34.63444886780274]
テキストセグメンテーションは、現実世界のテキスト関連タスクの前提条件である。
本稿では,テキスト分割手法であるText Refinement Network (TexRNet)を紹介する。
TexRNetは、他の最先端セグメンテーション手法と比較して、テキストセグメンテーションのパフォーマンスを2%近く改善している。
論文 参考訳(メタデータ) (2020-11-27T22:50:09Z) - All you need is a second look: Towards Tighter Arbitrary shape text
detection [80.85188469964346]
長い曲線のテキストインスタンスは、CNNの受信フィールドサイズが制限されているため、断片化されがちである。
矩形や四角形のバウンディングボックスを用いた単純な表現は、より難しい任意の形のテキストを扱う際に不足する。
textitNASKは、予測された幾何学的属性を使用して、より厳密な表現でテキストインスタンスを再構築する。
論文 参考訳(メタデータ) (2020-04-26T17:03:41Z) - ContourNet: Taking a Further Step toward Accurate Arbitrary-shaped Scene
Text Detection [147.10751375922035]
本研究では,シーンテキストの偽陽性と大規模分散を効果的に処理するContourNetを提案する。
本手法は,両方向の応答値の高い予測を出力するだけで,これらの偽陽性を効果的に抑制する。
論文 参考訳(メタデータ) (2020-04-10T08:15:23Z) - PuzzleNet: Scene Text Detection by Segment Context Graph Learning [9.701699882807251]
そこで本研究では,Puzzle Networks (PuzzleNets) と呼ばれる新しい分解手法を提案する。
セグメントをコンテキストグラフとして構築することで、MSGCNはセグメントの組み合わせを予測するためにセグメントコンテキストを効果的に利用する。
提案手法は,セグメントコンテキストグラフの活用により,現在の最先端技術よりも優れた,あるいは同等の性能を実現することができる。
論文 参考訳(メタデータ) (2020-02-26T09:21:05Z) - Text Perceptron: Towards End-to-End Arbitrary-Shaped Text Spotting [49.768327669098674]
テキストパーセプトロン(Text Perceptron)という,エンドツーエンドのトレーニング可能なテキストスポッティング手法を提案する。
まず、テキスト読解順序と境界情報を学ぶ効率的なセグメンテーションベースのテキスト検出器を用いる。
次に、検出された特徴領域を正規形態に変換するために、新しい形状変換モジュール(STM)を設計する。
論文 参考訳(メタデータ) (2020-02-17T08:07:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。