論文の概要: All you need is a second look: Towards Tighter Arbitrary shape text
detection
- arxiv url: http://arxiv.org/abs/2004.12436v1
- Date: Sun, 26 Apr 2020 17:03:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-09 13:47:45.087698
- Title: All you need is a second look: Towards Tighter Arbitrary shape text
detection
- Title(参考訳): もう1つ必要なのは、Tighter Arbitrary形式のテキスト検出です。
- Authors: Meng Cao, Yuexian Zou
- Abstract要約: 長い曲線のテキストインスタンスは、CNNの受信フィールドサイズが制限されているため、断片化されがちである。
矩形や四角形のバウンディングボックスを用いた単純な表現は、より難しい任意の形のテキストを扱う際に不足する。
textitNASKは、予測された幾何学的属性を使用して、より厳密な表現でテキストインスタンスを再構築する。
- 参考スコア(独自算出の注目度): 80.85188469964346
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning-based scene text detection methods have progressed
substantially over the past years. However, there remain several problems to be
solved. Generally, long curve text instances tend to be fragmented because of
the limited receptive field size of CNN. Besides, simple representations using
rectangle or quadrangle bounding boxes fall short when dealing with more
challenging arbitrary-shaped texts. In addition, the scale of text instances
varies greatly which leads to the difficulty of accurate prediction through a
single segmentation network. To address these problems, we innovatively propose
a two-stage segmentation based arbitrary text detector named \textit{NASK}
(\textbf{N}eed \textbf{A} \textbf{S}econd loo\textbf{K}). Specifically,
\textit{NASK} consists of a Text Instance Segmentation network namely
\textit{TIS} (\(1^{st}\) stage), a Text RoI Pooling module and a Fiducial pOint
eXpression module termed as \textit{FOX} (\(2^{nd}\) stage). Firstly,
\textit{TIS} conducts instance segmentation to obtain rectangle text proposals
with a proposed Group Spatial and Channel Attention module (\textit{GSCA}) to
augment the feature expression. Then, Text RoI Pooling transforms these
rectangles to the fixed size. Finally, \textit{FOX} is introduced to
reconstruct text instances with a more tighter representation using the
predicted geometrical attributes including text center line, text line
orientation, character scale and character orientation. Experimental results on
two public benchmarks including \textit{Total-Text} and \textit{SCUT-CTW1500}
have demonstrated that the proposed \textit{NASK} achieves state-of-the-art
results.
- Abstract(参考訳): 近年,深層学習に基づくシーンテキスト検出手法が大幅に進歩している。
しかし、解決すべき問題がいくつか残っている。
一般的に、長い曲線のテキストインスタンスはcnnの受容的フィールドサイズが限られているため断片化される傾向がある。
さらに、矩形や四角形の境界ボックスを用いた単純な表現は、より難しい任意の形のテキストを扱う際に不足する。
さらに、テキストインスタンスの規模は大きく異なり、単一のセグメンテーションネットワークによる正確な予測が困難になる。
これらの問題に対処するために, 2段階のセグメンテーションに基づく任意のテキスト検出器である \textit{NASK} (\textbf{N}eed \textbf{A} \textbf{S}econd loo\textbf{K}) を提案する。
具体的には、 \textit{nask} は、テキストインスタンスセグメンテーションネットワーク、すなわち \textit{tis} (\(1^{st}\) ステージ)、テキストroiプーリングモジュール、および \textit{fox} (\(2^{nd}\) ステージと呼ばれるfiducial point expressionモジュールで構成される。
まず、 \textit{tis} がインスタンスセグメンテーションを行い、提案されたグループ空間およびチャネル注意モジュール(\textit{gsca})を用いて長方形のテキストプロポーザルを取得し、特徴表現を増強する。
そして、Text RoI Poolingはこれらの矩形を固定サイズに変換する。
最後に、テキスト中心線、テキスト線方向、文字スケール、文字方向を含む予測幾何学的属性を使用して、より厳密な表現でテキストインスタンスを再構築する。
公開ベンチマークである \textit{total-text} と \textit{scut-ctw1500} の実験結果は、提案された \textit{nask} が最先端の結果を得ることを示した。
関連論文リスト
- Contextual Text Block Detection towards Scene Text Understanding [85.40898487745272]
本稿では,シーン中のテキストをよりよく理解するためのコンテキストテキストブロック(CTB)を新たに検出する,コンテキストテキスト検出手法を提案する。
本稿では、まずテキスト単位を検出し、次にCTBにグループ化する二重検出タスクにより、新しい設定を定式化する。
そこで本研究では,統合テキスト単位をトークンとして扱うシーンテキストクラスタリング手法を設計し,それらを(同じCTBに延長する)順序付きトークンシーケンスにグループ化する。
論文 参考訳(メタデータ) (2022-07-26T14:59:25Z) - CORE-Text: Improving Scene Text Detection with Contrastive Relational
Reasoning [65.57338873921168]
自然界におけるテキストインスタンスのローカライズは、コンピュータビジョンにおける根本的な課題であると考えられている。
本研究では,サブテキスト問題を定量的に解析し,シンプルで効果的な設計であるContrastive Relation(CORE)モジュールを提案する。
我々は、COREモジュールをMask R-CNNの2段階テキスト検出器に統合し、テキスト検出器CORE-Textを考案する。
論文 参考訳(メタデータ) (2021-12-14T16:22:25Z) - CentripetalText: An Efficient Text Instance Representation for Scene
Text Detection [19.69057252363207]
我々はCentripetalText (CT) という名前の効率的なテキストインスタンス表現を提案する。
CTはテキストインスタンスをテキストカーネルと中心シフトの組み合わせに分解する。
シーンテキスト検出の課題に対して,本手法は既存の手法に比べて優れた,あるいは競合的な性能を発揮する。
論文 参考訳(メタデータ) (2021-07-13T09:34:18Z) - All You Need is a Second Look: Towards Arbitrary-Shaped Text Detection [39.17648241471479]
本稿では,NASK (Need A Second looK) と呼ばれる2段階セグメンテーションによる任意のテキスト検出手法を提案する。
論文 参考訳(メタデータ) (2021-06-24T01:44:10Z) - BOTD: Bold Outline Text Detector [85.33700624095181]
我々はBold Outline Text Detector(BOTD)と呼ばれる新しい1段テキスト検出器を提案する。
BOTDは、モデルの複雑さを低くして任意の形のテキストを処理できる。
3つの実世界のベンチマークによる実験結果から,BOTDの最先端性能が示された。
論文 参考訳(メタデータ) (2020-11-30T11:54:14Z) - Rethinking Text Segmentation: A Novel Dataset and A Text-Specific
Refinement Approach [34.63444886780274]
テキストセグメンテーションは、現実世界のテキスト関連タスクの前提条件である。
本稿では,テキスト分割手法であるText Refinement Network (TexRNet)を紹介する。
TexRNetは、他の最先端セグメンテーション手法と比較して、テキストセグメンテーションのパフォーマンスを2%近く改善している。
論文 参考訳(メタデータ) (2020-11-27T22:50:09Z) - Mask TextSpotter v3: Segmentation Proposal Network for Robust Scene Text
Spotting [71.6244869235243]
ほとんどの任意形状のシーンテキストスポッターは、地域提案ネットワーク(RPN)を使用して提案を作成する。
Mask TextSpotter v3は、極端なアスペクト比や不規則な形状のテキストインスタンスを処理できます。
論文 参考訳(メタデータ) (2020-07-18T17:25:50Z) - ContourNet: Taking a Further Step toward Accurate Arbitrary-shaped Scene
Text Detection [147.10751375922035]
本研究では,シーンテキストの偽陽性と大規模分散を効果的に処理するContourNetを提案する。
本手法は,両方向の応答値の高い予測を出力するだけで,これらの偽陽性を効果的に抑制する。
論文 参考訳(メタデータ) (2020-04-10T08:15:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。