論文の概要: ContourNet: Taking a Further Step toward Accurate Arbitrary-shaped Scene
Text Detection
- arxiv url: http://arxiv.org/abs/2004.04940v1
- Date: Fri, 10 Apr 2020 08:15:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-14 21:13:54.951869
- Title: ContourNet: Taking a Further Step toward Accurate Arbitrary-shaped Scene
Text Detection
- Title(参考訳): ContourNet: 正確な任意形テキスト検出に向けてのさらなるステップ
- Authors: Yuxin Wang, Hongtao Xie, Zhengjun Zha, Mengting Xing, Zilong Fu and
Yongdong Zhang
- Abstract要約: 本研究では,シーンテキストの偽陽性と大規模分散を効果的に処理するContourNetを提案する。
本手法は,両方向の応答値の高い予測を出力するだけで,これらの偽陽性を効果的に抑制する。
- 参考スコア(独自算出の注目度): 147.10751375922035
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scene text detection has witnessed rapid development in recent years.
However, there still exists two main challenges: 1) many methods suffer from
false positives in their text representations; 2) the large scale variance of
scene texts makes it hard for network to learn samples. In this paper, we
propose the ContourNet, which effectively handles these two problems taking a
further step toward accurate arbitrary-shaped text detection. At first, a
scale-insensitive Adaptive Region Proposal Network (Adaptive-RPN) is proposed
to generate text proposals by only focusing on the Intersection over Union
(IoU) values between predicted and ground-truth bounding boxes. Then a novel
Local Orthogonal Texture-aware Module (LOTM) models the local texture
information of proposal features in two orthogonal directions and represents
text region with a set of contour points. Considering that the strong
unidirectional or weakly orthogonal activation is usually caused by the
monotonous texture characteristic of false-positive patterns (e.g. streaks.),
our method effectively suppresses these false positives by only outputting
predictions with high response value in both orthogonal directions. This gives
more accurate description of text regions. Extensive experiments on three
challenging datasets (Total-Text, CTW1500 and ICDAR2015) verify that our method
achieves the state-of-the-art performance. Code is available at
https://github.com/wangyuxin87/ContourNet.
- Abstract(参考訳): 近年,シーンのテキスト検出が急速に進展している。
しかし、まだ2つの大きな課題があります。
1) 多くの方法がテキスト表現に偽陽性を生じさせる。
2)シーンテキストの大規模分散は,サンプルの学習を困難にしている。
本稿では,この2つの問題を効果的に処理し,任意の文字を精度良く検出するcontournetを提案する。
まず, 適応領域提案ネットワーク (Adaptive-RPN) を提案し, 予測ボックスと接点境界ボックス間のIoU(Intersection over Union)値のみに着目してテキスト提案を行う。
次に,新たなLOTM (Local Orthogonal Texture-Aware Module) が提案特徴の局所テクスチャ情報を2つの直交方向にモデル化し,輪郭点の集合でテキスト領域を表現する。
強い一方向あるいは弱い直交活性化は、通常、偽陽性パターンの単調なテクスチャ特性(ストリークなど)によって引き起こされるので、両直交方向に高い応答値の予測を出力するだけで、これらの偽陽性を効果的に抑制できる。
これによりテキスト領域のより正確な記述が可能になる。
3つの挑戦的データセット(Total-Text, CTW1500, ICDAR2015)に対する大規模な実験により,本手法が最先端の性能を実現することを確認した。
コードはhttps://github.com/wangyuxin87/ContourNetで入手できる。
関連論文リスト
- LRANet: Towards Accurate and Efficient Scene Text Detection with
Low-Rank Approximation Network [63.554061288184165]
低ランク近似に基づく新しいパラメータ化テキスト形状法を提案する。
異なるテキストの輪郭間の形状相関を探索することにより, 形状表現における一貫性, コンパクト性, 単純性, 頑健性を実現する。
我々はLRANetという名前の正確で効率的な任意の形状のテキスト検出器を実装した。
論文 参考訳(メタデータ) (2023-06-27T02:03:46Z) - SpaText: Spatio-Textual Representation for Controllable Image Generation [61.89548017729586]
SpaTextはオープン語彙シーン制御を用いたテキスト・ツー・イメージ生成の新しい手法である。
シーン全体を記述したグローバルテキストプロンプトに加えて、ユーザはセグメンテーションマップを提供する。
現状拡散モデルである画素ベースと潜在条件ベースでの有効性を示す。
論文 参考訳(メタデータ) (2022-11-25T18:59:10Z) - Which and Where to Focus: A Simple yet Accurate Framework for
Arbitrary-Shaped Nearby Text Detection in Scene Images [8.180563824325086]
そこで本研究では,任意の形状の近接するシーンテキスト検出のための簡易かつ効果的な手法を提案する。
OMTS(One-to-Many Training Scheme)は、混乱を排除し、提案がより適切な基盤構造を学べるように設計されている。
また,提案提案に対してより効果的な機能を利用するために,提案機能注意モジュール(PFAM)を提案する。
論文 参考訳(メタデータ) (2021-09-08T06:25:37Z) - CentripetalText: An Efficient Text Instance Representation for Scene
Text Detection [19.69057252363207]
我々はCentripetalText (CT) という名前の効率的なテキストインスタンス表現を提案する。
CTはテキストインスタンスをテキストカーネルと中心シフトの組み合わせに分解する。
シーンテキスト検出の課題に対して,本手法は既存の手法に比べて優れた,あるいは競合的な性能を発揮する。
論文 参考訳(メタデータ) (2021-07-13T09:34:18Z) - AE TextSpotter: Learning Visual and Linguistic Representation for
Ambiguous Text Spotting [98.08853679310603]
本研究はAmbiguity Elimination Text Spotter(AE TextSpotter)という新しいテキストスポッターを提案する。
AE TextSpotterは、視覚的特徴と言語的特徴の両方を学び、テキスト検出の曖昧さを著しく低減する。
我々の知る限り、言語モデルを用いてテキスト検出を改善するのはこれが初めてである。
論文 参考訳(メタデータ) (2020-08-03T08:40:01Z) - Mask TextSpotter v3: Segmentation Proposal Network for Robust Scene Text
Spotting [71.6244869235243]
ほとんどの任意形状のシーンテキストスポッターは、地域提案ネットワーク(RPN)を使用して提案を作成する。
Mask TextSpotter v3は、極端なアスペクト比や不規則な形状のテキストインスタンスを処理できます。
論文 参考訳(メタデータ) (2020-07-18T17:25:50Z) - FC2RN: A Fully Convolutional Corner Refinement Network for Accurate
Multi-Oriented Scene Text Detection [16.722639253025996]
完全畳み込み角補正ネットワーク (FC2RN) が提案されている。
多目的シーンテキストに特化した新規な四角形RoI畳み込み演算により、初期四角形予測を特徴写像に符号化する。
論文 参考訳(メタデータ) (2020-07-10T00:04:24Z) - Text Recognition -- Real World Data and Where to Find Them [36.10220484561196]
本稿では,弱い注釈付き画像を利用してテキスト抽出パイプラインを改善する手法を提案する。
このアプローチでは、任意のエンドツーエンドのテキスト認識システムを使用して、テキスト領域の提案と、おそらく誤った書き起こしを取得する。
シーンテキストのほとんどエラーのないローカライズされたインスタンスを生成し、これが"擬似基底真理"(PGT)として扱う。
論文 参考訳(メタデータ) (2020-07-06T22:23:27Z) - Text Perceptron: Towards End-to-End Arbitrary-Shaped Text Spotting [49.768327669098674]
テキストパーセプトロン(Text Perceptron)という,エンドツーエンドのトレーニング可能なテキストスポッティング手法を提案する。
まず、テキスト読解順序と境界情報を学ぶ効率的なセグメンテーションベースのテキスト検出器を用いる。
次に、検出された特徴領域を正規形態に変換するために、新しい形状変換モジュール(STM)を設計する。
論文 参考訳(メタデータ) (2020-02-17T08:07:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。