論文の概要: FC2RN: A Fully Convolutional Corner Refinement Network for Accurate
Multi-Oriented Scene Text Detection
- arxiv url: http://arxiv.org/abs/2007.05113v1
- Date: Fri, 10 Jul 2020 00:04:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-11 21:58:30.749989
- Title: FC2RN: A Fully Convolutional Corner Refinement Network for Accurate
Multi-Oriented Scene Text Detection
- Title(参考訳): FC2RN: 高精度多目的シーンテキスト検出のための完全畳み込みコーナリファインメントネットワーク
- Authors: Xugong Qin, Yu Zhou, Dayan Wu, Yinliang Yue, Weiping Wang
- Abstract要約: 完全畳み込み角補正ネットワーク (FC2RN) が提案されている。
多目的シーンテキストに特化した新規な四角形RoI畳み込み演算により、初期四角形予測を特徴写像に符号化する。
- 参考スコア(独自算出の注目度): 16.722639253025996
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent scene text detection works mainly focus on curve text detection.
However, in real applications, the curve texts are more scarce than the
multi-oriented ones. Accurate detection of multi-oriented text with large
variations of scales, orientations, and aspect ratios is of great significance.
Among the multi-oriented detection methods, direct regression for the geometry
of scene text shares a simple yet powerful pipeline and gets popular in
academic and industrial communities, but it may produce imperfect detections,
especially for long texts due to the limitation of the receptive field. In this
work, we aim to improve this while keeping the pipeline simple. A fully
convolutional corner refinement network (FC2RN) is proposed for accurate
multi-oriented text detection, in which an initial corner prediction and a
refined corner prediction are obtained at one pass. With a novel quadrilateral
RoI convolution operation tailed for multi-oriented scene text, the initial
quadrilateral prediction is encoded into the feature maps which can be further
used to predict offset between the initial prediction and the ground-truth as
well as output a refined confidence score. Experimental results on four public
datasets including MSRA-TD500, ICDAR2017-RCTW, ICDAR2015, and COCO-Text
demonstrate that FC2RN can outperform the state-of-the-art methods. The
ablation study shows the effectiveness of corner refinement and scoring for
accurate text localization.
- Abstract(参考訳): 最近のシーンテキスト検出は主に曲線テキスト検出に焦点を当てている。
しかし、実際のアプリケーションでは、曲線テキストはマルチ指向のものよりも少ない。
スケール,向き,アスペクト比のばらつきが大きい多方向テキストの正確な検出は,非常に重要である。
多方向検出法のうち、シーンテキストの幾何の直接回帰は、単純かつ強力なパイプラインを共有し、学術的および産業的なコミュニティで人気があるが、特に受容領域の制限により、長いテキストに対して不完全な検出をもたらす可能性がある。
この作業では、パイプラインをシンプルに保ちながら、これを改善することを目指している。
完全畳み込み角補正ネットワーク (FC2RN) が提案され, 1パスで初期コーナー予測と改良コーナー予測が得られた。
多目的シーンテキストに特化した新規な四角形RoI畳み込み演算により、初期予測と地上トラスとのオフセットの予測にさらに使用できる特徴マップに初期四角形予測を符号化し、洗練された信頼スコアを出力する。
MSRA-TD500, ICDAR2017-RCTW, ICDAR2015, COCO-Textを含む4つの公開データセットの実験結果は、FC2RNが最先端の手法より優れていることを示している。
アブレーション研究は,精度の高いテキストローカライズにコーナーリファインメントとスコアリングが有効であることを示す。
関連論文リスト
- TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - DPText-DETR: Towards Better Scene Text Detection with Dynamic Points in
Transformer [94.35116535588332]
ポリゴン点やベジエ曲線制御点を予測してテキストをローカライズするトランスフォーマーベースの手法は、シーンテキストの検出で非常に人気がある。
しかし、使用点ラベル形式は、トランスフォーマーモデルの堅牢性に影響を与える人間の読み順を意味する。
本稿では,DPText-DETRを提案する。これはクエリとしてポイント座標を直接使用し,デコーダ層間で動的に更新する。
論文 参考訳(メタデータ) (2022-07-10T15:45:16Z) - SwinTextSpotter: Scene Text Spotting via Better Synergy between Text
Detection and Text Recognition [73.61592015908353]
本稿では,SwinTextSpotter と呼ばれるシーンテキストスポッティングフレームワークを提案する。
動的頭部を検出器とするトランスを用いて、2つのタスクを新しい認識変換機構で統一する。
この設計は、追加の修正モジュールも文字レベルのアノテーションも必要としない簡潔なフレームワークをもたらす。
論文 参考訳(メタデータ) (2022-03-19T01:14:42Z) - On Exploring and Improving Robustness of Scene Text Detection Models [20.15225372544634]
我々はシーンテキスト検出モデル ICDAR2015-C (IC15-C) と CTW1500-C (CTW-C) を評価した。
我々は、事前学習データ、バックボーン、機能融合モジュール、マルチスケール予測、テキストインスタンスの表現、損失関数の6つの重要なコンポーネントのロバストネス分析を行う。
本研究では,背景と前景を融合することでテキスト領域の滑らかさを破壊する,シンプルで効果的なデータベース手法を提案する。
論文 参考訳(メタデータ) (2021-10-12T02:36:48Z) - Which and Where to Focus: A Simple yet Accurate Framework for
Arbitrary-Shaped Nearby Text Detection in Scene Images [8.180563824325086]
そこで本研究では,任意の形状の近接するシーンテキスト検出のための簡易かつ効果的な手法を提案する。
OMTS(One-to-Many Training Scheme)は、混乱を排除し、提案がより適切な基盤構造を学べるように設計されている。
また,提案提案に対してより効果的な機能を利用するために,提案機能注意モジュール(PFAM)を提案する。
論文 参考訳(メタデータ) (2021-09-08T06:25:37Z) - Bidirectional Regression for Arbitrary-Shaped Text Detection [16.30976392505236]
本稿では,前景情報と背景情報の両方をパイプラインに統合した新しいテキストインスタンス表現を提案する。
対応する後処理アルゴリズムは、4つの予測結果を逐次組み合わせてテキストインスタンスを正確に再構築するように設計されている。
本手法は,曲面および多目的テキストデータセットを含む,いくつかの挑戦的なシーンテキストベンチマークで評価する。
論文 参考訳(メタデータ) (2021-07-13T14:29:09Z) - CentripetalText: An Efficient Text Instance Representation for Scene
Text Detection [19.69057252363207]
我々はCentripetalText (CT) という名前の効率的なテキストインスタンス表現を提案する。
CTはテキストインスタンスをテキストカーネルと中心シフトの組み合わせに分解する。
シーンテキスト検出の課題に対して,本手法は既存の手法に比べて優れた,あるいは競合的な性能を発揮する。
論文 参考訳(メタデータ) (2021-07-13T09:34:18Z) - ABCNet v2: Adaptive Bezier-Curve Network for Real-time End-to-end Text
Spotting [108.93803186429017]
エンドツーエンドのテキストスポッティングは、統一されたフレームワークで検出と認識を統合することを目指している。
本稿では、Adaptive Bezier Curve Network v2 (ABCNet v2) を提示することで、エンドツーエンドテキストスポッティングに取り組む。
1) 任意の形状のテキストをパラメータ化されたベジアー曲線で適応的に適合させ, セグメンテーション法と比較すると, 構造的な出力だけでなく, 制御可能な表現も提供できる。
様々なバイリンガル(英語と中国語)ベンチマークデータセットで実施された総合的な実験は、ABCNet v2が現状を達成することを実証している。
論文 参考訳(メタデータ) (2021-05-08T07:46:55Z) - ContourNet: Taking a Further Step toward Accurate Arbitrary-shaped Scene
Text Detection [147.10751375922035]
本研究では,シーンテキストの偽陽性と大規模分散を効果的に処理するContourNetを提案する。
本手法は,両方向の応答値の高い予測を出力するだけで,これらの偽陽性を効果的に抑制する。
論文 参考訳(メタデータ) (2020-04-10T08:15:23Z) - Text Perceptron: Towards End-to-End Arbitrary-Shaped Text Spotting [49.768327669098674]
テキストパーセプトロン(Text Perceptron)という,エンドツーエンドのトレーニング可能なテキストスポッティング手法を提案する。
まず、テキスト読解順序と境界情報を学ぶ効率的なセグメンテーションベースのテキスト検出器を用いる。
次に、検出された特徴領域を正規形態に変換するために、新しい形状変換モジュール(STM)を設計する。
論文 参考訳(メタデータ) (2020-02-17T08:07:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。