論文の概要: Fourier Contour Embedding for Arbitrary-Shaped Text Detection
- arxiv url: http://arxiv.org/abs/2104.10442v1
- Date: Wed, 21 Apr 2021 10:21:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-22 14:25:38.346615
- Title: Fourier Contour Embedding for Arbitrary-Shaped Text Detection
- Title(参考訳): 任意形テキスト検出のためのフーリエ輪郭埋め込み
- Authors: Yiqin Zhu, Jianyong Chen, Lingyu Liang, Zhuanghui Kuang, Lianwen Jin
and Wayne Zhang
- Abstract要約: 任意の形状のテキスト輪郭をコンパクトシグネチャとして表現する新しい手法を提案する。
FCEは,高度に湾曲した形状であっても,シーンテキストの輪郭に適合する正確かつ堅牢であることを示す。
我々のFCENetはCTW1500やTotal-Textの最先端(SOTA)手法よりも優れている。
- 参考スコア(独自算出の注目度): 41.331018777982415
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One of the main challenges for arbitrary-shaped text detection is to design a
good text instance representation that allows networks to learn diverse text
geometry variances. Most of existing methods model text instances in image
spatial domain via masks or contour point sequences in the Cartesian or the
polar coordinate system. However, the mask representation might lead to
expensive post-processing, while the point sequence one may have limited
capability to model texts with highly-curved shapes. To tackle these problems,
we model text instances in the Fourier domain and propose one novel Fourier
Contour Embedding (FCE) method to represent arbitrary shaped text contours as
compact signatures. We further construct FCENet with a backbone, feature
pyramid networks (FPN) and a simple post-processing with the Inverse Fourier
Transformation (IFT) and Non-Maximum Suppression (NMS). Different from previous
methods, FCENet first predicts compact Fourier signatures of text instances,
and then reconstructs text contours via IFT and NMS during test. Extensive
experiments demonstrate that FCE is accurate and robust to fit contours of
scene texts even with highly-curved shapes, and also validate the effectiveness
and the good generalization of FCENet for arbitrary-shaped text detection.
Furthermore, experimental results show that our FCENet is superior to the
state-of-the-art (SOTA) methods on CTW1500 and Total-Text, especially on
challenging highly-curved text subset.
- Abstract(参考訳): 任意の形のテキスト検出の主な課題の1つは、ネットワークが多様なテキスト幾何分散を学習できる優れたテキストインスタンス表現を設計することである。
既存の手法のほとんどは、デカルト座標系や極座標系におけるマスクや輪郭点列を通して、画像空間領域内のテキストインスタンスをモデル化する。
しかし、マスク表現は高価な後処理につながるかもしれないが、ポイントシーケンスは高度に湾曲した形状のテキストをモデル化する能力に制限がある。
これらの問題に対処するために、フーリエ領域のテキストインスタンスをモデル化し、任意の形状のテキスト輪郭をコンパクトなシグネチャとして表現するための新しいFCE法を提案する。
さらに、FCENetをバックボーン、機能ピラミッドネットワーク(FPN)、逆フーリエ変換(IFT)および非最大抑圧(NMS)で単純な後処理で構築する。
以前の方法とは異なり、FCENetはまずテキストインスタンスのコンパクトなフーリエシグネチャを予測し、テスト中にIFTとNMSを介してテキストの輪郭を再構築する。
広範な実験により、fceは高曲率な形状であってもシーンテキストの輪郭に適合する精度と頑健さを示し、任意の形状のテキスト検出におけるfcenetの有効性と優れた一般化を検証する。
さらに,実験結果から,FCENetはCTW1500やTotal-Textの最先端(SOTA)手法よりも優れていることがわかった。
関連論文リスト
- PBFormer: Capturing Complex Scene Text Shape with Polynomial Band
Transformer [28.52028534365144]
PBFormerは効率的かつ強力なシーンテキスト検出器である。
変圧器を新しいテキスト形状バンド(PB)で統一する。
この単純な操作は、小さなテキストを検出するのに役立つ。
論文 参考訳(メタデータ) (2023-08-29T03:41:27Z) - LRANet: Towards Accurate and Efficient Scene Text Detection with
Low-Rank Approximation Network [63.554061288184165]
低ランク近似に基づく新しいパラメータ化テキスト形状法を提案する。
異なるテキストの輪郭間の形状相関を探索することにより, 形状表現における一貫性, コンパクト性, 単純性, 頑健性を実現する。
我々はLRANetという名前の正確で効率的な任意の形状のテキスト検出器を実装した。
論文 参考訳(メタデータ) (2023-06-27T02:03:46Z) - DPText-DETR: Towards Better Scene Text Detection with Dynamic Points in
Transformer [94.35116535588332]
ポリゴン点やベジエ曲線制御点を予測してテキストをローカライズするトランスフォーマーベースの手法は、シーンテキストの検出で非常に人気がある。
しかし、使用点ラベル形式は、トランスフォーマーモデルの堅牢性に影響を与える人間の読み順を意味する。
本稿では,DPText-DETRを提案する。これはクエリとしてポイント座標を直接使用し,デコーダ層間で動的に更新する。
論文 参考訳(メタデータ) (2022-07-10T15:45:16Z) - TextDCT: Arbitrary-Shaped Text Detection via Discrete Cosine Transform
Mask [19.269070203448187]
任意形状のシーンテキスト検出は、フォント、サイズ、色、方向のさまざまな変更があるため、難しい作業である。
本研究では,テキストマスクをコンパクトなベクトルとして符号化する離散コサイン変換(DCT)を採用した,新しい軽量アンカーフリーテキスト検出フレームワークTextDCTを提案する。
TextDCTは、毎秒17.2フレームで85.1、CTW1500の15.1FPSで84.9、トータルテキストデータセットで84.9のF測定を実現している。
論文 参考訳(メタデータ) (2022-06-27T15:42:25Z) - Few Could Be Better Than All: Feature Sampling and Grouping for Scene
Text Detection [47.820683360286786]
本稿では,シーンテキスト検出のためのトランスフォーマーアーキテクチャを提案する。
まず、フォアグラウンドテキストに非常に関係のある、あらゆるスケールでいくつかの代表的特徴を選択します。
各特徴群がテキストインスタンスに対応するため、そのバウンディングボックスは後処理操作なしで容易に得ることができる。
論文 参考訳(メタデータ) (2022-03-29T04:02:31Z) - Arbitrary Shape Text Detection using Transformers [2.294014185517203]
変換器(DETR)を用いた任意の字形テキスト検出のためのエンドツーエンドのトレーニング可能なアーキテクチャを提案する。
提案手法は,任意の検出されたテキスト領域のスケールとアスペクト比の変化を正確に測定する境界ボックス損失関数を利用する。
曲面テキストのTotal-TextおよびCTW-1500データセットと、多目的テキストのMSRA-TD500およびICDAR15データセットを用いて、提案モデルの評価を行った。
論文 参考訳(メタデータ) (2022-02-22T22:36:29Z) - Which and Where to Focus: A Simple yet Accurate Framework for
Arbitrary-Shaped Nearby Text Detection in Scene Images [8.180563824325086]
そこで本研究では,任意の形状の近接するシーンテキスト検出のための簡易かつ効果的な手法を提案する。
OMTS(One-to-Many Training Scheme)は、混乱を排除し、提案がより適切な基盤構造を学べるように設計されている。
また,提案提案に対してより効果的な機能を利用するために,提案機能注意モジュール(PFAM)を提案する。
論文 参考訳(メタデータ) (2021-09-08T06:25:37Z) - PAN++: Towards Efficient and Accurate End-to-End Spotting of
Arbitrarily-Shaped Text [85.7020597476857]
自然場面における任意の形状のテキストを効率的に検出し認識できる,エンドツーエンドのテキストスポッティングフレームワークpan++を提案する。
PAN++は、テキスト行を周辺ピクセルに囲まれたテキストカーネル(中央領域)として再構成するカーネル表現に基づいている。
ピクセルベースの表現として、カーネル表現は1つの完全な畳み込みネットワークによって予測できる。
論文 参考訳(メタデータ) (2021-05-02T07:04:30Z) - ContourNet: Taking a Further Step toward Accurate Arbitrary-shaped Scene
Text Detection [147.10751375922035]
本研究では,シーンテキストの偽陽性と大規模分散を効果的に処理するContourNetを提案する。
本手法は,両方向の応答値の高い予測を出力するだけで,これらの偽陽性を効果的に抑制する。
論文 参考訳(メタデータ) (2020-04-10T08:15:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。