論文の概要: CT-Net: Arbitrary-Shaped Text Detection via Contour Transformer
- arxiv url: http://arxiv.org/abs/2307.13310v1
- Date: Tue, 25 Jul 2023 08:00:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-26 18:06:36.682658
- Title: CT-Net: Arbitrary-Shaped Text Detection via Contour Transformer
- Title(参考訳): CT-Net:Contour Transformerによる任意字型テキスト検出
- Authors: Zhiwen Shao, Yuchen Su, Yong Zhou, Fanrong Meng, Hancheng Zhu, Bing
Liu, and Rui Yao
- Abstract要約: 輪郭変圧器を用いたプログレッシブな輪郭回帰による任意形状のシーンテキスト検出フレームワークCT-Netを提案する。
CT-Netは1秒あたり1.2フレームで86.1、CTW1500とTotal-Textデータセットで10.1FPSで87.8のF測定を実現している。
- 参考スコア(独自算出の注目度): 19.269070203448187
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contour based scene text detection methods have rapidly developed recently,
but still suffer from inaccurate frontend contour initialization, multi-stage
error accumulation, or deficient local information aggregation. To tackle these
limitations, we propose a novel arbitrary-shaped scene text detection framework
named CT-Net by progressive contour regression with contour transformers.
Specifically, we first employ a contour initialization module that generates
coarse text contours without any post-processing. Then, we adopt contour
refinement modules to adaptively refine text contours in an iterative manner,
which are beneficial for context information capturing and progressive global
contour deformation. Besides, we propose an adaptive training strategy to
enable the contour transformers to learn more potential deformation paths, and
introduce a re-score mechanism that can effectively suppress false positives.
Extensive experiments are conducted on four challenging datasets, which
demonstrate the accuracy and efficiency of our CT-Net over state-of-the-art
methods. Particularly, CT-Net achieves F-measure of 86.1 at 11.2 frames per
second (FPS) and F-measure of 87.8 at 10.1 FPS for CTW1500 and Total-Text
datasets, respectively.
- Abstract(参考訳): contourベースのシーンテキスト検出手法は近年急速に発展しているが、フロントエンドのcontour初期化、多段エラーの蓄積、ローカル情報集約の欠如などまだ不正確な問題に苦しんでいる。
このような制約に対処するため,CT-Netという任意の形状のシーンテキスト検出フレームワークを提案する。
具体的には、まず、後処理なしで粗いテキスト輪郭を生成する輪郭初期化モジュールを用いる。
次に,テキストの輪郭を反復的に洗練するために輪郭改良モジュールを採用し,コンテキスト情報取得や漸進的輪郭変形に有用である。
また,輪郭変圧器がより多くの電位変形経路を学習できるようにする適応的訓練戦略を提案し,偽陽性を効果的に抑制できる再スコア機構を導入する。
最先端手法に対するCT-Netの精度と効率を実証する4つの挑戦的データセットに対して,大規模な実験を行った。
特にCT-Netは、1秒あたり1.2フレームで86.1、CTW1500とTotal-Textデータセットで10.1FPSで87.8のF測定を実現している。
関連論文リスト
- Generalized Face Forgery Detection via Adaptive Learning for Pre-trained Vision Transformer [54.32283739486781]
適応学習パラダイムの下で,textbfForgery-aware textbfAdaptive textbfVision textbfTransformer(FA-ViT)を提案する。
FA-ViTは、クロスデータセット評価において、Celeb-DFおよびDFDCデータセット上で93.83%と78.32%のAUCスコアを達成する。
論文 参考訳(メタデータ) (2023-09-20T06:51:11Z) - LRANet: Towards Accurate and Efficient Scene Text Detection with
Low-Rank Approximation Network [63.554061288184165]
低ランク近似に基づく新しいパラメータ化テキスト形状法を提案する。
異なるテキストの輪郭間の形状相関を探索することにより, 形状表現における一貫性, コンパクト性, 単純性, 頑健性を実現する。
我々はLRANetという名前の正確で効率的な任意の形状のテキスト検出器を実装した。
論文 参考訳(メタデータ) (2023-06-27T02:03:46Z) - Deformable Kernel Expansion Model for Efficient Arbitrary-shaped Scene
Text Detection [15.230957275277762]
Deformable Kernel Expansion (DKE) というシーンテキスト検出器を提案する。
DKEはテキストカーネルとしてスクランクテキスト領域をセグメント化するためにセグメンテーションモジュールを使用し、テキストカーネルの輪郭を拡張してテキスト境界を得る。
CTW1500, Total-Text, MSRA-TD500, ICDAR2015 の実験では,DKE がシーンテキスト検出における精度と効率のトレードオフを達成している。
論文 参考訳(メタデータ) (2023-03-28T05:18:58Z) - RecRecNet: Rectangling Rectified Wide-Angle Images by Thin-Plate Spline
Model and DoF-based Curriculum Learning [62.86400614141706]
我々はRecRecNet(Rectangling Rectification Network)という新しい学習モデルを提案する。
我々のモデルは、ソース構造をターゲット領域に柔軟にワープし、エンドツーエンドの非教師なし変形を実現する。
実験により, 定量評価と定性評価の両面において, 比較法よりも解法の方が優れていることが示された。
論文 参考訳(メタデータ) (2023-01-04T15:12:57Z) - DPText-DETR: Towards Better Scene Text Detection with Dynamic Points in
Transformer [94.35116535588332]
ポリゴン点やベジエ曲線制御点を予測してテキストをローカライズするトランスフォーマーベースの手法は、シーンテキストの検出で非常に人気がある。
しかし、使用点ラベル形式は、トランスフォーマーモデルの堅牢性に影響を与える人間の読み順を意味する。
本稿では,DPText-DETRを提案する。これはクエリとしてポイント座標を直接使用し,デコーダ層間で動的に更新する。
論文 参考訳(メタデータ) (2022-07-10T15:45:16Z) - TextDCT: Arbitrary-Shaped Text Detection via Discrete Cosine Transform
Mask [19.269070203448187]
任意形状のシーンテキスト検出は、フォント、サイズ、色、方向のさまざまな変更があるため、難しい作業である。
本研究では,テキストマスクをコンパクトなベクトルとして符号化する離散コサイン変換(DCT)を採用した,新しい軽量アンカーフリーテキスト検出フレームワークTextDCTを提案する。
TextDCTは、毎秒17.2フレームで85.1、CTW1500の15.1FPSで84.9、トータルテキストデータセットで84.9のF測定を実現している。
論文 参考訳(メタデータ) (2022-06-27T15:42:25Z) - Few Could Be Better Than All: Feature Sampling and Grouping for Scene
Text Detection [47.820683360286786]
本稿では,シーンテキスト検出のためのトランスフォーマーアーキテクチャを提案する。
まず、フォアグラウンドテキストに非常に関係のある、あらゆるスケールでいくつかの代表的特徴を選択します。
各特徴群がテキストインスタンスに対応するため、そのバウンディングボックスは後処理操作なしで容易に得ることができる。
論文 参考訳(メタデータ) (2022-03-29T04:02:31Z) - Arbitrary Shape Text Detection using Transformers [2.294014185517203]
変換器(DETR)を用いた任意の字形テキスト検出のためのエンドツーエンドのトレーニング可能なアーキテクチャを提案する。
提案手法は,任意の検出されたテキスト領域のスケールとアスペクト比の変化を正確に測定する境界ボックス損失関数を利用する。
曲面テキストのTotal-TextおよびCTW-1500データセットと、多目的テキストのMSRA-TD500およびICDAR15データセットを用いて、提案モデルの評価を行った。
論文 参考訳(メタデータ) (2022-02-22T22:36:29Z) - Real-Time Scene Text Detection with Differentiable Binarization and
Adaptive Scale Fusion [62.269219152425556]
セグメンテーションに基づくシーンテキスト検出手法はシーンテキスト検出分野において大きな注目を集めている。
本稿では,二項化処理をセグメンテーションネットワークに統合する分散二項化(DB)モジュールを提案する。
アダプティブ・スケール・フュージョン (ASF) モジュールは, 異なるスケールの特徴を適応的に融合させることにより, スケールのロバスト性を向上させる。
論文 参考訳(メタデータ) (2022-02-21T15:30:14Z) - RSCA: Real-time Segmentation-based Context-Aware Scene Text Detection [14.125634725954848]
任意のシーンテキスト検出のためのリアルタイムコンテキスト認識モデル RSCA を提案する。
これらの戦略に基づいて、RSCAは複雑なラベルの割り当てや繰り返しの機能集約なしに、スピードと精度の両方で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-05-26T18:43:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。