論文の概要: TextDCT: Arbitrary-Shaped Text Detection via Discrete Cosine Transform
Mask
- arxiv url: http://arxiv.org/abs/2206.13381v1
- Date: Mon, 27 Jun 2022 15:42:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-28 15:36:46.411244
- Title: TextDCT: Arbitrary-Shaped Text Detection via Discrete Cosine Transform
Mask
- Title(参考訳): TextDCT:離散コサイン変換マスクによる任意形テキスト検出
- Authors: Yuchen Su, Zhiwen Shao, Yong Zhou, Fanrong Meng, Hancheng Zhu, Bing
Liu, and Rui Yao
- Abstract要約: 任意形状のシーンテキスト検出は、フォント、サイズ、色、方向のさまざまな変更があるため、難しい作業である。
本研究では,テキストマスクをコンパクトなベクトルとして符号化する離散コサイン変換(DCT)を採用した,新しい軽量アンカーフリーテキスト検出フレームワークTextDCTを提案する。
TextDCTは、毎秒17.2フレームで85.1、CTW1500の15.1FPSで84.9、トータルテキストデータセットで84.9のF測定を実現している。
- 参考スコア(独自算出の注目度): 19.269070203448187
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Arbitrary-shaped scene text detection is a challenging task due to the
variety of text changes in font, size, color, and orientation. Most existing
regression based methods resort to regress the masks or contour points of text
regions to model the text instances. However, regressing the complete masks
requires high training complexity, and contour points are not sufficient to
capture the details of highly curved texts. To tackle the above limitations, we
propose a novel light-weight anchor-free text detection framework called
TextDCT, which adopts the discrete cosine transform (DCT) to encode the text
masks as compact vectors. Further, considering the imbalanced number of
training samples among pyramid layers, we only employ a single-level head for
top-down prediction. To model the multi-scale texts in a single-level head, we
introduce a novel positive sampling strategy by treating the shrunk text region
as positive samples, and design a feature awareness module (FAM) for
spatial-awareness and scale-awareness by fusing rich contextual information and
focusing on more significant features. Moreover, we propose a segmented
non-maximum suppression (S-NMS) method that can filter low-quality mask
regressions. Extensive experiments are conducted on four challenging datasets,
which demonstrate our TextDCT obtains competitive performance on both accuracy
and efficiency. Specifically, TextDCT achieves F-measure of 85.1 at 17.2 frames
per second (FPS) and F-measure of 84.9 at 15.1 FPS for CTW1500 and Total-Text
datasets, respectively.
- Abstract(参考訳): 任意の形のシーンのテキスト検出は、フォント、サイズ、色、方向のさまざまな変更のため、難しい課題である。
既存の回帰ベースのほとんどのメソッドは、テキストインスタンスをモデル化するために、テキスト領域のマスクや輪郭点を回帰する。
しかし、完全なマスクを補強するには高い訓練の複雑さが必要であり、輪郭点は高度に湾曲したテキストの詳細を捉えるのに十分ではない。
このような制約に対処するために,テキストマスクをコンパクトベクトルとして符号化するために離散コサイン変換(DCT)を採用するTextDCTという,新しい軽量アンカーフリーテキスト検出フレームワークを提案する。
さらに,ピラミッド層間のトレーニングサンプル数の不均衡を考慮すると,トップダウン予測には単層ヘッドのみを用いる。
本論文では,複数種類のテキストを単層ヘッドでモデル化するために,縮小したテキスト領域を正のサンプルとして扱うことにより,新たな正のサンプリング戦略を導入し,リッチな文脈情報を用いて空間認識とスケール認識のための特徴認識モジュール(fam)を設計し,より重要な機能に焦点を当てた。
さらに,低品質マスク回帰をフィルタできるセグメント化非最大抑圧法(S-NMS)を提案する。
大規模な実験を4つの挑戦的データセットで実施し、TextDCTが精度と効率の両面での競合性能を実証した。
具体的には、TextDCTは毎秒17.2フレームで85.1、CTW1500とTotal-Textデータセットで84.9のF測定を実現している。
関連論文リスト
- CT-Net: Arbitrary-Shaped Text Detection via Contour Transformer [19.269070203448187]
輪郭変圧器を用いたプログレッシブな輪郭回帰による任意形状のシーンテキスト検出フレームワークCT-Netを提案する。
CT-Netは1秒あたり1.2フレームで86.1、CTW1500とTotal-Textデータセットで10.1FPSで87.8のF測定を実現している。
論文 参考訳(メタデータ) (2023-07-25T08:00:40Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Few Could Be Better Than All: Feature Sampling and Grouping for Scene
Text Detection [47.820683360286786]
本稿では,シーンテキスト検出のためのトランスフォーマーアーキテクチャを提案する。
まず、フォアグラウンドテキストに非常に関係のある、あらゆるスケールでいくつかの代表的特徴を選択します。
各特徴群がテキストインスタンスに対応するため、そのバウンディングボックスは後処理操作なしで容易に得ることができる。
論文 参考訳(メタデータ) (2022-03-29T04:02:31Z) - Arbitrary Shape Text Detection using Transformers [2.294014185517203]
変換器(DETR)を用いた任意の字形テキスト検出のためのエンドツーエンドのトレーニング可能なアーキテクチャを提案する。
提案手法は,任意の検出されたテキスト領域のスケールとアスペクト比の変化を正確に測定する境界ボックス損失関数を利用する。
曲面テキストのTotal-TextおよびCTW-1500データセットと、多目的テキストのMSRA-TD500およびICDAR15データセットを用いて、提案モデルの評価を行った。
論文 参考訳(メタデータ) (2022-02-22T22:36:29Z) - CentripetalText: An Efficient Text Instance Representation for Scene
Text Detection [19.69057252363207]
我々はCentripetalText (CT) という名前の効率的なテキストインスタンス表現を提案する。
CTはテキストインスタンスをテキストカーネルと中心シフトの組み合わせに分解する。
シーンテキスト検出の課題に対して,本手法は既存の手法に比べて優れた,あるいは競合的な性能を発揮する。
論文 参考訳(メタデータ) (2021-07-13T09:34:18Z) - RSCA: Real-time Segmentation-based Context-Aware Scene Text Detection [14.125634725954848]
任意のシーンテキスト検出のためのリアルタイムコンテキスト認識モデル RSCA を提案する。
これらの戦略に基づいて、RSCAは複雑なラベルの割り当てや繰り返しの機能集約なしに、スピードと精度の両方で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-05-26T18:43:17Z) - Fourier Contour Embedding for Arbitrary-Shaped Text Detection [47.737805731529455]
任意の形状のテキスト輪郭をコンパクトシグネチャとして表現する新しい手法を提案する。
FCEは,高度に湾曲した形状であっても,シーンテキストの輪郭に適合する正確かつ堅牢であることを示す。
我々のFCENetはCTW1500やTotal-Textの最先端(SOTA)手法よりも優れている。
論文 参考訳(メタデータ) (2021-04-21T10:21:57Z) - BOTD: Bold Outline Text Detector [85.33700624095181]
我々はBold Outline Text Detector(BOTD)と呼ばれる新しい1段テキスト検出器を提案する。
BOTDは、モデルの複雑さを低くして任意の形のテキストを処理できる。
3つの実世界のベンチマークによる実験結果から,BOTDの最先端性能が示された。
論文 参考訳(メタデータ) (2020-11-30T11:54:14Z) - Mask TextSpotter v3: Segmentation Proposal Network for Robust Scene Text
Spotting [71.6244869235243]
ほとんどの任意形状のシーンテキストスポッターは、地域提案ネットワーク(RPN)を使用して提案を作成する。
Mask TextSpotter v3は、極端なアスペクト比や不規則な形状のテキストインスタンスを処理できます。
論文 参考訳(メタデータ) (2020-07-18T17:25:50Z) - Text Perceptron: Towards End-to-End Arbitrary-Shaped Text Spotting [49.768327669098674]
テキストパーセプトロン(Text Perceptron)という,エンドツーエンドのトレーニング可能なテキストスポッティング手法を提案する。
まず、テキスト読解順序と境界情報を学ぶ効率的なセグメンテーションベースのテキスト検出器を用いる。
次に、検出された特徴領域を正規形態に変換するために、新しい形状変換モジュール(STM)を設計する。
論文 参考訳(メタデータ) (2020-02-17T08:07:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。