論文の概要: BOTD: Bold Outline Text Detector
- arxiv url: http://arxiv.org/abs/2011.14714v6
- Date: Fri, 21 May 2021 10:47:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-06 14:44:41.430396
- Title: BOTD: Bold Outline Text Detector
- Title(参考訳): BOTD: アウトラインテキスト検出器
- Authors: Chuang Yang, Zhitong Xiong, Mulin Chen, Qi Wang, and Xuelong Li
- Abstract要約: 我々はBold Outline Text Detector(BOTD)と呼ばれる新しい1段テキスト検出器を提案する。
BOTDは、モデルの複雑さを低くして任意の形のテキストを処理できる。
3つの実世界のベンチマークによる実験結果から,BOTDの最先端性能が示された。
- 参考スコア(独自算出の注目度): 85.33700624095181
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, text detection has attracted sufficient attention in the field of
computer vision and artificial intelligence. Among the existing approaches,
regression-based models are limited to handle the texts with arbitrary shapes,
while segmentation-based algorithms have high computational costs and suffer
from the text adhesion problem. In this paper, we propose a new one-stage text
detector, termed as Bold Outline Text Detector (BOTD), which is able to process
the arbitrary-shaped text with low model complexity. Different from previous
works, BOTD utilizes the Polar Minimum Distance (PMD) to encode the shortest
distance between the center point and the contour of the text instance, and
generates a Center Mask (CM) for each text instance. After learning the PMD
heat map and CM map, the final results can be obtained with a simple Text
Reconstruction Module (TRM). Since the CM resides within the text box exactly,
the text adhesion problem is avoided naturally. Meanwhile, all the points on
the text contour share the same PMD, so the complexity of BOTD is much lower
than existing segmentation-based methods. Experimental results on three
real-world benchmarks show the state-of-the-art performance of BOTD.
- Abstract(参考訳): 近年,コンピュータビジョンと人工知能の分野において,テキスト検出が注目されている。
既存のアプローチでは、回帰ベースのモデルは任意の形状のテキストを扱うために制限され、セグメンテーションベースのアルゴリズムは高い計算コストを持ち、テキストの密着性の問題に苦しむ。
本稿では, 任意の形状のテキストを, モデル複雑度の低い処理で処理できる, bold outline text detector (botd) と呼ばれる新しい一段階テキスト検出器を提案する。
以前の作業とは異なり、BOTDはPolar Minimum Distance(PMD)を使用してテキストインスタンスの中心点と輪郭の間の最短距離を符号化し、テキストインスタンスごとにセンターマスク(CM)を生成する。
PMDヒートマップとCMマップを学習した後、単純なテキスト再構成モジュール(TRM)を用いて最終的な結果が得られる。
cmが正確にテキストボックス内に存在するため、テキスト接着問題は自然に回避される。
一方、テキスト輪郭上の全ての点は同じMDを共有しているため、BOTDの複雑さは既存のセグメンテーションベースの方法よりもはるかに低い。
3つの実世界のベンチマーク実験結果から,BOTDの最先端性能が示された。
関連論文リスト
- TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Contextual Text Block Detection towards Scene Text Understanding [85.40898487745272]
本稿では,シーン中のテキストをよりよく理解するためのコンテキストテキストブロック(CTB)を新たに検出する,コンテキストテキスト検出手法を提案する。
本稿では、まずテキスト単位を検出し、次にCTBにグループ化する二重検出タスクにより、新しい設定を定式化する。
そこで本研究では,統合テキスト単位をトークンとして扱うシーンテキストクラスタリング手法を設計し,それらを(同じCTBに延長する)順序付きトークンシーケンスにグループ化する。
論文 参考訳(メタデータ) (2022-07-26T14:59:25Z) - TextDCT: Arbitrary-Shaped Text Detection via Discrete Cosine Transform
Mask [19.269070203448187]
任意形状のシーンテキスト検出は、フォント、サイズ、色、方向のさまざまな変更があるため、難しい作業である。
本研究では,テキストマスクをコンパクトなベクトルとして符号化する離散コサイン変換(DCT)を採用した,新しい軽量アンカーフリーテキスト検出フレームワークTextDCTを提案する。
TextDCTは、毎秒17.2フレームで85.1、CTW1500の15.1FPSで84.9、トータルテキストデータセットで84.9のF測定を実現している。
論文 参考訳(メタデータ) (2022-06-27T15:42:25Z) - Arbitrary Shape Text Detection using Transformers [2.294014185517203]
変換器(DETR)を用いた任意の字形テキスト検出のためのエンドツーエンドのトレーニング可能なアーキテクチャを提案する。
提案手法は,任意の検出されたテキスト領域のスケールとアスペクト比の変化を正確に測定する境界ボックス損失関数を利用する。
曲面テキストのTotal-TextおよびCTW-1500データセットと、多目的テキストのMSRA-TD500およびICDAR15データセットを用いて、提案モデルの評価を行った。
論文 参考訳(メタデータ) (2022-02-22T22:36:29Z) - CORE-Text: Improving Scene Text Detection with Contrastive Relational
Reasoning [65.57338873921168]
自然界におけるテキストインスタンスのローカライズは、コンピュータビジョンにおける根本的な課題であると考えられている。
本研究では,サブテキスト問題を定量的に解析し,シンプルで効果的な設計であるContrastive Relation(CORE)モジュールを提案する。
我々は、COREモジュールをMask R-CNNの2段階テキスト検出器に統合し、テキスト検出器CORE-Textを考案する。
論文 参考訳(メタデータ) (2021-12-14T16:22:25Z) - Video Text Tracking With a Spatio-Temporal Complementary Model [46.99051486905713]
テキストトラッキングは、ビデオ内の複数のテキストを追跡し、各テキストの軌跡を構築することである。
既存の手法は、トラッキング・バイ・ディテククション・フレームワークを利用する。
我々は、このパラダイムの追跡精度がより複雑なシナリオで著しく制限されていると論じる。
論文 参考訳(メタデータ) (2021-11-09T08:23:06Z) - CentripetalText: An Efficient Text Instance Representation for Scene
Text Detection [19.69057252363207]
我々はCentripetalText (CT) という名前の効率的なテキストインスタンス表現を提案する。
CTはテキストインスタンスをテキストカーネルと中心シフトの組み合わせに分解する。
シーンテキスト検出の課題に対して,本手法は既存の手法に比べて優れた,あるいは競合的な性能を発揮する。
論文 参考訳(メタデータ) (2021-07-13T09:34:18Z) - All you need is a second look: Towards Tighter Arbitrary shape text
detection [80.85188469964346]
長い曲線のテキストインスタンスは、CNNの受信フィールドサイズが制限されているため、断片化されがちである。
矩形や四角形のバウンディングボックスを用いた単純な表現は、より難しい任意の形のテキストを扱う際に不足する。
textitNASKは、予測された幾何学的属性を使用して、より厳密な表現でテキストインスタンスを再構築する。
論文 参考訳(メタデータ) (2020-04-26T17:03:41Z) - Text Perceptron: Towards End-to-End Arbitrary-Shaped Text Spotting [49.768327669098674]
テキストパーセプトロン(Text Perceptron)という,エンドツーエンドのトレーニング可能なテキストスポッティング手法を提案する。
まず、テキスト読解順序と境界情報を学ぶ効率的なセグメンテーションベースのテキスト検出器を用いる。
次に、検出された特徴領域を正規形態に変換するために、新しい形状変換モジュール(STM)を設計する。
論文 参考訳(メタデータ) (2020-02-17T08:07:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。