論文の概要: MorphText: Deep Morphology Regularized Arbitrary-shape Scene Text Detection
- arxiv url: http://arxiv.org/abs/2404.17151v1
- Date: Fri, 26 Apr 2024 04:49:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-29 14:04:24.284736
- Title: MorphText: Deep Morphology Regularized Arbitrary-shape Scene Text Detection
- Title(参考訳): MorphText:Deep Morphology Regularized Arbitrary-Shape Scene Text Detection
- Authors: Chengpei Xu, Wenjing Jia, Ruomei Wang, Xiaonan Luo, Xiangjian He,
- Abstract要約: 任意の形状のテキスト検出のための深部形態素を埋め込んでテキストの規則性を捉える新しい手法を提案する。
2つの深い形態的モジュールは、テキストセグメントを正規化し、それらの間のリンクを決定するように設計されている。
提案したMorphTextは、トップダウンとボトムアップの両方で、任意のシーンのテキスト検出手法より優れています。
- 参考スコア(独自算出の注目度): 11.51417438649704
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Bottom-up text detection methods play an important role in arbitrary-shape scene text detection but there are two restrictions preventing them from achieving their great potential, i.e., 1) the accumulation of false text segment detections, which affects subsequent processing, and 2) the difficulty of building reliable connections between text segments. Targeting these two problems, we propose a novel approach, named ``MorphText", to capture the regularity of texts by embedding deep morphology for arbitrary-shape text detection. Towards this end, two deep morphological modules are designed to regularize text segments and determine the linkage between them. First, a Deep Morphological Opening (DMOP) module is constructed to remove false text segment detections generated in the feature extraction process. Then, a Deep Morphological Closing (DMCL) module is proposed to allow text instances of various shapes to stretch their morphology along their most significant orientation while deriving their connections. Extensive experiments conducted on four challenging benchmark datasets (CTW1500, Total-Text, MSRA-TD500 and ICDAR2017) demonstrate that our proposed MorphText outperforms both top-down and bottom-up state-of-the-art arbitrary-shape scene text detection approaches.
- Abstract(参考訳): ボトムアップテキスト検出法は、任意形状のシーンテキスト検出において重要な役割を担っているが、大きな可能性、すなわち2つの制限がある。
1)後の処理に影響を及ぼす偽テキストセグメント検出の蓄積
2)テキストセグメント間の信頼性の高い接続を構築することの難しさ。
これら2つの問題をターゲットとして,任意の形状のテキスト検出に深層形態を埋め込んでテキストの規則性を捉える手法「MorphText」を提案する。
この目的のために、テキストセグメントを正規化し、それらの間のリンクを決定するために、2つの深い形態的モジュールが設計されている。
まず、特徴抽出プロセスで生成された偽テキストセグメント検出を除去するために、DMOP(Deep Morphological Opening)モジュールを構築する。
次に、様々な形状のテキストインスタンスが、それらの接続を導出しながら、その最も重要な方向に沿ってその形態を伸ばすことができるように、Deep Morphological Closing (DMCL)モジュールを提案する。
CTW1500, Total-Text, MSRA-TD500, ICDAR2017の4つの挑戦的ベンチマークデータセットで実施された大規模な実験により、提案したMorphTextは、トップダウンおよびボトムアップの任意のシーン検出アプローチよりも優れていることが示された。
関連論文リスト
- Spotlight Text Detector: Spotlight on Candidate Regions Like a Camera [31.180352896153682]
シーンテキストに有効なスポットライトテキスト検出器(STD)を提案する。
スポットライト校正モジュール(SCM)と多変量情報抽出モジュール(MIEM)で構成される。
我々のSTDは、様々なデータセットの既存の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2024-09-25T11:19:09Z) - Inverse-like Antagonistic Scene Text Spotting via Reading-Order
Estimation and Dynamic Sampling [26.420235903805782]
我々は、IATSと呼ばれる、エンドツーエンドのトレーニング可能な逆対角テキストスポッティングフレームワークを提案する。
具体的には、初期テキスト境界から読み順情報を抽出する革新的な読み順推定モジュール(REM)を提案する。
本手法は不規則なテキストスポッティングと逆テキストスポッティングの両方において優れた性能を示す。
論文 参考訳(メタデータ) (2024-01-08T02:47:47Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Contextual Text Block Detection towards Scene Text Understanding [85.40898487745272]
本稿では,シーン中のテキストをよりよく理解するためのコンテキストテキストブロック(CTB)を新たに検出する,コンテキストテキスト検出手法を提案する。
本稿では、まずテキスト単位を検出し、次にCTBにグループ化する二重検出タスクにより、新しい設定を定式化する。
そこで本研究では,統合テキスト単位をトークンとして扱うシーンテキストクラスタリング手法を設計し,それらを(同じCTBに延長する)順序付きトークンシーケンスにグループ化する。
論文 参考訳(メタデータ) (2022-07-26T14:59:25Z) - DPText-DETR: Towards Better Scene Text Detection with Dynamic Points in
Transformer [94.35116535588332]
ポリゴン点やベジエ曲線制御点を予測してテキストをローカライズするトランスフォーマーベースの手法は、シーンテキストの検出で非常に人気がある。
しかし、使用点ラベル形式は、トランスフォーマーモデルの堅牢性に影響を与える人間の読み順を意味する。
本稿では,DPText-DETRを提案する。これはクエリとしてポイント座標を直接使用し,デコーダ層間で動的に更新する。
論文 参考訳(メタデータ) (2022-07-10T15:45:16Z) - TextDCT: Arbitrary-Shaped Text Detection via Discrete Cosine Transform
Mask [19.269070203448187]
任意形状のシーンテキスト検出は、フォント、サイズ、色、方向のさまざまな変更があるため、難しい作業である。
本研究では,テキストマスクをコンパクトなベクトルとして符号化する離散コサイン変換(DCT)を採用した,新しい軽量アンカーフリーテキスト検出フレームワークTextDCTを提案する。
TextDCTは、毎秒17.2フレームで85.1、CTW1500の15.1FPSで84.9、トータルテキストデータセットで84.9のF測定を実現している。
論文 参考訳(メタデータ) (2022-06-27T15:42:25Z) - CORE-Text: Improving Scene Text Detection with Contrastive Relational
Reasoning [65.57338873921168]
自然界におけるテキストインスタンスのローカライズは、コンピュータビジョンにおける根本的な課題であると考えられている。
本研究では,サブテキスト問題を定量的に解析し,シンプルで効果的な設計であるContrastive Relation(CORE)モジュールを提案する。
我々は、COREモジュールをMask R-CNNの2段階テキスト検出器に統合し、テキスト検出器CORE-Textを考案する。
論文 参考訳(メタデータ) (2021-12-14T16:22:25Z) - MT: Multi-Perspective Feature Learning Network for Scene Text Detection [9.282254601960613]
軽量検出フレームワークは、高い検出精度を維持しつつ推論プロセスを高速化するように設計されている。
マスクを正確にセグメンテーションするための識別表現をより正確に学習するために,マルチパースペクティブな特徴モジュールを提案する。
MTの有効性を実世界の4つのシーンテキストデータセットで評価した。
論文 参考訳(メタデータ) (2021-05-12T06:41:34Z) - BOTD: Bold Outline Text Detector [85.33700624095181]
我々はBold Outline Text Detector(BOTD)と呼ばれる新しい1段テキスト検出器を提案する。
BOTDは、モデルの複雑さを低くして任意の形のテキストを処理できる。
3つの実世界のベンチマークによる実験結果から,BOTDの最先端性能が示された。
論文 参考訳(メタデータ) (2020-11-30T11:54:14Z) - Text Perceptron: Towards End-to-End Arbitrary-Shaped Text Spotting [49.768327669098674]
テキストパーセプトロン(Text Perceptron)という,エンドツーエンドのトレーニング可能なテキストスポッティング手法を提案する。
まず、テキスト読解順序と境界情報を学ぶ効率的なセグメンテーションベースのテキスト検出器を用いる。
次に、検出された特徴領域を正規形態に変換するために、新しい形状変換モジュール(STM)を設計する。
論文 参考訳(メタデータ) (2020-02-17T08:07:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。