論文の概要: MOST: A Multi-Oriented Scene Text Detector with Localization Refinement
- arxiv url: http://arxiv.org/abs/2104.01070v2
- Date: Mon, 5 Apr 2021 08:52:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-06 12:08:27.854396
- Title: MOST: A Multi-Oriented Scene Text Detector with Localization Refinement
- Title(参考訳): most: ローカライゼーションを改良したマルチ指向シーンテキスト検出器
- Authors: Minghang He, Minghui Liao, Zhibo Yang, Humen Zhong, Jun Tang, Wenqing
Cheng, Cong Yao, Yongpan Wang, Xiang Bai
- Abstract要約: シーンテキスト検出のための新しいアルゴリズムを提案し、テキストローカリゼーションの品質を大幅に向上させる一連の戦略を提案する。
具体的には,テキスト・フィーチャー・アライメント・モジュール (TFAM) を提案し,特徴の受容領域を動的に調整する。
信頼できないものを排除するために、位置認識非最大抑制(PA-NMS)モジュールを考案する。
- 参考スコア(独自算出の注目度): 67.35280008722255
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Over the past few years, the field of scene text detection has progressed
rapidly that modern text detectors are able to hunt text in various challenging
scenarios. However, they might still fall short when handling text instances of
extreme aspect ratios and varying scales. To tackle such difficulties, we
propose in this paper a new algorithm for scene text detection, which puts
forward a set of strategies to significantly improve the quality of text
localization. Specifically, a Text Feature Alignment Module (TFAM) is proposed
to dynamically adjust the receptive fields of features based on initial raw
detections; a Position-Aware Non-Maximum Suppression (PA-NMS) module is devised
to selectively concentrate on reliable raw detections and exclude unreliable
ones; besides, we propose an Instance-wise IoU loss for balanced training to
deal with text instances of different scales. An extensive ablation study
demonstrates the effectiveness and superiority of the proposed strategies. The
resulting text detection system, which integrates the proposed strategies with
a leading scene text detector EAST, achieves state-of-the-art or competitive
performance on various standard benchmarks for text detection while keeping a
fast running speed.
- Abstract(参考訳): 過去数年間、シーンテキスト検出の分野は急速に進歩し、現代のテキスト検出器は様々な困難なシナリオでテキストを探せるようになった。
しかし、極端なアスペクト比と異なるスケールのテキストインスタンスを扱う場合、それらはまだ不足する可能性がある。
このような問題に対処するため,我々はシーンテキスト検出のための新しいアルゴリズムを提案し,テキストのローカライゼーションの質を向上するための一連の戦略を提案する。
具体的には,初期生検出に基づいて特徴の受容野を動的に調整するためにテキスト特徴アライメントモジュール(tfam)を提案し,信頼性の高い生検出に選択的に集中し,信頼性の低いものを除外するために位置認識非最大抑圧(pa-nms)モジュールを考案した。
広範なアブレーション研究により,提案手法の有効性と優越性が示された。
提案手法を先行シーンテキスト検出イーストと統合したテキスト検出システムは,高速実行速度を維持しつつ,テキスト検出のための各種標準ベンチマークにおいて最先端あるいは競合性能を実現する。
関連論文リスト
- Detecting Machine-Generated Long-Form Content with Latent-Space Variables [54.07946647012579]
既存のゼロショット検出器は主に、現実世界のドメインシフトに弱いトークンレベルの分布に焦点を当てている。
本稿では,イベント遷移などの抽象的要素を機械対人文検出の鍵となる要因として組み込んだ,より堅牢な手法を提案する。
論文 参考訳(メタデータ) (2024-10-04T18:42:09Z) - Text Grouping Adapter: Adapting Pre-trained Text Detector for Layout Analysis [52.34110239735265]
本稿では,事前学習したテキスト検出装置のレイアウト解析を学習するためのモジュールであるText Grouping Adapter (TGA)を提案する。
我々の総合的な実験は、凍結した事前学習モデルであっても、TGAを様々な事前学習されたテキスト検出器やテキストスポッターに組み込むことで、より優れたレイアウト解析性能が得られることを示した。
論文 参考訳(メタデータ) (2024-05-13T05:48:35Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - CORE-Text: Improving Scene Text Detection with Contrastive Relational
Reasoning [65.57338873921168]
自然界におけるテキストインスタンスのローカライズは、コンピュータビジョンにおける根本的な課題であると考えられている。
本研究では,サブテキスト問題を定量的に解析し,シンプルで効果的な設計であるContrastive Relation(CORE)モジュールを提案する。
我々は、COREモジュールをMask R-CNNの2段階テキスト検出器に統合し、テキスト検出器CORE-Textを考案する。
論文 参考訳(メタデータ) (2021-12-14T16:22:25Z) - Attention-based Feature Decomposition-Reconstruction Network for Scene
Text Detection [20.85468268945721]
シーンテキスト検出のための注意に基づく特徴分解再構成ネットワークを提案する。
我々は文脈情報と低レベル特徴を用いてセグメンテーションに基づくテキスト検出の性能を向上させる。
2つの公開ベンチマークデータセットを用いて実験を行い,提案手法が最先端の性能を達成することを示す。
論文 参考訳(メタデータ) (2021-11-29T06:15:25Z) - ARTS: Eliminating Inconsistency between Text Detection and Recognition
with Auto-Rectification Text Spotter [37.86206423441885]
我々は、Auto-Rectification Text Spotter (ARTS)と呼ばれる、シンプルだが堅牢なエンドツーエンドテキストスポッティングフレームワークを提案する。
本手法は10.5FPSの競争速度で全テキスト上のF値の77.1%のエンドツーエンドテキストスポッティングを実現する。
論文 参考訳(メタデータ) (2021-10-20T06:53:44Z) - On Exploring and Improving Robustness of Scene Text Detection Models [20.15225372544634]
我々はシーンテキスト検出モデル ICDAR2015-C (IC15-C) と CTW1500-C (CTW-C) を評価した。
我々は、事前学習データ、バックボーン、機能融合モジュール、マルチスケール予測、テキストインスタンスの表現、損失関数の6つの重要なコンポーネントのロバストネス分析を行う。
本研究では,背景と前景を融合することでテキスト領域の滑らかさを破壊する,シンプルで効果的なデータベース手法を提案する。
論文 参考訳(メタデータ) (2021-10-12T02:36:48Z) - Which and Where to Focus: A Simple yet Accurate Framework for
Arbitrary-Shaped Nearby Text Detection in Scene Images [8.180563824325086]
そこで本研究では,任意の形状の近接するシーンテキスト検出のための簡易かつ効果的な手法を提案する。
OMTS(One-to-Many Training Scheme)は、混乱を排除し、提案がより適切な基盤構造を学べるように設計されている。
また,提案提案に対してより効果的な機能を利用するために,提案機能注意モジュール(PFAM)を提案する。
論文 参考訳(メタデータ) (2021-09-08T06:25:37Z) - MT: Multi-Perspective Feature Learning Network for Scene Text Detection [9.282254601960613]
軽量検出フレームワークは、高い検出精度を維持しつつ推論プロセスを高速化するように設計されている。
マスクを正確にセグメンテーションするための識別表現をより正確に学習するために,マルチパースペクティブな特徴モジュールを提案する。
MTの有効性を実世界の4つのシーンテキストデータセットで評価した。
論文 参考訳(メタデータ) (2021-05-12T06:41:34Z) - Text Perceptron: Towards End-to-End Arbitrary-Shaped Text Spotting [49.768327669098674]
テキストパーセプトロン(Text Perceptron)という,エンドツーエンドのトレーニング可能なテキストスポッティング手法を提案する。
まず、テキスト読解順序と境界情報を学ぶ効率的なセグメンテーションベースのテキスト検出器を用いる。
次に、検出された特徴領域を正規形態に変換するために、新しい形状変換モジュール(STM)を設計する。
論文 参考訳(メタデータ) (2020-02-17T08:07:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。