論文の概要: On Exploring and Improving Robustness of Scene Text Detection Models
- arxiv url: http://arxiv.org/abs/2110.05700v1
- Date: Tue, 12 Oct 2021 02:36:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-13 14:54:05.245919
- Title: On Exploring and Improving Robustness of Scene Text Detection Models
- Title(参考訳): シーンテキスト検出モデルのロバスト性探索と改善について
- Authors: Shilian Wu, Wei Zhai, Yongrui Li, Kewei Wang, Zengfu Wang
- Abstract要約: 我々はシーンテキスト検出モデル ICDAR2015-C (IC15-C) と CTW1500-C (CTW-C) を評価した。
我々は、事前学習データ、バックボーン、機能融合モジュール、マルチスケール予測、テキストインスタンスの表現、損失関数の6つの重要なコンポーネントのロバストネス分析を行う。
本研究では,背景と前景を融合することでテキスト領域の滑らかさを破壊する,シンプルで効果的なデータベース手法を提案する。
- 参考スコア(独自算出の注目度): 20.15225372544634
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It is crucial to understand the robustness of text detection models with
regard to extensive corruptions, since scene text detection techniques have
many practical applications. For systematically exploring this problem, we
propose two datasets from which to evaluate scene text detection models:
ICDAR2015-C (IC15-C) and CTW1500-C (CTW-C). Our study extends the investigation
of the performance and robustness of the proposed region proposal, regression
and segmentation-based scene text detection frameworks. Furthermore, we perform
a robustness analysis of six key components: pre-training data, backbone,
feature fusion module, multi-scale predictions, representation of text
instances and loss function. Finally, we present a simple yet effective
data-based method to destroy the smoothness of text regions by merging
background and foreground, which can significantly increase the robustness of
different text detection networks. We hope that this study will provide valid
data points as well as experience for future research. Benchmark, code and data
will be made available at
\url{https://github.com/wushilian/robust-scene-text-detection-benchmark}.
- Abstract(参考訳): シーンテキスト検出技術には実用的応用が数多くあるため, 大規模な汚職に関してテキスト検出モデルの堅牢性を理解することが重要である。
この問題を体系的に検討するために,シーンテキスト検出モデルであるICDAR2015-C(IC15-C)とCTW1500-C(CTW-C)の2つのデータセットを提案する。
本研究は,提案する領域提案,レグレッション,セグメンテーションに基づくシーンテキスト検出フレームワークの性能と堅牢性について検討する。
さらに,事前トレーニングデータ,バックボーン,機能融合モジュール,マルチスケール予測,テキストインスタンスの表現,損失関数の6つの主要コンポーネントのロバスト性解析を行う。
最後に、背景と前景を融合させることでテキスト領域の滑らかさを損なう、シンプルで効果的なデータベース手法を提案し、異なるテキスト検出ネットワークの堅牢性を大幅に向上させることができる。
本研究は,今後の研究に有効なデータポイントと経験を提供することを期待する。
ベンチマーク、コード、データは \url{https://github.com/wushilian/robust-scene-text-detection-benchmark} で利用可能になる。
関連論文リスト
- Towards Unified Multi-granularity Text Detection with Interactive Attention [56.79437272168507]
Detect Any Text"は、シーンテキストの検出、レイアウト分析、ドキュメントページの検出を結合的なエンドツーエンドモデルに統合する高度なパラダイムである。
DATにおける重要なイノベーションは、テキストインスタンスの表現学習を大幅に強化する、粒度横断型アテンションモジュールである。
テストによると、DATは様々なテキスト関連ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-05-30T07:25:23Z) - Text Grouping Adapter: Adapting Pre-trained Text Detector for Layout Analysis [52.34110239735265]
本稿では,事前学習したテキスト検出装置のレイアウト解析を学習するためのモジュールであるText Grouping Adapter (TGA)を提案する。
我々の総合的な実験は、凍結した事前学習モデルであっても、TGAを様々な事前学習されたテキスト検出器やテキストスポッターに組み込むことで、より優れたレイアウト解析性能が得られることを示した。
論文 参考訳(メタデータ) (2024-05-13T05:48:35Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Text Detection & Recognition in the Wild for Robot Localization [1.52292571922932]
テキスト文字列とバウンディングボックスを同時に出力するエンド・ツー・エンドシーンテキストスポッティングモデルを提案する。
我々の中心的な貢献は、不規則かつ隠蔽されたテキスト領域を適切にキャプチャするために、エンドツーエンドのテキストスポッティングフレームワークを利用することである。
論文 参考訳(メタデータ) (2022-05-17T18:16:34Z) - Towards End-to-End Unified Scene Text Detection and Layout Analysis [60.68100769639923]
本稿では,シーンテキストの検出とレイアウト解析を統合化するタスクについて紹介する。
この新たな研究課題を実現するために、最初の階層的なシーンテキストデータセットが導入された。
また,シーンテキストを同時に検出し,テキストクラスタを統一的に形成する手法を提案する。
論文 参考訳(メタデータ) (2022-03-28T23:35:45Z) - CORE-Text: Improving Scene Text Detection with Contrastive Relational
Reasoning [65.57338873921168]
自然界におけるテキストインスタンスのローカライズは、コンピュータビジョンにおける根本的な課題であると考えられている。
本研究では,サブテキスト問題を定量的に解析し,シンプルで効果的な設計であるContrastive Relation(CORE)モジュールを提案する。
我々は、COREモジュールをMask R-CNNの2段階テキスト検出器に統合し、テキスト検出器CORE-Textを考案する。
論文 参考訳(メタデータ) (2021-12-14T16:22:25Z) - Attention-based Feature Decomposition-Reconstruction Network for Scene
Text Detection [20.85468268945721]
シーンテキスト検出のための注意に基づく特徴分解再構成ネットワークを提案する。
我々は文脈情報と低レベル特徴を用いてセグメンテーションに基づくテキスト検出の性能を向上させる。
2つの公開ベンチマークデータセットを用いて実験を行い,提案手法が最先端の性能を達成することを示す。
論文 参考訳(メタデータ) (2021-11-29T06:15:25Z) - MOST: A Multi-Oriented Scene Text Detector with Localization Refinement [67.35280008722255]
シーンテキスト検出のための新しいアルゴリズムを提案し、テキストローカリゼーションの品質を大幅に向上させる一連の戦略を提案する。
具体的には,テキスト・フィーチャー・アライメント・モジュール (TFAM) を提案し,特徴の受容領域を動的に調整する。
信頼できないものを排除するために、位置認識非最大抑制(PA-NMS)モジュールを考案する。
論文 参考訳(メタデータ) (2021-04-02T14:34:41Z) - DGST : Discriminator Guided Scene Text detector [11.817428636084305]
本稿では,シーンテキスト検出のセグメンテーション効果を改善するために,条件付き生成逆数ネットワークに基づく検出フレームワークを提案する。
標準データセットの実験では、提案されたDGSTが顕著なゲインをもたらし、最先端の手法より優れていることが示されている。
論文 参考訳(メタデータ) (2020-02-28T01:47:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。