論文の概要: Attention-based Feature Decomposition-Reconstruction Network for Scene
Text Detection
- arxiv url: http://arxiv.org/abs/2111.14340v1
- Date: Mon, 29 Nov 2021 06:15:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-30 17:04:19.541257
- Title: Attention-based Feature Decomposition-Reconstruction Network for Scene
Text Detection
- Title(参考訳): シーンテキスト検出のための注意型特徴分解再構成ネットワーク
- Authors: Qi Zhao, Yufei Wang, Shuchang Lyu, Lijiang Chen
- Abstract要約: シーンテキスト検出のための注意に基づく特徴分解再構成ネットワークを提案する。
我々は文脈情報と低レベル特徴を用いてセグメンテーションに基づくテキスト検出の性能を向上させる。
2つの公開ベンチマークデータセットを用いて実験を行い,提案手法が最先端の性能を達成することを示す。
- 参考スコア(独自算出の注目度): 20.85468268945721
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, scene text detection has been a challenging task. Texts with
arbitrary shape or large aspect ratio are usually hard to detect. Previous
segmentation-based methods can describe curve text more accurately but suffer
from over segmentation and text adhesion. In this paper, we propose
attention-based feature decomposition-reconstruction network for scene text
detection, which utilizes contextual information and low-level feature to
enhance the performance of segmentation-based text detector. In the phase of
feature fusion, we introduce cross level attention module to enrich contextual
information of text by adding attention mechanism on fused multi-scaled
feature. In the phase of probability map generation, a feature
decomposition-reconstruction module is proposed to alleviate the over
segmentation problem of large aspect ratio text, which decomposes text feature
according to their frequency characteristic and then reconstructs it by adding
low-level feature. Experiments have been conducted on two public benchmark
datasets and results show that our proposed method achieves state-of-the-art
performance.
- Abstract(参考訳): 近年,シーンのテキスト検出が課題となっている。
任意の形や大きなアスペクト比を持つテキストは通常、検出が難しい。
従来のセグメンテーションベース手法では、曲線テキストをより正確に記述できるが、セグメンテーションやテキストの密着性に苦しむ。
本稿では,文脈情報と低レベル特徴を利用してセグメンテーションに基づくテキスト検出の性能を向上させるシーンテキスト検出のための注目型特徴分解再構成ネットワークを提案する。
機能融合の段階では,マルチスケール機能への注目機構を付加することにより,テキストの文脈情報を強化するクロスレベルアテンションモジュールを導入する。
確率マップ生成の段階において,高アスペクト比テキストのオーバセグメンテーション問題を緩和する特徴分解再構成モジュールを提案し,その周波数特性に応じてテキスト特徴を分解し,低レベル特徴を加えて再構成する。
2つのベンチマークデータセットで実験を行い,提案手法が最先端の性能を実現することを示す。
関連論文リスト
- Leveraging Structure Knowledge and Deep Models for the Detection of Abnormal Handwritten Text [19.05500901000957]
構造知識と手書きテキストの深層モデルを組み合わせた2段階検出アルゴリズムを提案する。
新たな半教師付きコントラストトレーニング戦略によって訓練された形状回帰ネットワークを導入し、文字間の位置関係を十分に活用する。
2つの手書きテキストデータセットを用いた実験により,提案手法は検出性能を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2024-10-15T14:57:10Z) - Towards Unified Multi-granularity Text Detection with Interactive Attention [56.79437272168507]
Detect Any Text"は、シーンテキストの検出、レイアウト分析、ドキュメントページの検出を結合的なエンドツーエンドモデルに統合する高度なパラダイムである。
DATにおける重要なイノベーションは、テキストインスタンスの表現学習を大幅に強化する、粒度横断型アテンションモジュールである。
テストによると、DATは様々なテキスト関連ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-05-30T07:25:23Z) - Seeing Text in the Dark: Algorithm and Benchmark [28.865779563872977]
そこで本研究では,暗黒領域におけるテキストのローカライズのための,効率的かつ効果的な単一ステージアプローチを提案する。
テキスト検出器の訓練段階において,制約付き学習モジュールを補助機構として導入する。
様々な場面や言語を含む任意の字形テキストのための包括的低照度データセットを提案する。
論文 参考訳(メタデータ) (2024-04-13T11:07:10Z) - Enhancing Scene Text Detectors with Realistic Text Image Synthesis Using
Diffusion Models [63.99110667987318]
DiffTextは、前景のテキストと背景の本質的な特徴をシームレスにブレンドするパイプラインです。
テキストインスタンスが少なくなると、生成したテキストイメージはテキスト検出を支援する他の合成データを一貫して上回ります。
論文 参考訳(メタデータ) (2023-11-28T06:51:28Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - CORE-Text: Improving Scene Text Detection with Contrastive Relational
Reasoning [65.57338873921168]
自然界におけるテキストインスタンスのローカライズは、コンピュータビジョンにおける根本的な課題であると考えられている。
本研究では,サブテキスト問題を定量的に解析し,シンプルで効果的な設計であるContrastive Relation(CORE)モジュールを提案する。
我々は、COREモジュールをMask R-CNNの2段階テキスト検出器に統合し、テキスト検出器CORE-Textを考案する。
論文 参考訳(メタデータ) (2021-12-14T16:22:25Z) - On Exploring and Improving Robustness of Scene Text Detection Models [20.15225372544634]
我々はシーンテキスト検出モデル ICDAR2015-C (IC15-C) と CTW1500-C (CTW-C) を評価した。
我々は、事前学習データ、バックボーン、機能融合モジュール、マルチスケール予測、テキストインスタンスの表現、損失関数の6つの重要なコンポーネントのロバストネス分析を行う。
本研究では,背景と前景を融合することでテキスト領域の滑らかさを破壊する,シンプルで効果的なデータベース手法を提案する。
論文 参考訳(メタデータ) (2021-10-12T02:36:48Z) - MOST: A Multi-Oriented Scene Text Detector with Localization Refinement [67.35280008722255]
シーンテキスト検出のための新しいアルゴリズムを提案し、テキストローカリゼーションの品質を大幅に向上させる一連の戦略を提案する。
具体的には,テキスト・フィーチャー・アライメント・モジュール (TFAM) を提案し,特徴の受容領域を動的に調整する。
信頼できないものを排除するために、位置認識非最大抑制(PA-NMS)モジュールを考案する。
論文 参考訳(メタデータ) (2021-04-02T14:34:41Z) - DGST : Discriminator Guided Scene Text detector [11.817428636084305]
本稿では,シーンテキスト検出のセグメンテーション効果を改善するために,条件付き生成逆数ネットワークに基づく検出フレームワークを提案する。
標準データセットの実験では、提案されたDGSTが顕著なゲインをもたらし、最先端の手法より優れていることが示されている。
論文 参考訳(メタデータ) (2020-02-28T01:47:36Z) - Text Perceptron: Towards End-to-End Arbitrary-Shaped Text Spotting [49.768327669098674]
テキストパーセプトロン(Text Perceptron)という,エンドツーエンドのトレーニング可能なテキストスポッティング手法を提案する。
まず、テキスト読解順序と境界情報を学ぶ効率的なセグメンテーションベースのテキスト検出器を用いる。
次に、検出された特徴領域を正規形態に変換するために、新しい形状変換モジュール(STM)を設計する。
論文 参考訳(メタデータ) (2020-02-17T08:07:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。