論文の概要: Arbitrary Shape Text Detection via Segmentation with Probability Maps
- arxiv url: http://arxiv.org/abs/2208.12419v1
- Date: Fri, 26 Aug 2022 03:29:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-29 13:01:26.431882
- Title: Arbitrary Shape Text Detection via Segmentation with Probability Maps
- Title(参考訳): 確率マップを用いたセグメンテーションによる任意形状テキストの検出
- Authors: Shi-Xue Zhang, Xiaobin Zhu, Lei Chen, Jie-Bo Hou, Xu-Cheng Yin
- Abstract要約: 提案手法は,確率マップを用いた,革新的でロバストなセグメンテーションに基づくテキスト検出手法である。
提案手法は,複数のベンチマークにおける検出精度の観点から,最先端性能を実現する。
- 参考スコア(独自算出の注目度): 18.76599644863067
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Arbitrary shape text detection is a challenging task due to the significantly
varied sizes and aspect ratios, arbitrary orientations or shapes, inaccurate
annotations, etc. Due to the scalability of pixel-level prediction,
segmentation-based methods can adapt to various shape texts and hence attracted
considerable attention recently. However, accurate pixel-level annotations of
texts are formidable, and the existing datasets for scene text detection only
provide coarse-grained boundary annotations. Consequently, numerous
misclassified text pixels or background pixels inside annotations always exist,
degrading the performance of segmentation-based text detection methods.
Generally speaking, whether a pixel belongs to text or not is highly related to
the distance with the adjacent annotation boundary. With this observation, in
this paper, we propose an innovative and robust segmentation-based detection
method via probability maps for accurately detecting text instances. To be
concrete, we adopt a Sigmoid Alpha Function (SAF) to transfer the distances
between boundaries and their inside pixels to a probability map. However, one
probability map can not cover complex probability distributions well because of
the uncertainty of coarse-grained text boundary annotations. Therefore, we
adopt a group of probability maps computed by a series of Sigmoid Alpha
Functions to describe the possible probability distributions. In addition, we
propose an iterative model to learn to predict and assimilate probability maps
for providing enough information to reconstruct text instances. Finally, simple
region growth algorithms are adopted to aggregate probability maps to complete
text instances. Experimental results demonstrate that our method achieves
state-of-the-art performance in terms of detection accuracy on several
benchmarks.
- Abstract(参考訳): 任意形状テキスト検出は、サイズやアスペクト比、任意の向きや形、不正確なアノテーションなど、大きく変化するため、困難なタスクである。
画素レベルの予測のスケーラビリティのため、セグメンテーションベースの手法は様々な形状のテキストに適応できるため、近年注目されている。
しかし、テキストの正確なピクセルレベルのアノテーションは恐ろしく、既存のシーンテキスト検出用データセットは粗い境界アノテーションのみを提供する。
その結果、アノテーション内の多数の誤分類されたテキストピクセルや背景ピクセルが常に存在し、セグメンテーションに基づくテキスト検出手法の性能が低下する。
一般に、ピクセルがテキストに属するか否かは、隣接するアノテーション境界との距離と非常に関係がある。
本稿では,テキストインスタンスを正確に検出する確率マップを用いた,革新的で堅牢なセグメンテーションに基づく検出手法を提案する。
具体的には、SAF(Sigmoid Alpha Function)を用いて、境界と内部画素間の距離を確率マップに転送する。
しかし、粗いテキスト境界アノテーションの不確かさのため、ある確率写像は複雑な確率分布をうまくカバーできない。
そこで本研究では,一連のシグモイドアルファ関数によって計算された確率写像群を用いて確率分布を記述する。
さらに,テキストインスタンスの再構築に十分な情報を提供するために,確率マップの予測と同化を学習するための反復モデルを提案する。
最後に、単純な領域成長アルゴリズムを使用して、確率マップを完全なテキストインスタンスに集約する。
実験の結果,複数のベンチマークで検出精度の点で最先端の性能が得られることがわかった。
関連論文リスト
- Spotlight Text Detector: Spotlight on Candidate Regions Like a Camera [31.180352896153682]
シーンテキストに有効なスポットライトテキスト検出器(STD)を提案する。
スポットライト校正モジュール(SCM)と多変量情報抽出モジュール(MIEM)で構成される。
我々のSTDは、様々なデータセットの既存の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2024-09-25T11:19:09Z) - Text Region Multiple Information Perception Network for Scene Text
Detection [19.574306663095243]
本稿では,セグメント化に基づくアルゴリズムの検出性能を高めるために,RMIPM (Regional Multiple Information Perception Module) と呼ばれるプラグアンドプレイモジュールを提案する。
具体的には,テキストフォアグラウンド分類マップ,距離マップ,方向マップなど,シーンテキスト領域に関する様々な情報を知覚できる改良されたモジュールを設計する。
論文 参考訳(メタデータ) (2024-01-18T14:36:51Z) - LRANet: Towards Accurate and Efficient Scene Text Detection with
Low-Rank Approximation Network [63.554061288184165]
低ランク近似に基づく新しいパラメータ化テキスト形状法を提案する。
異なるテキストの輪郭間の形状相関を探索することにより, 形状表現における一貫性, コンパクト性, 単純性, 頑健性を実現する。
我々はLRANetという名前の正確で効率的な任意の形状のテキスト検出器を実装した。
論文 参考訳(メタデータ) (2023-06-27T02:03:46Z) - The Treasure Beneath Multiple Annotations: An Uncertainty-aware Edge
Detector [70.43599299422813]
既存のメソッドは、単純な投票プロセスを使用して複数のアノテーションを融合し、エッジ固有の曖昧さを無視し、アノテータのラベル付けバイアスを無視する。
多様なアノテーションの主観性とあいまいさを調査するために不確実性を利用した新しい不確実性認識エッジ検出器(UAED)を提案する。
UAEDは複数のエッジ検出ベンチマークで一貫したパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-03-21T13:14:36Z) - Few Could Be Better Than All: Feature Sampling and Grouping for Scene
Text Detection [47.820683360286786]
本稿では,シーンテキスト検出のためのトランスフォーマーアーキテクチャを提案する。
まず、フォアグラウンドテキストに非常に関係のある、あらゆるスケールでいくつかの代表的特徴を選択します。
各特徴群がテキストインスタンスに対応するため、そのバウンディングボックスは後処理操作なしで容易に得ることができる。
論文 参考訳(メタデータ) (2022-03-29T04:02:31Z) - Kernel Proposal Network for Arbitrary Shape Text Detection [18.561812622368763]
任意の形状テキスト検出のための革新的カーネル提案ネットワーク(KPN)を提案する。
提案したKPNは、異なるテキストをインスタンスに依存しない機能マップに分類することで、隣接するテキストインスタンスを分離することができる。
本研究は,テキスト検出における隣接するテキストインスタンスの付着問題に対して,効率よく効果的に対処するための動的畳み込みカーネル戦略を初めて導入するものである。
論文 参考訳(メタデータ) (2022-03-12T11:02:32Z) - Real-Time Scene Text Detection with Differentiable Binarization and
Adaptive Scale Fusion [62.269219152425556]
セグメンテーションに基づくシーンテキスト検出手法はシーンテキスト検出分野において大きな注目を集めている。
本稿では,二項化処理をセグメンテーションネットワークに統合する分散二項化(DB)モジュールを提案する。
アダプティブ・スケール・フュージョン (ASF) モジュールは, 異なるスケールの特徴を適応的に融合させることにより, スケールのロバスト性を向上させる。
論文 参考訳(メタデータ) (2022-02-21T15:30:14Z) - Attention-based Feature Decomposition-Reconstruction Network for Scene
Text Detection [20.85468268945721]
シーンテキスト検出のための注意に基づく特徴分解再構成ネットワークを提案する。
我々は文脈情報と低レベル特徴を用いてセグメンテーションに基づくテキスト検出の性能を向上させる。
2つの公開ベンチマークデータセットを用いて実験を行い,提案手法が最先端の性能を達成することを示す。
論文 参考訳(メタデータ) (2021-11-29T06:15:25Z) - Text Recognition -- Real World Data and Where to Find Them [36.10220484561196]
本稿では,弱い注釈付き画像を利用してテキスト抽出パイプラインを改善する手法を提案する。
このアプローチでは、任意のエンドツーエンドのテキスト認識システムを使用して、テキスト領域の提案と、おそらく誤った書き起こしを取得する。
シーンテキストのほとんどエラーのないローカライズされたインスタンスを生成し、これが"擬似基底真理"(PGT)として扱う。
論文 参考訳(メタデータ) (2020-07-06T22:23:27Z) - UC-Net: Uncertainty Inspired RGB-D Saliency Detection via Conditional
Variational Autoencoders [81.5490760424213]
データラベリングプロセスから学習することで、RGB-Dサリエンシ検出に不確実性を利用するための第1のフレームワーク(UCNet)を提案する。
そこで本研究では,サリエンシデータラベリングにヒントを得て,確率的RGB-Dサリエンシ検出ネットワークを提案する。
論文 参考訳(メタデータ) (2020-04-13T04:12:59Z) - ContourNet: Taking a Further Step toward Accurate Arbitrary-shaped Scene
Text Detection [147.10751375922035]
本研究では,シーンテキストの偽陽性と大規模分散を効果的に処理するContourNetを提案する。
本手法は,両方向の応答値の高い予測を出力するだけで,これらの偽陽性を効果的に抑制する。
論文 参考訳(メタデータ) (2020-04-10T08:15:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。