論文の概要: Kernel Proposal Network for Arbitrary Shape Text Detection
- arxiv url: http://arxiv.org/abs/2203.06410v2
- Date: Tue, 20 Jun 2023 03:18:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-22 06:27:30.919865
- Title: Kernel Proposal Network for Arbitrary Shape Text Detection
- Title(参考訳): 任意形状テキスト検出のためのカーネル提案ネットワーク
- Authors: Shi-Xue Zhang, Xiaobin Zhu, Jie-Bo Hou, Chun Yang, Xu-Cheng Yin
- Abstract要約: 任意の形状テキスト検出のための革新的カーネル提案ネットワーク(KPN)を提案する。
提案したKPNは、異なるテキストをインスタンスに依存しない機能マップに分類することで、隣接するテキストインスタンスを分離することができる。
本研究は,テキスト検出における隣接するテキストインスタンスの付着問題に対して,効率よく効果的に対処するための動的畳み込みカーネル戦略を初めて導入するものである。
- 参考スコア(独自算出の注目度): 18.561812622368763
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Segmentation-based methods have achieved great success for arbitrary shape
text detection. However, separating neighboring text instances is still one of
the most challenging problems due to the complexity of texts in scene images.
In this paper, we propose an innovative Kernel Proposal Network (dubbed KPN)
for arbitrary shape text detection. The proposed KPN can separate neighboring
text instances by classifying different texts into instance-independent feature
maps, meanwhile avoiding the complex aggregation process existing in
segmentation-based arbitrary shape text detection methods. To be concrete, our
KPN will predict a Gaussian center map for each text image, which will be used
to extract a series of candidate kernel proposals (i.e., dynamic convolution
kernel) from the embedding feature maps according to their corresponding
keypoint positions. To enforce the independence between kernel proposals, we
propose a novel orthogonal learning loss (OLL) via orthogonal constraints.
Specifically, our kernel proposals contain important self-information learned
by network and location information by position embedding. Finally, kernel
proposals will individually convolve all embedding feature maps for generating
individual embedded maps of text instances. In this way, our KPN can
effectively separate neighboring text instances and improve the robustness
against unclear boundaries. To our knowledge, our work is the first to
introduce the dynamic convolution kernel strategy to efficiently and
effectively tackle the adhesion problem of neighboring text instances in text
detection. Experimental results on challenging datasets verify the impressive
performance and efficiency of our method. The code and model are available at
https://github.com/GXYM/KPN.
- Abstract(参考訳): セグメント法は任意の形状のテキスト検出において大きな成功を収めた。
しかし,シーン画像中のテキストの複雑さから,隣接するテキストインスタンスの分離は依然として最も難しい問題である。
本稿では,任意の形状テキスト検出のための革新的カーネル提案ネットワーク(KPN)を提案する。
提案したKPNは,異なるテキストをインスタンスに依存しない特徴マップに分類することで,隣接するテキストインスタンスを分離することができる。
具体的には、kpnは各テキスト画像のガウス中心マップを予測し、対応するキーポイント位置に応じて埋め込み特徴マップから一連の候補カーネル提案(動的畳み込みカーネル)を抽出する。
カーネル提案間の独立性を確保するために,直交制約による新しい直交学習損失(OLL)を提案する。
具体的には,ネットワークによって学習される重要な自己情報と位置埋め込みによる位置情報を含むカーネルの提案を行う。
最後に、カーネルの提案は、テキストインスタンスの個々の埋め込みマップを生成するためのすべての埋め込み機能マップを個別に展開する。
このようにして、我々のKPNは、近隣のテキストインスタンスを効果的に分離し、未知の境界に対する堅牢性を改善することができる。
本研究は,テキスト検出における隣接するテキストインスタンスの密着性問題に効率的かつ効果的に取り組むために,動的畳み込みカーネル戦略を導入する最初の試みである。
挑戦的データセットの実験結果から,本手法の優れた性能と効率性が確認された。
コードとモデルはhttps://github.com/gxym/kpnで入手できる。
関連論文リスト
- LRANet: Towards Accurate and Efficient Scene Text Detection with
Low-Rank Approximation Network [63.554061288184165]
低ランク近似に基づく新しいパラメータ化テキスト形状法を提案する。
異なるテキストの輪郭間の形状相関を探索することにより, 形状表現における一貫性, コンパクト性, 単純性, 頑健性を実現する。
我々はLRANetという名前の正確で効率的な任意の形状のテキスト検出器を実装した。
論文 参考訳(メタデータ) (2023-06-27T02:03:46Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - CBNet: A Plug-and-Play Network for Segmentation-Based Scene Text Detection [13.679267531492062]
本稿では,これらの問題に対処するためのコンテキスト認識および境界誘導ネットワーク(CBN)を提案する。
CBNでは、最初のセグメンテーション結果を予測するために、まず基本的なテキスト検出器が使用される。
最後に,輪郭上の画素のみに適応的に拡張されたテキストカーネルを拡張するための境界誘導モジュールを提案する。
論文 参考訳(メタデータ) (2022-12-05T15:15:27Z) - Which and Where to Focus: A Simple yet Accurate Framework for
Arbitrary-Shaped Nearby Text Detection in Scene Images [8.180563824325086]
そこで本研究では,任意の形状の近接するシーンテキスト検出のための簡易かつ効果的な手法を提案する。
OMTS(One-to-Many Training Scheme)は、混乱を排除し、提案がより適切な基盤構造を学べるように設計されている。
また,提案提案に対してより効果的な機能を利用するために,提案機能注意モジュール(PFAM)を提案する。
論文 参考訳(メタデータ) (2021-09-08T06:25:37Z) - CentripetalText: An Efficient Text Instance Representation for Scene
Text Detection [19.69057252363207]
我々はCentripetalText (CT) という名前の効率的なテキストインスタンス表現を提案する。
CTはテキストインスタンスをテキストカーネルと中心シフトの組み合わせに分解する。
シーンテキスト検出の課題に対して,本手法は既存の手法に比べて優れた,あるいは競合的な性能を発揮する。
論文 参考訳(メタデータ) (2021-07-13T09:34:18Z) - PAN++: Towards Efficient and Accurate End-to-End Spotting of
Arbitrarily-Shaped Text [85.7020597476857]
自然場面における任意の形状のテキストを効率的に検出し認識できる,エンドツーエンドのテキストスポッティングフレームワークpan++を提案する。
PAN++は、テキスト行を周辺ピクセルに囲まれたテキストカーネル(中央領域)として再構成するカーネル表現に基づいている。
ピクセルベースの表現として、カーネル表現は1つの完全な畳み込みネットワークによって予測できる。
論文 参考訳(メタデータ) (2021-05-02T07:04:30Z) - Mask TextSpotter v3: Segmentation Proposal Network for Robust Scene Text
Spotting [71.6244869235243]
ほとんどの任意形状のシーンテキストスポッターは、地域提案ネットワーク(RPN)を使用して提案を作成する。
Mask TextSpotter v3は、極端なアスペクト比や不規則な形状のテキストインスタンスを処理できます。
論文 参考訳(メタデータ) (2020-07-18T17:25:50Z) - All you need is a second look: Towards Tighter Arbitrary shape text
detection [80.85188469964346]
長い曲線のテキストインスタンスは、CNNの受信フィールドサイズが制限されているため、断片化されがちである。
矩形や四角形のバウンディングボックスを用いた単純な表現は、より難しい任意の形のテキストを扱う際に不足する。
textitNASKは、予測された幾何学的属性を使用して、より厳密な表現でテキストインスタンスを再構築する。
論文 参考訳(メタデータ) (2020-04-26T17:03:41Z) - ContourNet: Taking a Further Step toward Accurate Arbitrary-shaped Scene
Text Detection [147.10751375922035]
本研究では,シーンテキストの偽陽性と大規模分散を効果的に処理するContourNetを提案する。
本手法は,両方向の応答値の高い予測を出力するだけで,これらの偽陽性を効果的に抑制する。
論文 参考訳(メタデータ) (2020-04-10T08:15:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。