論文の概要: CBNet: A Plug-and-Play Network for Segmentation-Based Scene Text Detection
- arxiv url: http://arxiv.org/abs/2212.02340v4
- Date: Fri, 22 Mar 2024 02:33:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-26 00:08:10.367653
- Title: CBNet: A Plug-and-Play Network for Segmentation-Based Scene Text Detection
- Title(参考訳): CBNet: セグメンテーションに基づくシーンテキスト検出のためのプラグイン・アンド・プレイネットワーク
- Authors: Xi Zhao, Wei Feng, Zheng Zhang, Jingjing Lv, Xin Zhu, Zhangang Lin, Jinghe Hu, Jingping Shao,
- Abstract要約: 本稿では,これらの問題に対処するためのコンテキスト認識および境界誘導ネットワーク(CBN)を提案する。
CBNでは、最初のセグメンテーション結果を予測するために、まず基本的なテキスト検出器が使用される。
最後に,輪郭上の画素のみに適応的に拡張されたテキストカーネルを拡張するための境界誘導モジュールを提案する。
- 参考スコア(独自算出の注目度): 13.679267531492062
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, segmentation-based methods are quite popular in scene text detection, which mainly contain two steps: text kernel segmentation and expansion. However, the segmentation process only considers each pixel independently, and the expansion process is difficult to achieve a favorable accuracy-speed trade-off. In this paper, we propose a Context-aware and Boundary-guided Network (CBN) to tackle these problems. In CBN, a basic text detector is firstly used to predict initial segmentation results. Then, we propose a context-aware module to enhance text kernel feature representations, which considers both global and local contexts. Finally, we introduce a boundary-guided module to expand enhanced text kernels adaptively with only the pixels on the contours, which not only obtains accurate text boundaries but also keeps high speed, especially on high-resolution output maps. In particular, with a lightweight backbone, the basic detector equipped with our proposed CBN achieves state-of-the-art results on several popular benchmarks, and our proposed CBN can be plugged into several segmentation-based methods. Code is available at https://github.com/XiiZhao/cbn.pytorch.
- Abstract(参考訳): 近年,シーンテキスト検出では,主にテキストカーネルのセグメンテーションと拡張の2段階を含むセグメンテーションベースの手法が広く普及している。
しかし、分割処理は各画素を独立に考慮し、拡張処理は良好な精度と速度のトレードオフを達成するのが困難である。
本稿では,これらの問題に対処するためのコンテキスト認識および境界誘導ネットワーク(CBN)を提案する。
CBNでは、最初のセグメンテーション結果を予測するために、まず基本的なテキスト検出器が使用される。
そこで本稿では,グローバルなコンテキストとローカルなコンテキストの両方を考慮し,テキストカーネルの特徴表現を強化するコンテキスト認識モジュールを提案する。
最後に,輪郭上の画素のみに適応的に拡張されたテキストカーネルを拡張可能な境界誘導モジュールを導入し,テキスト境界を正確に取得するだけでなく,特に高解像度の出力マップ上で高速に保持する。
特に、軽量なバックボーンを用いて、提案したCBNを用いた基本検出器は、いくつかの一般的なベンチマークで最先端の結果を得ることができ、提案したCBNは、いくつかのセグメンテーションベースの方法にプラグインすることができる。
コードはhttps://github.com/XiiZhao/cbn.pytorch.comで入手できる。
関連論文リスト
- TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Kernel Proposal Network for Arbitrary Shape Text Detection [18.561812622368763]
任意の形状テキスト検出のための革新的カーネル提案ネットワーク(KPN)を提案する。
提案したKPNは、異なるテキストをインスタンスに依存しない機能マップに分類することで、隣接するテキストインスタンスを分離することができる。
本研究は,テキスト検出における隣接するテキストインスタンスの付着問題に対して,効率よく効果的に対処するための動的畳み込みカーネル戦略を初めて導入するものである。
論文 参考訳(メタデータ) (2022-03-12T11:02:32Z) - Real-Time Scene Text Detection with Differentiable Binarization and
Adaptive Scale Fusion [62.269219152425556]
セグメンテーションに基づくシーンテキスト検出手法はシーンテキスト検出分野において大きな注目を集めている。
本稿では,二項化処理をセグメンテーションネットワークに統合する分散二項化(DB)モジュールを提案する。
アダプティブ・スケール・フュージョン (ASF) モジュールは, 異なるスケールの特徴を適応的に融合させることにより, スケールのロバスト性を向上させる。
論文 参考訳(メタデータ) (2022-02-21T15:30:14Z) - All You Need is a Second Look: Towards Arbitrary-Shaped Text Detection [39.17648241471479]
本稿では,NASK (Need A Second looK) と呼ばれる2段階セグメンテーションによる任意のテキスト検出手法を提案する。
論文 参考訳(メタデータ) (2021-06-24T01:44:10Z) - ABCNet v2: Adaptive Bezier-Curve Network for Real-time End-to-end Text
Spotting [108.93803186429017]
エンドツーエンドのテキストスポッティングは、統一されたフレームワークで検出と認識を統合することを目指している。
本稿では、Adaptive Bezier Curve Network v2 (ABCNet v2) を提示することで、エンドツーエンドテキストスポッティングに取り組む。
1) 任意の形状のテキストをパラメータ化されたベジアー曲線で適応的に適合させ, セグメンテーション法と比較すると, 構造的な出力だけでなく, 制御可能な表現も提供できる。
様々なバイリンガル(英語と中国語)ベンチマークデータセットで実施された総合的な実験は、ABCNet v2が現状を達成することを実証している。
論文 参考訳(メタデータ) (2021-05-08T07:46:55Z) - PAN++: Towards Efficient and Accurate End-to-End Spotting of
Arbitrarily-Shaped Text [85.7020597476857]
自然場面における任意の形状のテキストを効率的に検出し認識できる,エンドツーエンドのテキストスポッティングフレームワークpan++を提案する。
PAN++は、テキスト行を周辺ピクセルに囲まれたテキストカーネル(中央領域)として再構成するカーネル表現に基づいている。
ピクセルベースの表現として、カーネル表現は1つの完全な畳み込みネットワークによって予測できる。
論文 参考訳(メタデータ) (2021-05-02T07:04:30Z) - Conceptual Text Region Network: Cognition-Inspired Accurate Scene Text
Detection [7.716899861923764]
概念テキスト領域ネットワーク (Conceptual Text Region Network, CTRNet) を提案する。
CTRNetは、優れた数学的特性を継承する認知ベースのツールのクラスであるCTR(Conceptual Text Regions)を利用して、洗練されたラベルデザインを可能にします。
CTRNetは、ベンチマークCTW1500、Total-Text、MSRA-TD500、ICDAR 2015データセットで最新のパフォーマンスを達成し、最大2.0%のパフォーマンス向上を実現します。
論文 参考訳(メタデータ) (2021-03-16T16:28:33Z) - Batch Coherence-Driven Network for Part-aware Person Re-Identification [79.33809815035127]
既存のパートアウェアの人物再識別方法は、通常、ボディ部分の検出と部分レベルの特徴抽出という2つのステップを使用する。
トレーニングフェーズとテストフェーズの両方で身体の一部をバイパスし,セマンティックに整合した機能を実現するNetworkBCDNetを提案する。
論文 参考訳(メタデータ) (2020-09-21T09:04:13Z) - Text Perceptron: Towards End-to-End Arbitrary-Shaped Text Spotting [49.768327669098674]
テキストパーセプトロン(Text Perceptron)という,エンドツーエンドのトレーニング可能なテキストスポッティング手法を提案する。
まず、テキスト読解順序と境界情報を学ぶ効率的なセグメンテーションベースのテキスト検出器を用いる。
次に、検出された特徴領域を正規形態に変換するために、新しい形状変換モジュール(STM)を設計する。
論文 参考訳(メタデータ) (2020-02-17T08:07:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。