論文の概要: PGNet: Real-time Arbitrarily-Shaped Text Spotting with Point Gathering
Network
- arxiv url: http://arxiv.org/abs/2104.05458v1
- Date: Mon, 12 Apr 2021 13:27:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-13 14:05:28.806731
- Title: PGNet: Real-time Arbitrarily-Shaped Text Spotting with Point Gathering
Network
- Title(参考訳): PGNet:ポイントゲザリングネットワークを用いたリアルタイム任意形テキストスポッティング
- Authors: Pengfei Wang, Chengquan Zhang, Fei Qi, Shanshan Liu, Xiaoqiang Zhang,
Pengyuan Lyu, Junyu Han, Jingtuo Liu, Errui Ding, Guangming Shi
- Abstract要約: 任意形状のテキストをリアルタイムで読み取るための,完全畳み込み点収集ネットワーク(PGNet)を提案する。
PG-CTCデコーダを用いて2次元空間から高レベル文字分類ベクトルを収集し,NMSやRoI操作を使わずにテキストシンボルに復号する。
実験により,提案手法は競争精度が向上し,走行速度が著しく向上することが確認された。
- 参考スコア(独自算出の注目度): 54.03560668182197
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The reading of arbitrarily-shaped text has received increasing research
attention. However, existing text spotters are mostly built on two-stage
frameworks or character-based methods, which suffer from either Non-Maximum
Suppression (NMS), Region-of-Interest (RoI) operations, or character-level
annotations. In this paper, to address the above problems, we propose a novel
fully convolutional Point Gathering Network (PGNet) for reading
arbitrarily-shaped text in real-time. The PGNet is a single-shot text spotter,
where the pixel-level character classification map is learned with proposed
PG-CTC loss avoiding the usage of character-level annotations. With a PG-CTC
decoder, we gather high-level character classification vectors from
two-dimensional space and decode them into text symbols without NMS and RoI
operations involved, which guarantees high efficiency. Additionally, reasoning
the relations between each character and its neighbors, a graph refinement
module (GRM) is proposed to optimize the coarse recognition and improve the
end-to-end performance. Experiments prove that the proposed method achieves
competitive accuracy, meanwhile significantly improving the running speed. In
particular, in Total-Text, it runs at 46.7 FPS, surpassing the previous
spotters with a large margin.
- Abstract(参考訳): 任意形テキストの読み上げは研究の注目を集めている。
しかし、既存のテキストスポッターは、主に2段階のフレームワークまたは文字ベースのメソッド上に構築されており、非最大抑制(nms)、領域間(roi)操作、文字レベルのアノテーションに苦しむ。
本稿では,この問題を解決するために,任意の形のテキストをリアルタイムに読み取るための完全畳み込み型ポイントゲザリングネットワーク(PGNet)を提案する。
PGNetはシングルショットテキストスポッターであり、文字レベルのアノテーションの使用を避けるために提案されたPG-CTC損失を用いてピクセルレベルの文字分類マップを学習する。
PG-CTCデコーダを用いて2次元空間から高レベル文字分類ベクトルを収集し,NMSやRoI操作を伴わないテキストシンボルに復号し,高い効率性を保証する。
さらに,各文字とその近傍の関係を推論し,粗い認識を最適化し,エンドツーエンドの性能を向上させるため,グラフ精細モジュール(GRM)を提案する。
実験により,提案手法は競争精度が向上し,走行速度が大幅に向上することが示された。
特にTotal-Textでは46.7 FPSで動作し、以前のスポッターよりも大きなマージンを持つ。
関連論文リスト
- Adaptive Segmentation Network for Scene Text Detection [0.0]
セグメント化に基づくシーンテキスト検出のための背景画素とテキスト画素を区別する識別セグメンテーションしきい値を自動的に学習する。
さらに、マクロサイズと極端アスペクト比でテキストインスタンスをキャプチャするGE-FPN(Global-information Enhanced Feature Pyramid Network)を設計する。
最後に,提案したしきい値学習戦略とテキスト検出構造とともに,シーンテキスト検出のための適応ネットワーク(ASNet)を設計する。
論文 参考訳(メタデータ) (2023-07-27T17:37:56Z) - LRANet: Towards Accurate and Efficient Scene Text Detection with
Low-Rank Approximation Network [63.554061288184165]
低ランク近似に基づく新しいパラメータ化テキスト形状法を提案する。
異なるテキストの輪郭間の形状相関を探索することにより, 形状表現における一貫性, コンパクト性, 単純性, 頑健性を実現する。
我々はLRANetという名前の正確で効率的な任意の形状のテキスト検出器を実装した。
論文 参考訳(メタデータ) (2023-06-27T02:03:46Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - ABCNet v2: Adaptive Bezier-Curve Network for Real-time End-to-end Text
Spotting [108.93803186429017]
エンドツーエンドのテキストスポッティングは、統一されたフレームワークで検出と認識を統合することを目指している。
本稿では、Adaptive Bezier Curve Network v2 (ABCNet v2) を提示することで、エンドツーエンドテキストスポッティングに取り組む。
1) 任意の形状のテキストをパラメータ化されたベジアー曲線で適応的に適合させ, セグメンテーション法と比較すると, 構造的な出力だけでなく, 制御可能な表現も提供できる。
様々なバイリンガル(英語と中国語)ベンチマークデータセットで実施された総合的な実験は、ABCNet v2が現状を達成することを実証している。
論文 参考訳(メタデータ) (2021-05-08T07:46:55Z) - MANGO: A Mask Attention Guided One-Stage Scene Text Spotter [41.66707532607276]
MANGOという,新しいMask AttentioN Guided One-stage text Spotting frameworkを提案する。
提案手法は,正規テキストスポッティングベンチマークと不規則テキストスポッティングベンチマークの両方において,競争力と新たな最先端性能を実現する。
論文 参考訳(メタデータ) (2020-12-08T10:47:49Z) - ContourNet: Taking a Further Step toward Accurate Arbitrary-shaped Scene
Text Detection [147.10751375922035]
本研究では,シーンテキストの偽陽性と大規模分散を効果的に処理するContourNetを提案する。
本手法は,両方向の応答値の高い予測を出力するだけで,これらの偽陽性を効果的に抑制する。
論文 参考訳(メタデータ) (2020-04-10T08:15:23Z) - Text Perceptron: Towards End-to-End Arbitrary-Shaped Text Spotting [49.768327669098674]
テキストパーセプトロン(Text Perceptron)という,エンドツーエンドのトレーニング可能なテキストスポッティング手法を提案する。
まず、テキスト読解順序と境界情報を学ぶ効率的なセグメンテーションベースのテキスト検出器を用いる。
次に、検出された特徴領域を正規形態に変換するために、新しい形状変換モジュール(STM)を設計する。
論文 参考訳(メタデータ) (2020-02-17T08:07:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。