論文の概要: ABCNet v2: Adaptive Bezier-Curve Network for Real-time End-to-end Text
Spotting
- arxiv url: http://arxiv.org/abs/2105.03620v1
- Date: Sat, 8 May 2021 07:46:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-11 14:57:54.148396
- Title: ABCNet v2: Adaptive Bezier-Curve Network for Real-time End-to-end Text
Spotting
- Title(参考訳): ABCNet v2: リアルタイムエンドツーエンドテキストスポッティングのためのAdaptive Bezier-Curve Network
- Authors: Yuliang Liu, Chunhua Shen, Lianwen Jin, Tong He, Peng Chen, Chongyu
Liu, Hao Chen
- Abstract要約: エンドツーエンドのテキストスポッティングは、統一されたフレームワークで検出と認識を統合することを目指している。
本稿では、Adaptive Bezier Curve Network v2 (ABCNet v2) を提示することで、エンドツーエンドテキストスポッティングに取り組む。
1) 任意の形状のテキストをパラメータ化されたベジアー曲線で適応的に適合させ, セグメンテーション法と比較すると, 構造的な出力だけでなく, 制御可能な表現も提供できる。
様々なバイリンガル(英語と中国語)ベンチマークデータセットで実施された総合的な実験は、ABCNet v2が現状を達成することを実証している。
- 参考スコア(独自算出の注目度): 108.93803186429017
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: End-to-end text-spotting, which aims to integrate detection and recognition
in a unified framework, has attracted increasing attention due to its
simplicity of the two complimentary tasks. It remains an open problem
especially when processing arbitrarily-shaped text instances. Previous methods
can be roughly categorized into two groups: character-based and
segmentation-based, which often require character-level annotations and/or
complex post-processing due to the unstructured output. Here, we tackle
end-to-end text spotting by presenting Adaptive Bezier Curve Network v2 (ABCNet
v2). Our main contributions are four-fold: 1) For the first time, we adaptively
fit arbitrarily-shaped text by a parameterized Bezier curve, which, compared
with segmentation-based methods, can not only provide structured output but
also controllable representation. 2) We design a novel BezierAlign layer for
extracting accurate convolution features of a text instance of arbitrary
shapes, significantly improving the precision of recognition over previous
methods. 3) Different from previous methods, which often suffer from complex
post-processing and sensitive hyper-parameters, our ABCNet v2 maintains a
simple pipeline with the only post-processing non-maximum suppression (NMS). 4)
As the performance of text recognition closely depends on feature alignment,
ABCNet v2 further adopts a simple yet effective coordinate convolution to
encode the position of the convolutional filters, which leads to a considerable
improvement with negligible computation overhead. Comprehensive experiments
conducted on various bilingual (English and Chinese) benchmark datasets
demonstrate that ABCNet v2 can achieve state-of-the-art performance while
maintaining very high efficiency.
- Abstract(参考訳): 統合フレームワークによる検出と認識の統合を目的としたエンドツーエンドテキストスポッティングは,この2つの補完的タスクが単純であることから,注目を集めている。
特に任意の形式のテキストインスタンスを処理する場合、これはオープンな問題である。
従来の手法は、文字ベースとセグメンテーションベースという2つのグループに大別できるが、これは文字レベルのアノテーションや、構造化されていない出力のために複雑な後処理を必要とすることが多い。
本稿では,Adaptive Bezier Curve Network v2 (ABCNet v2) を提示することで,エンドツーエンドのテキストスポッティングに取り組む。
1) 任意の形状のテキストをパラメータ化されたベジアー曲線で適応的に適合させ, セグメンテーション法と比較すると, 構造的な出力だけでなく, 制御可能な表現も提供できる。
2) 任意の形状のテキストインスタンスの正確な畳み込み特徴を抽出する新しいBezierAlign層を設計し, 従来の手法に比べて認識精度を大幅に向上させる。
3) 複雑な後処理や過度パラメーターに悩まされる従来の方法とは異なり,ABCNet v2は,処理後非最大抑制(NMS)のみを簡単なパイプラインとして維持する。
4) テキスト認識の性能は特徴の整合性に大きく依存するため,ABCNet v2では,畳み込みフィルタの位置を符号化する単純な座標畳み込みも採用している。
様々なバイリンガル(英語と中国語)ベンチマークデータセットで実施された総合的な実験は、ABCNet v2が非常に高い効率を維持しながら最先端のパフォーマンスを達成できることを示した。
関連論文リスト
- TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - SPTS v2: Single-Point Scene Text Spotting [146.98118405786445]
新たなフレームワークであるSPTS v2では,単一ポイントアノテーションを用いて高いパフォーマンスのテキストスポッティングモデルをトレーニングすることができる。
SPTS v2は、より少ないパラメータで従来の最先端のシングルポイントテキストスポッターより優れていることを示す。
実験により、シーンテキストスポッティングにおける単一点表現の潜在的好みが示唆される。
論文 参考訳(メタデータ) (2023-01-04T14:20:14Z) - Text Revision by On-the-Fly Representation Optimization [76.11035270753757]
現在の最先端手法は、これらのタスクをシーケンスからシーケンスまでの学習問題として定式化している。
並列データを必要としないテキストリビジョンのための反復的なインプレース編集手法を提案する。
テキストの単純化に関する最先端の教師付き手法よりも、競争力があり、パフォーマンスも向上する。
論文 参考訳(メタデータ) (2022-04-15T07:38:08Z) - Real-Time Scene Text Detection with Differentiable Binarization and
Adaptive Scale Fusion [62.269219152425556]
セグメンテーションに基づくシーンテキスト検出手法はシーンテキスト検出分野において大きな注目を集めている。
本稿では,二項化処理をセグメンテーションネットワークに統合する分散二項化(DB)モジュールを提案する。
アダプティブ・スケール・フュージョン (ASF) モジュールは, 異なるスケールの特徴を適応的に融合させることにより, スケールのロバスト性を向上させる。
論文 参考訳(メタデータ) (2022-02-21T15:30:14Z) - ABCNet: Real-time Scene Text Spotting with Adaptive Bezier-Curve Network [108.07304516679103]
本稿では,シーンテキストの検出と認識のための適応ベジエ・サーブネットワーク(ABCNet)を提案する。
まず,パラメータ化ベジエ曲線を用いて任意の形状のテキストに適応的に適合する。
標準的なバウンディングボックス検出と比較して、ベジエ曲線検出は無視可能なオーバーヘッドを導入し、効率と精度の両方において本手法の優位性をもたらす。
論文 参考訳(メタデータ) (2020-02-24T12:27:31Z) - Text Perceptron: Towards End-to-End Arbitrary-Shaped Text Spotting [49.768327669098674]
テキストパーセプトロン(Text Perceptron)という,エンドツーエンドのトレーニング可能なテキストスポッティング手法を提案する。
まず、テキスト読解順序と境界情報を学ぶ効率的なセグメンテーションベースのテキスト検出器を用いる。
次に、検出された特徴領域を正規形態に変換するために、新しい形状変換モジュール(STM)を設計する。
論文 参考訳(メタデータ) (2020-02-17T08:07:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。