論文の概要: SPTS v2: Single-Point Scene Text Spotting
- arxiv url: http://arxiv.org/abs/2301.01635v1
- Date: Wed, 4 Jan 2023 14:20:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-05 15:03:48.264370
- Title: SPTS v2: Single-Point Scene Text Spotting
- Title(参考訳): SPTS v2: シングルポイントシーンテキストスポッティング
- Authors: Yuliang Liu, Jiaxin Zhang, Dezhi Peng, Mingxin Huang, Xinyu Wang,
Jingqun Tang, Can Huang, Dahua Lin, Chunhua Shen, Xiang Bai, Lianwen Jin
- Abstract要約: トレーニングシーンのテキストスポッティングモデルは、非常に低コストの単一点アノテーションで実現できることを示す。
既存のベンチマークデータセットの実験では、SPTS v2が以前の最先端のシングルポイントテキストスポッターより優れていることが示されている。
- 参考スコア(独自算出の注目度): 147.0249948622151
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: End-to-end scene text spotting has made significant progress due to its
intrinsic synergy between text detection and recognition. Previous methods
commonly regard manual annotations such as horizontal rectangles, rotated
rectangles, quadrangles,and polygons as a prerequisite, which are much more
expensive than using single-point. For the first time, we demonstrate that
training scene text spotting models can be achieved with an extremely low-cost
single-point annotation by the proposed framework, termed SPTS v2. SPTS v2
reserves the advantage of the auto-regressive Transformer with an Instance
Assignment Decoder (IAD) through sequentially predicting the center points of
all text instances inside the same predicting sequence, while with a Parallel
Recognition Decoder (PRD) for text recognition in parallel. These two decoders
share the same parameters and are interactively connected with a simple but
effective information transmission process to pass the gradient and
information. Comprehensive experiments on various existing benchmark datasets
demonstrate the SPTS v2 can outperform previous state-of-the-art single-point
text spotters with fewer parameters while achieving 14x faster inference speed.
Most importantly, within the scope of our SPTS v2, extensive experiments
further reveal an important phenomenon that single-point serves as the optimal
setting for the scene text spotting compared to non-point, rectangular bounding
box, and polygonal bounding box. Such an attempt provides a significant
opportunity for scene text spotting applications beyond the realms of existing
paradigms. Code is available at https://github.com/shannanyinxiang/SPTS.
- Abstract(参考訳): エンド・ツー・エンドのシーンテキストスポッティングは、本質的なテキスト検出と認識の相乗効果により大きな進歩を遂げている。
従来の手法では、水平長方形、回転長方形、四角形、多角形などの手動アノテーションを前提としており、単点よりはるかに高価である。
提案するフレームワークであるSPTS v2により,非常に低コストな単一点アノテーションにより,シーンテキストスポッティングモデルの訓練を行うことができることを示す。
spts v2は、同じ予測シーケンス内の全てのテキストインスタンスの中央点を逐次予測し、並行してテキスト認識を行う並列認識デコーダ(prd)を用いて、インスタンス割り当てデコーダ(iad)による自動回帰トランスの利点を予約する。
これら2つのデコーダは同じパラメータを共有し、単純な情報伝達プロセスと対話的に接続され、勾配と情報を渡す。
既存のベンチマークデータセットに関する総合的な実験は、SPTS v2が従来の最先端のシングルポイントテキストスポッターよりも少ないパラメータで、14倍高速な推論速度を達成できることを示した。
最も重要なことは、SPTS v2の範囲内では、より広範な実験により、一点が、非点、長方形境界ボックス、多角形境界ボックスと比較して、シーンテキストスポッティングの最適設定として機能する重要な現象が明らかにされていることである。
このような試みは、既存のパラダイムの領域を超えたシーンテキストスポッティングアプリケーションにとって重要な機会を提供する。
コードはhttps://github.com/shannanyinxiang/sptsで入手できる。
関連論文リスト
- DeepSolo: Let Transformer Decoder with Explicit Points Solo for Text
Spotting [129.73247700864385]
DeepSoloは単純な検出トランスフォーマーのベースラインで、テキスト検出と認識を同時に行うためのExplicit Points Soloを備えた1つのデコーダを提供する。
我々は、より正確な監視信号を提供するためにテキストマッチング基準を導入し、より効率的な訓練を可能にした。
論文 参考訳(メタデータ) (2022-11-19T19:06:22Z) - DPText-DETR: Towards Better Scene Text Detection with Dynamic Points in
Transformer [94.35116535588332]
ポリゴン点やベジエ曲線制御点を予測してテキストをローカライズするトランスフォーマーベースの手法は、シーンテキストの検出で非常に人気がある。
しかし、使用点ラベル形式は、トランスフォーマーモデルの堅牢性に影響を与える人間の読み順を意味する。
本稿では,DPText-DETRを提案する。これはクエリとしてポイント座標を直接使用し,デコーダ層間で動的に更新する。
論文 参考訳(メタデータ) (2022-07-10T15:45:16Z) - SwinTextSpotter: Scene Text Spotting via Better Synergy between Text
Detection and Text Recognition [73.61592015908353]
本稿では,SwinTextSpotter と呼ばれるシーンテキストスポッティングフレームワークを提案する。
動的頭部を検出器とするトランスを用いて、2つのタスクを新しい認識変換機構で統一する。
この設計は、追加の修正モジュールも文字レベルのアノテーションも必要としない簡潔なフレームワークをもたらす。
論文 参考訳(メタデータ) (2022-03-19T01:14:42Z) - SPTS: Single-Point Text Spotting [128.52900104146028]
トレーニングシーンのテキストスポッティングモデルは,インスタンスごとの単一点の極めて低コストなアノテーションによって実現可能であることを示す。
本稿では,シーンテキストスポッティングをシーケンス予測タスクとするエンドツーエンドのシーンテキストスポッティング手法を提案する。
論文 参考訳(メタデータ) (2021-12-15T06:44:21Z) - Context-Free TextSpotter for Real-Time and Mobile End-to-End Text
Detection and Recognition [8.480710920894547]
本稿では、単純な畳み込みと、Context-Free TextSpotterという、いくつかの後処理からなるテキストスポッティング手法を提案する。
標準ベンチマークを用いた実験によると、Context-Free TextSpotterは、300万のパラメータしか持たないGPU上のリアルタイムテキストスポッティングを実現している。
私たちのテキストスポッターは、安価なレイテンシでスマートフォン上で実行できるので、スタンドアロンのOCRアプリケーションを構築するのに役立ちます。
論文 参考訳(メタデータ) (2021-06-10T09:32:52Z) - ABCNet v2: Adaptive Bezier-Curve Network for Real-time End-to-end Text
Spotting [108.93803186429017]
エンドツーエンドのテキストスポッティングは、統一されたフレームワークで検出と認識を統合することを目指している。
本稿では、Adaptive Bezier Curve Network v2 (ABCNet v2) を提示することで、エンドツーエンドテキストスポッティングに取り組む。
1) 任意の形状のテキストをパラメータ化されたベジアー曲線で適応的に適合させ, セグメンテーション法と比較すると, 構造的な出力だけでなく, 制御可能な表現も提供できる。
様々なバイリンガル(英語と中国語)ベンチマークデータセットで実施された総合的な実験は、ABCNet v2が現状を達成することを実証している。
論文 参考訳(メタデータ) (2021-05-08T07:46:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。