論文の概要: SPTS v2: Single-Point Scene Text Spotting
- arxiv url: http://arxiv.org/abs/2301.01635v4
- Date: Sat, 2 Sep 2023 05:01:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-07 06:53:29.179425
- Title: SPTS v2: Single-Point Scene Text Spotting
- Title(参考訳): SPTS v2: シングルポイントシーンテキストスポッティング
- Authors: Yuliang Liu, Jiaxin Zhang, Dezhi Peng, Mingxin Huang, Xinyu Wang,
Jingqun Tang, Can Huang, Dahua Lin, Chunhua Shen, Xiang Bai, Lianwen Jin
- Abstract要約: 新たなフレームワークであるSPTS v2では,単一ポイントアノテーションを用いて高いパフォーマンスのテキストスポッティングモデルをトレーニングすることができる。
SPTS v2は、より少ないパラメータで従来の最先端のシングルポイントテキストスポッターより優れていることを示す。
実験により、シーンテキストスポッティングにおける単一点表現の潜在的好みが示唆される。
- 参考スコア(独自算出の注目度): 146.98118405786445
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: End-to-end scene text spotting has made significant progress due to its
intrinsic synergy between text detection and recognition. Previous methods
commonly regard manual annotations such as horizontal rectangles, rotated
rectangles, quadrangles, and polygons as a prerequisite, which are much more
expensive than using single-point. Our new framework, SPTS v2, allows us to
train high-performing text-spotting models using a single-point annotation.
SPTS v2 reserves the advantage of the auto-regressive Transformer with an
Instance Assignment Decoder (IAD) through sequentially predicting the center
points of all text instances inside the same predicting sequence, while with a
Parallel Recognition Decoder (PRD) for text recognition in parallel, which
significantly reduces the requirement of the length of the sequence. These two
decoders share the same parameters and are interactively connected with a
simple but effective information transmission process to pass the gradient and
information. Comprehensive experiments on various existing benchmark datasets
demonstrate the SPTS v2 can outperform previous state-of-the-art single-point
text spotters with fewer parameters while achieving 19$\times$ faster inference
speed. Within the context of our SPTS v2 framework, our experiments suggest a
potential preference for single-point representation in scene text spotting
when compared to other representations. Such an attempt provides a significant
opportunity for scene text spotting applications beyond the realms of existing
paradigms. Code is available at: https://github.com/Yuliang-Liu/SPTSv2.
- Abstract(参考訳): エンド・ツー・エンドのシーンテキストスポッティングは、本質的なテキスト検出と認識の相乗効果により大きな進歩を遂げている。
従来の手法では、水平長方形、回転矩形、四角形、多角形などの手動アノテーションを前提条件としており、単点法よりもはるかに高価である。
新しいフレームワークであるSPTS v2では、単一ポイントアノテーションを使用して高パフォーマンステキストスポッティングモデルをトレーニングできます。
spts v2は、同じ予測シーケンス内のすべてのテキストインスタンスの中心点を逐次予測することで、インスタンス割当デコーダ(iad)による自己回帰トランスの利点を予約する一方で、テキスト認識のための並列認識デコーダ(prd)を並列に使用することで、シーケンス長の要求を大幅に削減する。
これら2つのデコーダは同じパラメータを共有し、単純な情報伝達プロセスと対話的に接続され、勾配と情報を渡す。
様々な既存のベンチマークデータセットに関する包括的な実験により、spts v2は、より少ないパラメータで以前の最先端のシングルポイントテキストスポッターを上回ることができ、19$\times$の推論速度を実現している。
SPTS v2フレームワークのコンテキスト内では、他の表現と比較した場合、シーンテキストスポッティングにおける単一点表現の潜在的嗜好が示唆される。
このような試みは、既存のパラダイムの領域を超えたシーンテキストスポッティングアプリケーションにとって重要な機会を提供する。
コードはhttps://github.com/yuliang-liu/sptsv2。
関連論文リスト
- DeepSolo: Let Transformer Decoder with Explicit Points Solo for Text
Spotting [129.73247700864385]
DeepSoloは単純な検出トランスフォーマーのベースラインで、テキスト検出と認識を同時に行うためのExplicit Points Soloを備えた1つのデコーダを提供する。
我々は、より正確な監視信号を提供するためにテキストマッチング基準を導入し、より効率的な訓練を可能にした。
論文 参考訳(メタデータ) (2022-11-19T19:06:22Z) - DPText-DETR: Towards Better Scene Text Detection with Dynamic Points in
Transformer [94.35116535588332]
ポリゴン点やベジエ曲線制御点を予測してテキストをローカライズするトランスフォーマーベースの手法は、シーンテキストの検出で非常に人気がある。
しかし、使用点ラベル形式は、トランスフォーマーモデルの堅牢性に影響を与える人間の読み順を意味する。
本稿では,DPText-DETRを提案する。これはクエリとしてポイント座標を直接使用し,デコーダ層間で動的に更新する。
論文 参考訳(メタデータ) (2022-07-10T15:45:16Z) - SwinTextSpotter: Scene Text Spotting via Better Synergy between Text
Detection and Text Recognition [73.61592015908353]
本稿では,SwinTextSpotter と呼ばれるシーンテキストスポッティングフレームワークを提案する。
動的頭部を検出器とするトランスを用いて、2つのタスクを新しい認識変換機構で統一する。
この設計は、追加の修正モジュールも文字レベルのアノテーションも必要としない簡潔なフレームワークをもたらす。
論文 参考訳(メタデータ) (2022-03-19T01:14:42Z) - SPTS: Single-Point Text Spotting [128.52900104146028]
トレーニングシーンのテキストスポッティングモデルは,インスタンスごとの単一点の極めて低コストなアノテーションによって実現可能であることを示す。
本稿では,シーンテキストスポッティングをシーケンス予測タスクとするエンドツーエンドのシーンテキストスポッティング手法を提案する。
論文 参考訳(メタデータ) (2021-12-15T06:44:21Z) - Context-Free TextSpotter for Real-Time and Mobile End-to-End Text
Detection and Recognition [8.480710920894547]
本稿では、単純な畳み込みと、Context-Free TextSpotterという、いくつかの後処理からなるテキストスポッティング手法を提案する。
標準ベンチマークを用いた実験によると、Context-Free TextSpotterは、300万のパラメータしか持たないGPU上のリアルタイムテキストスポッティングを実現している。
私たちのテキストスポッターは、安価なレイテンシでスマートフォン上で実行できるので、スタンドアロンのOCRアプリケーションを構築するのに役立ちます。
論文 参考訳(メタデータ) (2021-06-10T09:32:52Z) - ABCNet v2: Adaptive Bezier-Curve Network for Real-time End-to-end Text
Spotting [108.93803186429017]
エンドツーエンドのテキストスポッティングは、統一されたフレームワークで検出と認識を統合することを目指している。
本稿では、Adaptive Bezier Curve Network v2 (ABCNet v2) を提示することで、エンドツーエンドテキストスポッティングに取り組む。
1) 任意の形状のテキストをパラメータ化されたベジアー曲線で適応的に適合させ, セグメンテーション法と比較すると, 構造的な出力だけでなく, 制御可能な表現も提供できる。
様々なバイリンガル(英語と中国語)ベンチマークデータセットで実施された総合的な実験は、ABCNet v2が現状を達成することを実証している。
論文 参考訳(メタデータ) (2021-05-08T07:46:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。