論文の概要: Detection and Rectification of Arbitrary Shaped Scene Texts by using
Text Keypoints and Links
- arxiv url: http://arxiv.org/abs/2103.00785v1
- Date: Mon, 1 Mar 2021 06:13:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-03 16:39:14.519691
- Title: Detection and Rectification of Arbitrary Shaped Scene Texts by using
Text Keypoints and Links
- Title(参考訳): テキストキーポイントとリンクを用いた任意形状のシーンテキストの検出と修正
- Authors: Chuhui Xue, Shijian Lu, Steven Hoi
- Abstract要約: マスク誘導マルチタスクネットワークは任意の形状のシーンテキストを確実に検出・修正する。
センタラインを指定する3種類のキーポイントが検出され、テキストインスタンスの形状が正確に決定される。
シーンテキストは、関連するランドマークポイントをリンクすることで配置および修正できます。
- 参考スコア(独自算出の注目度): 38.71967078941593
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Detection and recognition of scene texts of arbitrary shapes remain a grand
challenge due to the super-rich text shape variation in text line orientations,
lengths, curvatures, etc. This paper presents a mask-guided multi-task network
that detects and rectifies scene texts of arbitrary shapes reliably. Three
types of keypoints are detected which specify the centre line and so the shape
of text instances accurately. In addition, four types of keypoint links are
detected of which the horizontal links associate the detected keypoints of each
text instance and the vertical links predict a pair of landmark points (for
each keypoint) along the upper and lower text boundary, respectively. Scene
texts can be located and rectified by linking up the associated landmark points
(giving localization polygon boxes) and transforming the polygon boxes via thin
plate spline, respectively. Extensive experiments over several public datasets
show that the use of text keypoints is tolerant to the variation in text
orientations, lengths, and curvatures, and it achieves superior scene text
detection and rectification performance as compared with state-of-the-art
methods.
- Abstract(参考訳): 任意の形状のシーンテキストの検出と認識は、テキスト行のオリエンテーション、長さ、曲率などの超豊富なテキスト形状の変化のために大きな課題です。
本稿では,任意の形状のシーンテキストを確実に検出・修正するマスク誘導マルチタスクネットワークを提案する。
センタラインを指定する3種類のキーポイントが検出され、テキストインスタンスの形状が正確に決定される。
さらに、各テキストインスタンスの検出されたキーポイントを水平リンクが関連付ける4種類のキーポイントリンクを検出し、垂直リンクは、上と下の境界に沿って一対のランドマークポイント(各キーポイント)を予測する。
シーンテキストは、関連するランドマークポイント(ローカライゼーションのポリゴンボックス)をリンクし、それぞれ薄いプレートスプラインでポリゴンボックスを変換することで、位置と修正が可能である。
いくつかの公開データセット上での広範な実験は、テキストキーポイントの使用がテキストの向き、長さ、曲率の変化に耐性があることを示し、最先端の方法と比較して優れたシーンテキスト検出と修正性能を実現します。
関連論文リスト
- Hierarchical Text Spotter for Joint Text Spotting and Layout Analysis [52.01356859448068]
HTSは画像中のテキストを認識し、文字、単語、行、段落の4段階の階層構造を識別することができる。
HTSは、複数の単語レベルのテキストスポッティングベンチマークデータセットと幾何学的レイアウト解析タスクの最先端結果を達成する。
論文 参考訳(メタデータ) (2023-10-25T22:23:54Z) - Aggregated Text Transformer for Scene Text Detection [5.387121933662753]
本稿では,シーン画像中のテキストをマルチスケールの自己認識機構で表現するアグリゲートテキストTRansformer(ATTR)を提案する。
マルチスケール画像表現は頑健であり、様々なサイズのテキストコンテンツに関する豊富な情報を含んでいる。
提案手法は,各テキストインスタンスを個々のバイナリマスクとして表現することで,シーンテキストを検出する。
論文 参考訳(メタデータ) (2022-11-25T09:47:34Z) - Toward Understanding WordArt: Corner-Guided Transformer for Scene Text
Recognition [63.6608759501803]
我々は芸術的テキストを3つのレベルで認識することを提案する。
コーナーポイントは、文字内の局所的な特徴の抽出を誘導するために用いられる。
第二に、文字レベルの特徴をモデル化するために文字の対照的な損失を設計し、文字分類のための特徴表現を改善する。
第3に,Transformerを用いて画像レベルのグローバルな特徴を学習し,コーナーポイントのグローバルな関係をモデル化する。
論文 参考訳(メタデータ) (2022-07-31T14:11:05Z) - DPText-DETR: Towards Better Scene Text Detection with Dynamic Points in
Transformer [94.35116535588332]
ポリゴン点やベジエ曲線制御点を予測してテキストをローカライズするトランスフォーマーベースの手法は、シーンテキストの検出で非常に人気がある。
しかし、使用点ラベル形式は、トランスフォーマーモデルの堅牢性に影響を与える人間の読み順を意味する。
本稿では,DPText-DETRを提案する。これはクエリとしてポイント座標を直接使用し,デコーダ層間で動的に更新する。
論文 参考訳(メタデータ) (2022-07-10T15:45:16Z) - Text Spotting Transformers [29.970268691631333]
TESTRは、テキストボックス制御点回帰と文字認識のための単一のエンコーダとデュアルデコーダの上に構築されている。
本稿では、Bezier曲線とアノテーションの両方において、テキストインスタンスに適した制御点の標準表現を示す。
さらに,バウンディングボックス誘導検出プロセス(ボックス・トゥ・ポリゴン)を設計する。
論文 参考訳(メタデータ) (2022-04-05T01:05:31Z) - SwinTextSpotter: Scene Text Spotting via Better Synergy between Text
Detection and Text Recognition [73.61592015908353]
本稿では,SwinTextSpotter と呼ばれるシーンテキストスポッティングフレームワークを提案する。
動的頭部を検出器とするトランスを用いて、2つのタスクを新しい認識変換機構で統一する。
この設計は、追加の修正モジュールも文字レベルのアノテーションも必要としない簡潔なフレームワークをもたらす。
論文 参考訳(メタデータ) (2022-03-19T01:14:42Z) - DEER: Detection-agnostic End-to-End Recognizer for Scene Text Spotting [11.705454066278898]
本稿では,新しい検出非依存のエンド・ツー・エンド認識フレームワークDEERを提案する。
提案手法は,検出モジュールと認識モジュール間の密接な依存関係を低減する。
通常のテキストスポッティングベンチマークと任意の形のテキストスポッティングベンチマークで競合する結果を得る。
論文 参考訳(メタデータ) (2022-03-10T02:41:05Z) - Arbitrary Shape Text Detection using Transformers [2.294014185517203]
変換器(DETR)を用いた任意の字形テキスト検出のためのエンドツーエンドのトレーニング可能なアーキテクチャを提案する。
提案手法は,任意の検出されたテキスト領域のスケールとアスペクト比の変化を正確に測定する境界ボックス損失関数を利用する。
曲面テキストのTotal-TextおよびCTW-1500データセットと、多目的テキストのMSRA-TD500およびICDAR15データセットを用いて、提案モデルの評価を行った。
論文 参考訳(メタデータ) (2022-02-22T22:36:29Z) - Scene Text Detection with Scribble Lines [59.698806258671105]
テキスト検出のための多角形の代わりにスクリブル線でテキストをアノテートすることを提案する。
さまざまな形状のテキストの一般的なラベリング方法であり、ラベリングコストが低くなります。
実験の結果,提案手法は弱ラベル法と元のポリゴン系ラベリング法との間の性能ギャップを橋渡しすることを示した。
論文 参考訳(メタデータ) (2020-12-09T13:14:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。