論文の概要: Text Perceptron: Towards End-to-End Arbitrary-Shaped Text Spotting
- arxiv url: http://arxiv.org/abs/2002.06820v2
- Date: Mon, 25 Oct 2021 09:34:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-31 12:53:29.122325
- Title: Text Perceptron: Towards End-to-End Arbitrary-Shaped Text Spotting
- Title(参考訳): テキストパーセプトロン: 任意字型テキストスポッティングの実現に向けて
- Authors: Liang Qiao, Sanli Tang, Zhanzhan Cheng, Yunlu Xu, Yi Niu, Shiliang Pu
and Fei Wu
- Abstract要約: テキストパーセプトロン(Text Perceptron)という,エンドツーエンドのトレーニング可能なテキストスポッティング手法を提案する。
まず、テキスト読解順序と境界情報を学ぶ効率的なセグメンテーションベースのテキスト検出器を用いる。
次に、検出された特徴領域を正規形態に変換するために、新しい形状変換モジュール(STM)を設計する。
- 参考スコア(独自算出の注目度): 49.768327669098674
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Many approaches have recently been proposed to detect irregular scene text
and achieved promising results. However, their localization results may not
well satisfy the following text recognition part mainly because of two reasons:
1) recognizing arbitrary shaped text is still a challenging task, and 2)
prevalent non-trainable pipeline strategies between text detection and text
recognition will lead to suboptimal performances. To handle this
incompatibility problem, in this paper we propose an end-to-end trainable text
spotting approach named Text Perceptron. Concretely, Text Perceptron first
employs an efficient segmentation-based text detector that learns the latent
text reading order and boundary information. Then a novel Shape Transform
Module (abbr. STM) is designed to transform the detected feature regions into
regular morphologies without extra parameters. It unites text detection and the
following recognition part into a whole framework, and helps the whole network
achieve global optimization. Experiments show that our method achieves
competitive performance on two standard text benchmarks, i.e., ICDAR 2013 and
ICDAR 2015, and also obviously outperforms existing methods on irregular text
benchmarks SCUT-CTW1500 and Total-Text.
- Abstract(参考訳): 近年,不規則なシーンテキストを検出するための多くの手法が提案されている。
しかし、主に2つの理由から、以下のテキスト認識部を満足させることができない可能性がある。
1)任意の形のテキストを認識することは依然として困難な課題であり、
2) テキスト検出とテキスト認識の非学習パイプライン戦略は, 最適以下の性能をもたらす。
この不整合性問題に対処するため,本論文ではテキストパーセプトロンというエンドツーエンドのトレーニング可能なテキストスポッティング手法を提案する。
具体的には,テキストパーセプトロンは,テキスト読取順序と境界情報の学習を行う,効率的なセグメンテーションベースのテキスト検出装置を最初に採用する。
次に,新たな形状変換モジュール (STM) を設計し,検出した特徴領域を余分なパラメータを伴わずに正規な形状に変換する。
テキスト検出と以下の認識部をフレームワーク全体に統合し、ネットワーク全体のグローバル最適化の実現を支援する。
実験の結果,ICDAR 2013 と ICDAR 2015 の2つの標準テキストベンチマークでは競合性能が得られ,また不規則テキストベンチマーク SCUT-CTW1500 と Total-Text の既存手法よりも優れていた。
関連論文リスト
- SwinTextSpotter v2: Towards Better Synergy for Scene Text Spotting [126.01629300244001]
我々はSwinTextSpotter v2と呼ばれる新しいエンドツーエンドのシーンテキストスポッティングフレームワークを提案する。
我々は,新しい認識変換モジュールと認識アライメントモジュールを用いて,2つのタスク間の関係を強化する。
SwinTextSpotter v2は、様々な多言語(英語、中国語、ベトナム語)のベンチマークで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2024-01-15T12:33:00Z) - ESTextSpotter: Towards Better Scene Text Spotting with Explicit Synergy
in Transformer [88.61312640540902]
明示的な構文に基づくテキストスポッティング変換フレームワーク(ESTextSpotter)を紹介する。
本モデルは,1つのデコーダ内におけるテキスト検出と認識のための識別的,インタラクティブな特徴をモデル化することにより,明示的な相乗効果を実現する。
実験結果から,本モデルが従来の最先端手法よりも有意に優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-08-20T03:22:23Z) - LRANet: Towards Accurate and Efficient Scene Text Detection with
Low-Rank Approximation Network [63.554061288184165]
低ランク近似に基づく新しいパラメータ化テキスト形状法を提案する。
異なるテキストの輪郭間の形状相関を探索することにより, 形状表現における一貫性, コンパクト性, 単純性, 頑健性を実現する。
我々はLRANetという名前の正確で効率的な任意の形状のテキスト検出器を実装した。
論文 参考訳(メタデータ) (2023-06-27T02:03:46Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Optimal Boxes: Boosting End-to-End Scene Text Recognition by Adjusting
Annotated Bounding Boxes via Reinforcement Learning [41.56134008044702]
Boxは、テキスト認識モデルとの互換性を高めるために、各テキスト境界ボックスの形状を調整する強化学習ベースの方法である。
実験により、調整された境界ボックスをトレーニングの真理として使用する場合、エンド・ツー・エンドのテキスト認識システムの性能を向上させることができることを示した。
論文 参考訳(メタデータ) (2022-07-25T06:58:45Z) - SwinTextSpotter: Scene Text Spotting via Better Synergy between Text
Detection and Text Recognition [73.61592015908353]
本稿では,SwinTextSpotter と呼ばれるシーンテキストスポッティングフレームワークを提案する。
動的頭部を検出器とするトランスを用いて、2つのタスクを新しい認識変換機構で統一する。
この設計は、追加の修正モジュールも文字レベルのアノテーションも必要としない簡潔なフレームワークをもたらす。
論文 参考訳(メタデータ) (2022-03-19T01:14:42Z) - Towards Weakly-Supervised Text Spotting using a Multi-Task Transformer [21.479222207347238]
テキストスポッティングのための変換器ベースのアプローチであるTextTranSpotter(TTS)を紹介する。
TTSは、完全に管理された設定と弱い設定の両方で訓練される。
TextTranSpotterは、完全に教師された方法でトレーニングされ、複数のベンチマークで最先端の結果を表示する。
論文 参考訳(メタデータ) (2022-02-11T08:50:09Z) - Implicit Feature Alignment: Learn to Convert Text Recognizer to Text
Spotter [38.4211220941874]
我々はIFA(Implicit Feature Alignment)と呼ばれるシンプルでエレガントで効果的なパラダイムを提案する。
IFAは、現在のテキスト認識器に容易に統合でき、その結果、IFA推論と呼ばれる新しい推論機構が生まれる。
IFAは、エンドツーエンドの文書認識タスクにおいて最先端のパフォーマンスを達成することを実験的に実証した。
論文 参考訳(メタデータ) (2021-06-10T17:06:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。