論文の概要: DeepSolo++: Let Transformer Decoder with Explicit Points Solo for Multilingual Text Spotting
- arxiv url: http://arxiv.org/abs/2305.19957v2
- Date: Mon, 18 Mar 2024 13:30:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-21 01:20:39.238015
- Title: DeepSolo++: Let Transformer Decoder with Explicit Points Solo for Multilingual Text Spotting
- Title(参考訳): DeepSolo++:多言語テキストスポッティングのための明示的なポイントを持つトランスフォーマーデコーダ
- Authors: Maoyuan Ye, Jing Zhang, Shanshan Zhao, Juhua Liu, Tongliang Liu, Bo Du, Dacheng Tao,
- Abstract要約: DeepSolo++は単純なDETRライクなベースラインで、テキスト検出、認識、スクリプト識別を同時に行うために、明示的なポイントを持つ1つのデコーダを単独で使用することができる。
本手法は、英語のシーンだけでなく、複雑なフォント構造と中国語などの1000レベルの文字クラスで書き起こしを習得する。
- 参考スコア(独自算出の注目度): 112.45423990924283
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: End-to-end text spotting aims to integrate scene text detection and recognition into a unified framework. Dealing with the relationship between the two sub-tasks plays a pivotal role in designing effective spotters. Although Transformer-based methods eliminate the heuristic post-processing, they still suffer from the synergy issue between the sub-tasks and low training efficiency. Besides, they overlook the exploring on multilingual text spotting which requires an extra script identification task. In this paper, we present DeepSolo++, a simple DETR-like baseline that lets a single decoder with explicit points solo for text detection, recognition, and script identification simultaneously. Technically, for each text instance, we represent the character sequence as ordered points and model them with learnable explicit point queries. After passing a single decoder, the point queries have encoded requisite text semantics and locations, thus can be further decoded to the center line, boundary, script, and confidence of text via very simple prediction heads in parallel. Furthermore, we show the surprisingly good extensibility of our method, in terms of character class, language type, and task. On the one hand, our method not only performs well in English scenes but also masters the transcription with complex font structure and a thousand-level character classes, such as Chinese. On the other hand, our DeepSolo++ achieves better performance on the additionally introduced script identification task with a simpler training pipeline compared with previous methods. In addition, our models are also compatible with line annotations, which require much less annotation cost than polygons. The code is available at \url{https://github.com/ViTAE-Transformer/DeepSolo}.
- Abstract(参考訳): エンドツーエンドのテキストスポッティングは、シーンテキストの検出と認識を統一されたフレームワークに統合することを目的としている。
2つのサブタスクの関係に対処することは、効果的なスポッターの設計において重要な役割を果たす。
Transformerベースの手法はヒューリスティックな後処理を排除しているが、サブタスク間の相乗効果とトレーニング効率の低下に悩まされている。
さらに、追加のスクリプト識別タスクを必要とする多言語テキストスポッティングの探索も見落としている。
本稿では,DeepSolo++について述べる。DeepSolo++は単純なDETRライクなベースラインで,テキスト検出,認識,スクリプト識別を単独で行う1つのデコーダを同時に行うことができる。
技術的には、各テキストインスタンスに対して、文字シーケンスを順序付けられたポイントとして表現し、学習可能な明示的なポイントクエリでそれらをモデル化します。
単一デコーダを渡すと、ポイントクエリは必要なテキストセマンティクスと場所を符号化するので、非常に単純な予測ヘッドを並列で中心線、境界線、スクリプト、およびテキストの信頼性にさらにデコードすることができる。
さらに、文字クラス、言語タイプ、タスクの観点から、驚くほど優れた拡張性を示す。
一方,本手法は,英語のシーンだけでなく,複雑なフォント構造と中国語などの1000レベルの文字クラスで書き起こしを習得する。
一方、私たちのDeepSolo++は、以前の方法と比較して、より簡単なトレーニングパイプラインで、追加で導入されたスクリプト識別タスクにおいて、より良いパフォーマンスを実現しています。
さらに、私たちのモデルは行アノテーションとも互換性があり、ポリゴンよりもアノテーションコストがはるかに低い。
コードは \url{https://github.com/ViTAE-Transformer/DeepSolo} で公開されている。
関連論文リスト
- TextBlockV2: Towards Precise-Detection-Free Scene Text Spotting with Pre-trained Language Model [17.77384627944455]
既存のシーンテキストスポッターは、画像からテキストを見つけて書き起こすように設計されている。
提案するシーンテキストスポッターは、高度なPLMを活用して、きめ細かい検出を行うことなく性能を向上させる。
PLMベースの認識モジュールは、事前学習期間中に得られた包括的な言語知識から恩恵を受け、複雑なシナリオを効果的に処理する。
論文 参考訳(メタデータ) (2024-03-15T06:38:25Z) - Efficiently Leveraging Linguistic Priors for Scene Text Spotting [63.22351047545888]
本稿では,大規模テキストコーパスから言語知識を活用する手法を提案する。
シーンテキストデータセットとよく一致したテキスト分布を生成し、ドメイン内の微調整の必要性を取り除く。
実験結果から,本手法は認識精度を向上するだけでなく,単語のより正確な局所化を可能にすることが示された。
論文 参考訳(メタデータ) (2024-02-27T01:57:09Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - SPTS v2: Single-Point Scene Text Spotting [146.98118405786445]
新たなフレームワークであるSPTS v2では,単一ポイントアノテーションを用いて高いパフォーマンスのテキストスポッティングモデルをトレーニングすることができる。
SPTS v2は、より少ないパラメータで従来の最先端のシングルポイントテキストスポッターより優れていることを示す。
実験により、シーンテキストスポッティングにおける単一点表現の潜在的好みが示唆される。
論文 参考訳(メタデータ) (2023-01-04T14:20:14Z) - DeepSolo: Let Transformer Decoder with Explicit Points Solo for Text
Spotting [129.73247700864385]
DeepSoloは単純な検出トランスフォーマーのベースラインで、テキスト検出と認識を同時に行うためのExplicit Points Soloを備えた1つのデコーダを提供する。
我々は、より正確な監視信号を提供するためにテキストマッチング基準を導入し、より効率的な訓練を可能にした。
論文 参考訳(メタデータ) (2022-11-19T19:06:22Z) - SPTS: Single-Point Text Spotting [128.52900104146028]
トレーニングシーンのテキストスポッティングモデルは,インスタンスごとの単一点の極めて低コストなアノテーションによって実現可能であることを示す。
本稿では,シーンテキストスポッティングをシーケンス予測タスクとするエンドツーエンドのシーンテキストスポッティング手法を提案する。
論文 参考訳(メタデータ) (2021-12-15T06:44:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。