論文の概要: DeepSolo++: Let Transformer Decoder with Explicit Points Solo for Text
Spotting
- arxiv url: http://arxiv.org/abs/2305.19957v1
- Date: Wed, 31 May 2023 15:44:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-01 15:31:03.012025
- Title: DeepSolo++: Let Transformer Decoder with Explicit Points Solo for Text
Spotting
- Title(参考訳): DeepSolo++: テキストスポッティングのための明示的なポイントを持つトランスフォーマーデコーダ
- Authors: Maoyuan Ye, Jing Zhang, Shanshan Zhao, Juhua Liu, Tongliang Liu, Bo
Du, Dacheng Tao
- Abstract要約: DeepSoloは単純なDETRライクなベースラインで、テキストの検出と認識を同時に効率的にするための明示的なポイントを持つ1つのデコーダを提供する。
DeepSoloは英語のシーンだけでなく、複雑なフォント構造と1000レベルの文字クラスで中国語の書き起こしを習得している。
私たちは、多言語テキストスポッティングのためのDeepSolo++をローンチし、多言語テキスト検出、認識、スクリプト識別を同時に行うために、明示的なポイントを持つTransformerデコーダを単独で使用できるようにしました。
- 参考スコア(独自算出の注目度): 129.73247700864385
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: End-to-end text spotting aims to integrate scene text detection and
recognition into a unified framework. Dealing with the relationship between the
two sub-tasks plays a pivotal role in designing effective spotters. Although
Transformer-based methods eliminate the heuristic post-processing, they still
suffer from the synergy issue between the sub-tasks and low training
efficiency. In this paper, we present DeepSolo, a simple DETR-like baseline
that lets a single decoder with explicit points solo for text detection and
recognition simultaneously and efficiently. Technically, for each text
instance, we represent the character sequence as ordered points and model them
with learnable explicit point queries. After passing a single decoder, the
point queries have encoded requisite text semantics and locations. Furthermore,
we show the surprisingly good extensibility of our method, in terms of
character class, language type, and task. On the one hand, DeepSolo not only
performs well in English scenes but also masters the Chinese transcription with
complex font structure and a thousand-level character classes. On the other
hand, based on the extensibility of DeepSolo, we launch DeepSolo++ for
multilingual text spotting, making a further step to let Transformer decoder
with explicit points solo for multilingual text detection, recognition, and
script identification all at once. Extensive experiments on public benchmarks
demonstrate that our simple approach achieves better training efficiency
compared with Transformer-based models and outperforms the previous
state-of-the-art. In addition, DeepSolo and DeepSolo++ are also compatible with
line annotations, which require much less annotation cost than polygons. The
code is available at \url{https://github.com/ViTAE-Transformer/DeepSolo}.
- Abstract(参考訳): エンドツーエンドテキストスポッティングは、シーンテキストの検出と認識を統一されたフレームワークに統合することを目的としている。
2つのサブタスク間の関係を扱うことは、効果的なスポッターを設計する上で重要な役割を果たす。
トランスフォーマーベースの手法ではヒューリスティックなポストプロセッシングは排除されるが、サブタスクと低トレーニング効率の相乗効果の問題に苦しむ。
本稿では,DeepSoloについて述べる。DeepSoloは単純なDETRライクなベースラインで,テキストの検出と認識を同時に,かつ効率的に行うことができる。
技術的には、各テキストインスタンスでは、文字列を順序付けポイントとして表現し、学習可能な明示的なポイントクエリでモデル化します。
1つのデコーダを渡すと、ポイントクエリは必要なテキストセマンティクスと場所をエンコードする。
さらに, 文字クラス, 言語タイプ, タスクの観点から, 驚くほど優れた拡張性を示す。
一方、deepsoloは英語のシーンでうまく機能するだけでなく、複雑なフォント構造と1000レベルの文字クラスで中国語の書き起こしを習得する。
一方、DeepSoloの拡張性に基づいて、多言語テキストスポッティング用のDeepSolo++をローンチし、多言語テキスト検出、認識、スクリプト識別を同時に行うための明示的なポイントを持つTransformerデコーダをさらに一歩進める。
公開ベンチマークによる広範囲な実験により,本手法はトランスフォーマーモデルと比較してトレーニング効率が向上し,先行手法よりも優れていた。
さらに、DeepSoloとDeepSolo++は行アノテーションとも互換性があり、ポリゴンよりもアノテーションコストがはるかに低い。
コードは \url{https://github.com/ViTAE-Transformer/DeepSolo} で公開されている。
関連論文リスト
- TextBlockV2: Towards Precise-Detection-Free Scene Text Spotting with Pre-trained Language Model [17.77384627944455]
既存のシーンテキストスポッターは、画像からテキストを見つけて書き起こすように設計されている。
提案するシーンテキストスポッターは、高度なPLMを活用して、きめ細かい検出を行うことなく性能を向上させる。
PLMベースの認識モジュールは、事前学習期間中に得られた包括的な言語知識から恩恵を受け、複雑なシナリオを効果的に処理する。
論文 参考訳(メタデータ) (2024-03-15T06:38:25Z) - Efficiently Leveraging Linguistic Priors for Scene Text Spotting [63.22351047545888]
本稿では,大規模テキストコーパスから言語知識を活用する手法を提案する。
シーンテキストデータセットとよく一致したテキスト分布を生成し、ドメイン内の微調整の必要性を取り除く。
実験結果から,本手法は認識精度を向上するだけでなく,単語のより正確な局所化を可能にすることが示された。
論文 参考訳(メタデータ) (2024-02-27T01:57:09Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - SPTS v2: Single-Point Scene Text Spotting [146.98118405786445]
新たなフレームワークであるSPTS v2では,単一ポイントアノテーションを用いて高いパフォーマンスのテキストスポッティングモデルをトレーニングすることができる。
SPTS v2は、より少ないパラメータで従来の最先端のシングルポイントテキストスポッターより優れていることを示す。
実験により、シーンテキストスポッティングにおける単一点表現の潜在的好みが示唆される。
論文 参考訳(メタデータ) (2023-01-04T14:20:14Z) - DeepSolo: Let Transformer Decoder with Explicit Points Solo for Text
Spotting [129.73247700864385]
DeepSoloは単純な検出トランスフォーマーのベースラインで、テキスト検出と認識を同時に行うためのExplicit Points Soloを備えた1つのデコーダを提供する。
我々は、より正確な監視信号を提供するためにテキストマッチング基準を導入し、より効率的な訓練を可能にした。
論文 参考訳(メタデータ) (2022-11-19T19:06:22Z) - SPTS: Single-Point Text Spotting [128.52900104146028]
トレーニングシーンのテキストスポッティングモデルは,インスタンスごとの単一点の極めて低コストなアノテーションによって実現可能であることを示す。
本稿では,シーンテキストスポッティングをシーケンス予測タスクとするエンドツーエンドのシーンテキストスポッティング手法を提案する。
論文 参考訳(メタデータ) (2021-12-15T06:44:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。