論文の概要: Domain Adaptive Scene Text Detection via Subcategorization
- arxiv url: http://arxiv.org/abs/2212.00377v1
- Date: Thu, 1 Dec 2022 09:15:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-02 16:12:48.960699
- Title: Domain Adaptive Scene Text Detection via Subcategorization
- Title(参考訳): サブカテゴリ化による領域適応シーンテキスト検出
- Authors: Zichen Tian, Chuhui Xue, Jingyi Zhang, Shijian Lu
- Abstract要約: ドメイン適応型シーンテキストの検出について検討する。
我々は、ネットワーク過度に適合し、ノイズの多い擬似ラベルを緩和する、サブカテゴリ対応の自己学習技術であるSCASTを設計する。
SCASTは、複数の公開ベンチマークで一貫して優れた検出性能を達成する。
- 参考スコア(独自算出の注目度): 45.580559833129165
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most existing scene text detectors require large-scale training data which
cannot scale well due to two major factors: 1) scene text images often have
domain-specific distributions; 2) collecting large-scale annotated scene text
images is laborious. We study domain adaptive scene text detection, a largely
neglected yet very meaningful task that aims for optimal transfer of labelled
scene text images while handling unlabelled images in various new domains.
Specifically, we design SCAST, a subcategory-aware self-training technique that
mitigates the network overfitting and noisy pseudo labels in domain adaptive
scene text detection effectively. SCAST consists of two novel designs. For
labelled source data, it introduces pseudo subcategories for both foreground
texts and background stuff which helps train more generalizable source models
with multi-class detection objectives. For unlabelled target data, it mitigates
the network overfitting by co-regularizing the binary and subcategory
classifiers trained in the source domain. Extensive experiments show that SCAST
achieves superior detection performance consistently across multiple public
benchmarks, and it also generalizes well to other domain adaptive detection
tasks such as vehicle detection.
- Abstract(参考訳): 既存のシーンテキスト検出装置のほとんどは、大きなトレーニングデータを必要とするが、2つの大きな要因によりスケールできない。
1)シーンテキスト画像は、しばしばドメイン固有の分布を持つ。
2)大規模な注釈付きテキスト画像の収集は手間がかかる。
様々な領域におけるラベルなし画像の処理をしながら,ラベル付きテキスト画像の最適な転送を目的とした,ほとんど無視されているが非常に有意義なタスクである。
具体的には、ドメイン適応シーンテキスト検出において、ネットワーク過度に適合しノイズの多い擬似ラベルを効果的に軽減するサブカテゴリ対応自己学習技術であるSCASTを設計する。
SCASTは2つの新しい設計で構成されている。
ラベル付きソースデータに対しては、フォアグラウンドテキストとバックグラウンドの両方の擬似サブカテゴリを導入し、マルチクラス検出目的のより一般化可能なソースモデルをトレーニングするのに役立つ。
ラベルなしのターゲットデータでは、ソースドメインでトレーニングされたバイナリとサブカテゴリの分類器を併用することで、ネットワークの過剰フィッティングを緩和する。
大規模な実験により、SCASTは複数の公開ベンチマークで一貫して優れた検出性能を達成し、また、車両検出のような他のドメイン適応検出タスクによく適応することを示した。
関連論文リスト
- Harnessing the Power of Multi-Lingual Datasets for Pre-training: Towards
Enhancing Text Spotting Performance [15.513912470752041]
様々な領域への適応能力は、実環境にデプロイする際のシーンテキストスポッティングモデルに不可欠である。
本稿では,ドメイン適応型シーンテキストスポッティングの問題,すなわちマルチドメインソースデータを用いたモデルトレーニングについて検討する。
その結果,複数の領域にまたがるテキストスポッティングベンチマークにおいて,中間表現が有意な性能を発揮する可能性が明らかとなった。
論文 参考訳(メタデータ) (2023-10-02T06:08:01Z) - Diving into the Depths of Spotting Text in Multi-Domain Noisy Scenes [11.478236584340255]
雑音の多い水中のシーンに対して,UWT (Under-Water Text) と呼ばれるテキストスポッティング検証ベンチマークを提案する。
また,DA-TextSpotterと呼ばれる,高効率な超解像ベースのエンドツーエンド変換器ベースラインを設計する。
データセット、コード、事前トレーニングされたモデルは、受け入れ次第リリースされる。
論文 参考訳(メタデータ) (2023-10-01T03:27:41Z) - Location-Aware Self-Supervised Transformers [74.76585889813207]
画像部品の相対的な位置を予測し,セマンティックセグメンテーションのためのネットワークを事前訓練する。
参照パッチのサブセットを問合せのサブセットにマスキングすることで,タスクの難しさを制御します。
実験により,この位置認識事前学習が,いくつかの難解なセマンティックセグメンテーションベンチマークに競合する表現をもたらすことが示された。
論文 参考訳(メタデータ) (2022-12-05T16:24:29Z) - Towards End-to-End Unified Scene Text Detection and Layout Analysis [60.68100769639923]
本稿では,シーンテキストの検出とレイアウト解析を統合化するタスクについて紹介する。
この新たな研究課題を実現するために、最初の階層的なシーンテキストデータセットが導入された。
また,シーンテキストを同時に検出し,テキストクラスタを統一的に形成する手法を提案する。
論文 参考訳(メタデータ) (2022-03-28T23:35:45Z) - Text Recognition in Real Scenarios with a Few Labeled Samples [55.07859517380136]
Scene Text Recognition (STR) はコンピュータビジョン分野におけるホットな研究テーマである。
本稿では,数ショットの逆数列領域適応 (FASDA) を用いて構築シーケンスを適応する手法を提案する。
我々のアプローチは、ソースドメインとターゲットドメインの間の文字レベルの混乱を最大化することができる。
論文 参考訳(メタデータ) (2020-06-22T13:03:01Z) - Phase Consistent Ecological Domain Adaptation [76.75730500201536]
意味的セグメンテーション(意味的セグメンテーション)の課題に焦点をあてる。そこでは、注釈付き合成データが多用されるが、実際のデータへのアノテートは困難である。
視覚心理学に触発された最初の基準は、2つの画像領域間の地図が位相保存であることである。
第2の基準は、照明剤や撮像センサーの特性に関わらず、その画像に現れる環境統計、またはシーン内の規則を活用することを目的としている。
論文 参考訳(メタデータ) (2020-04-10T06:58:03Z) - iFAN: Image-Instance Full Alignment Networks for Adaptive Object
Detection [48.83883375118966]
iFANは、イメージレベルとインスタンスレベルの両方で、機能の分散を正確に調整することを目的としている。
ソースのみのベースライン上で10%以上のAPで、最先端のメソッドよりも優れています。
論文 参考訳(メタデータ) (2020-03-09T13:27:06Z) - DGST : Discriminator Guided Scene Text detector [11.817428636084305]
本稿では,シーンテキスト検出のセグメンテーション効果を改善するために,条件付き生成逆数ネットワークに基づく検出フレームワークを提案する。
標準データセットの実験では、提案されたDGSTが顕著なゲインをもたらし、最先端の手法より優れていることが示されている。
論文 参考訳(メタデータ) (2020-02-28T01:47:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。