論文の概要: Bridging Synthetic and Real Worlds for Pre-training Scene Text Detectors
- arxiv url: http://arxiv.org/abs/2312.05286v1
- Date: Fri, 8 Dec 2023 15:10:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 21:46:53.979067
- Title: Bridging Synthetic and Real Worlds for Pre-training Scene Text Detectors
- Title(参考訳): プレトレーニングシーンテキスト検出器のブリッジ合成と実世界
- Authors: Tongkun Guan, Wei Shen, Xue Yang, Xuehui Wang, Xiaokang Yang
- Abstract要約: FreeRealは、SDと実際のデータの相補的な強みを可能にする、実際のドメイン整合型事前トレーニングパラダイムである。
GlyphMixは、合成画像を落書きのようなユニットとして実際の画像に埋め込む。
FreeRealは、DBNet、PANet、PSENet、FCENetメソッドを4つの公開データセットで大幅に上回っている。
- 参考スコア(独自算出の注目度): 58.797502607089676
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Existing scene text detection methods typically rely on extensive real data
for training. Due to the lack of annotated real images, recent works have
attempted to exploit large-scale labeled synthetic data (LSD) for pre-training
text detectors. However, a synth-to-real domain gap emerges, further limiting
the performance of text detectors. Differently, in this work, we propose
\textbf{FreeReal}, a real-domain-aligned pre-training paradigm that enables the
complementary strengths of both LSD and unlabeled real data (URD).
Specifically, to bridge real and synthetic worlds for pre-training, a novel
glyph-based mixing mechanism (GlyphMix) is tailored for text images. GlyphMix
delineates the character structures of synthetic images and embeds them as
graffiti-like units onto real images. Without introducing real domain drift,
GlyphMix freely yields real-world images with annotations derived from
synthetic labels. Furthermore, when given free fine-grained synthetic labels,
GlyphMix can effectively bridge the linguistic domain gap stemming from
English-dominated LSD to URD in various languages. Without bells and whistles,
FreeReal achieves average gains of 4.56\%, 3.85\%, 3.90\%, and 1.97\% in
improving the performance of DBNet, PANet, PSENet, and FCENet methods,
respectively, consistently outperforming previous pre-training methods by a
substantial margin across four public datasets. Code will be released soon.
- Abstract(参考訳): 既存のシーンテキスト検出手法は通常、トレーニングのために広範囲な実データに依存する。
注釈付き実画像の欠如により、最近の研究はテキスト検出器の事前学習に大規模なラベル付き合成データ(LSD)を活用しようと試みている。
しかし、シンス・トゥ・リアル領域のギャップが出現し、テキスト検出器の性能がさらに制限される。
そこで,本研究では,lsdとunlabeled real data (urd)の両強みを補完する実領域協調事前学習パラダイムである \textbf{freereal} を提案する。
具体的には、プリトレーニングのための実世界と合成世界を橋渡しするために、新しいグリフベースの混合機構(グリフミクス)をテキストイメージ用に調整する。
GlyphMixは合成画像の文字構造を記述し、落書きのようなユニットを実際の画像に埋め込む。
実際のドメインドリフトを導入することなく、glyphmixは合成ラベルからのアノテーションで現実世界のイメージを自由に生成する。
さらに、GlyphMixは、自由なきめ細かい合成ラベルを与えられると、様々な言語で英語が支配するLSDからUDDへの言語領域ギャップを効果的に橋渡しすることができる。
ベルとホイッスルがなければ、freerealは、dbnet、panet、psenet、fcenetメソッドのパフォーマンスを改善するために、平均4.56\%、3.85\%、3.90\%、および1.7\%のゲインを達成し、それぞれ4つのパブリックデータセットにおいて、前回のプリトレーニングメソッドをかなりのマージンで上回っている。
コードはまもなくリリースされる。
関連論文リスト
- Decoder Pre-Training with only Text for Scene Text Recognition [54.93037783663204]
シーンテキスト認識(STR)事前学習法は,主に合成データセットに依存し,顕著な進歩を遂げている。
STR(DPTR)用テキストのみを用いたDecoder Pre-trainingという新しい手法を提案する。
DPTRはCLIPテキストエンコーダが生成したテキスト埋め込みを擬似視覚埋め込みとして扱い、デコーダの事前訓練に使用する。
論文 参考訳(メタデータ) (2024-08-11T06:36:42Z) - Enhancing Scene Text Detectors with Realistic Text Image Synthesis Using
Diffusion Models [63.99110667987318]
DiffTextは、前景のテキストと背景の本質的な特徴をシームレスにブレンドするパイプラインです。
テキストインスタンスが少なくなると、生成したテキストイメージはテキスト検出を支援する他の合成データを一貫して上回ります。
論文 参考訳(メタデータ) (2023-11-28T06:51:28Z) - ALIP: Adaptive Language-Image Pre-training with Synthetic Caption [78.93535202851278]
コントラスト言語-画像事前学習(CLIP)は、様々な視覚言語タスクのパフォーマンスを大幅に向上させた。
Webデータに固有のノイズと未整合画像テキストペアが存在することは、表現学習のパフォーマンスに影響を与える可能性がある。
本稿では、原文と合成キャプションの両方からの監督を統合するバイパスモデルであるAdaptive Language-Image Pre-Training(ALIP)を提案する。
論文 参考訳(メタデータ) (2023-08-16T15:19:52Z) - Exploring Stroke-Level Modifications for Scene Text Editing [86.33216648792964]
シーンテキスト編集(STE)は、元のテキストの背景とスタイルを保存しながら、テキストを所望のテキストに置き換えることを目的としている。
画像全体を編集するには、背景領域とテキスト領域の異なる翻訳規則を同時に学習する必要がある。
Scene Text Image at strokE Level (MOSTEL) を用いた新しいネットワークを提案する。
論文 参考訳(メタデータ) (2022-12-05T02:10:59Z) - Self-Supervised Text Erasing with Controllable Image Synthesis [33.60862002159276]
我々は、新しい自己教師型テキスト消去フレームワークを提案することによって、教師なしシナリオを研究する。
まず,様々なスタイルのテキストを用いた合成画像を生成するために,スタイル認識型画像合成関数を設計する。
合成データと実世界のデータ間のテキストスタイルのギャップを埋めるために、合成機構を制御するためのポリシーネットワークを構築する。
提案手法はPosterEraseと広く使われているSCUT-Entextデータセットで広く評価されている。
論文 参考訳(メタデータ) (2022-04-27T07:21:55Z) - Realistic Blur Synthesis for Learning Image Deblurring [20.560205377203957]
より現実的なブラーを合成できる新しいブラー合成パイプラインを提案する。
また、実際のぼやけた画像とそれに対応するシャープな画像のシーケンスを含む新しいデータセットであるRSBlurを提案する。
論文 参考訳(メタデータ) (2022-02-17T17:14:48Z) - Synthetic-to-Real Unsupervised Domain Adaptation for Scene Text
Detection in the Wild [11.045516338817132]
シーンテキスト検出のための合成領域適応手法を提案する。
ドメイン適応シーンテキスト検出のためのテキスト自己学習(TST)法と逆テキストインスタンスアライメント(ATA)を導入する。
その結果,提案手法の有効性を最大10%改善した。
論文 参考訳(メタデータ) (2020-09-03T16:16:34Z) - Syn2Real Transfer Learning for Image Deraining using Gaussian Processes [92.15895515035795]
CNNに基づく画像デライニング手法は,再現誤差や視覚的品質の点で優れた性能を発揮している。
実世界の完全ラベル付き画像デライニングデータセットを取得する上での課題により、既存の手法は合成されたデータのみに基づいて訓練される。
本稿では,ガウス過程に基づく半教師付き学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-10T00:33:18Z) - UnrealText: Synthesizing Realistic Scene Text Images from the Unreal
World [18.608641449975124]
UnrealTextは、3Dグラフィックスエンジンを介してリアルな画像をレンダリングする効率的な画像合成手法である。
総合的な実験により,シーンテキストの検出と認識の両面での有効性が検証された。
我々は、将来の多言語シーンテキストの検出・認識研究のための多言語バージョンを作成する。
論文 参考訳(メタデータ) (2020-03-24T01:37:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。