論文の概要: A Scene-Text Synthesis Engine Achieved Through Learning from Decomposed
Real-World Data
- arxiv url: http://arxiv.org/abs/2209.02397v1
- Date: Tue, 6 Sep 2022 11:15:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-07 14:13:04.388952
- Title: A Scene-Text Synthesis Engine Achieved Through Learning from Decomposed
Real-World Data
- Title(参考訳): 分解実世界データから学習したシーンテキスト合成エンジン
- Authors: Zhengmi Tang, Tomo Miyazaki, and Shinichiro Omachi
- Abstract要約: 本稿では,テキスト位置提案ネットワーク(TLPNet)とテキスト外観適応ネットワーク(TAANet)を含む画像合成エンジンを提案する。
本研究では,シーンテキスト検出のための事前学習データを生成する手法の有効性を検証した。
- 参考スコア(独自算出の注目度): 7.16879432974126
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Scene-text image synthesis techniques aimed at naturally composing text
instances on background scene images are very appealing for training deep
neural networks because they can provide accurate and comprehensive annotation
information. Prior studies have explored generating synthetic text images on
two-dimensional and three-dimensional surfaces based on rules derived from
real-world observations. Some of these studies have proposed generating
scene-text images from learning; however, owing to the absence of a suitable
training dataset, unsupervised frameworks have been explored to learn from
existing real-world data, which may not result in a robust performance. To ease
this dilemma and facilitate research on learning-based scene text synthesis, we
propose DecompST, a real-world dataset prepared using public benchmarks, with
three types of annotations: quadrilateral-level BBoxes, stroke-level text
masks, and text-erased images. Using the DecompST dataset, we propose an image
synthesis engine that includes a text location proposal network (TLPNet) and a
text appearance adaptation network (TAANet). TLPNet first predicts the suitable
regions for text embedding. TAANet then adaptively changes the geometry and
color of the text instance according to the context of the background. Our
comprehensive experiments verified the effectiveness of the proposed method for
generating pretraining data for scene text detectors.
- Abstract(参考訳): 背景画像上のテキストインスタンスを自然に作成することを目的としたシーンテキスト画像合成技術は、正確な包括的なアノテーション情報を提供することができるため、ディープニューラルネットワークのトレーニングに非常に適している。
これまでの研究では,実世界の観測から得られたルールに基づいて,二次元および三次元表面の合成テキスト画像の生成を検討した。
これらの研究のいくつかは学習からシーンテキスト画像を生成することを提案したが、適切なトレーニングデータセットがないため、教師なしのフレームワークが既存の現実世界のデータから学習するために研究され、堅牢なパフォーマンスは得られないかもしれない。
このジレンマを緩和し、学習に基づくシーンテキスト合成の研究を容易にするために、四角形のbbox、ストロークレベルのテキストマスク、テキスト消去画像の3種類のアノテーションを備えた、公開ベンチマークを用いて準備された実世界のデータセットであるdecompstを提案する。
本稿では、decompstデータセットを用いて、テキスト位置提案ネットワーク(tlpnet)とテキスト出現適応ネットワーク(taanet)を含む画像合成エンジンを提案する。
TLPNetはまずテキスト埋め込みに適した領域を予測する。
次にtaanetは、背景のコンテキストに応じてテキストインスタンスの幾何と色を適応的に変更する。
本研究では,シーンテキスト検出のための事前学習データを生成する手法の有効性を総合的に検証した。
関連論文リスト
- Decoder Pre-Training with only Text for Scene Text Recognition [54.93037783663204]
シーンテキスト認識(STR)事前学習法は,主に合成データセットに依存し,顕著な進歩を遂げている。
STR(DPTR)用テキストのみを用いたDecoder Pre-trainingという新しい手法を提案する。
DPTRはCLIPテキストエンコーダが生成したテキスト埋め込みを擬似視覚埋め込みとして扱い、デコーダの事前訓練に使用する。
論文 参考訳(メタデータ) (2024-08-11T06:36:42Z) - Enhancing Scene Text Detectors with Realistic Text Image Synthesis Using
Diffusion Models [63.99110667987318]
DiffTextは、前景のテキストと背景の本質的な特徴をシームレスにブレンドするパイプラインです。
テキストインスタンスが少なくなると、生成したテキストイメージはテキスト検出を支援する他の合成データを一貫して上回ります。
論文 参考訳(メタデータ) (2023-11-28T06:51:28Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Text-based Person Search without Parallel Image-Text Data [52.63433741872629]
テキストベースの人物探索(TBPS)は,対象者の画像を与えられた自然言語記述に基づいて大きな画像ギャラリーから検索することを目的としている。
既存の手法は、並列画像テキストペアによるトレーニングモデルによって支配されており、収集には非常にコストがかかる。
本稿では,並列画像テキストデータなしでTBPSを探索する試みについて述べる。
論文 参考訳(メタデータ) (2023-05-22T12:13:08Z) - Vision-Language Pre-Training for Boosting Scene Text Detectors [57.08046351495244]
シーンテキスト検出に視覚言語を用いた共同学習を特に応用する。
本稿では,視覚言語による事前学習を通して,文脈化された共同表現を学習することを提案する。
事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができる。
論文 参考訳(メタデータ) (2022-04-29T03:53:54Z) - Language Matters: A Weakly Supervised Pre-training Approach for Scene
Text Detection and Spotting [69.77701325270047]
本稿では,シーンテキストを効果的に表現できる弱教師付き事前学習手法を提案する。
本ネットワークは,画像エンコーダと文字認識型テキストエンコーダから構成され,視覚的特徴とテキスト的特徴を抽出する。
実験により、事前訓練されたモデルは、重みを他のテキスト検出やスポッティングネットワークに転送しながら、Fスコアを+2.5%、+4.8%改善することが示された。
論文 参考訳(メタデータ) (2022-03-08T08:10:45Z) - Stroke-Based Scene Text Erasing Using Synthetic Data [0.0]
シーンテキスト消去は、自然画像の適切なコンテンツでテキスト領域を置き換えることができる。
大規模な実世界のシーンテキスト削除データセットがないため、既存のメソッドが十分に機能しない。
我々は、合成テキストの完全活用を強化し、改良された合成テキストエンジンによって生成されたデータセットにのみモデルをトレーニングする。
このモデルは、境界ボックスが設けられたシーン画像中のテキストインスタンスを部分的に消去したり、既存のシーンテキスト検出器で自動シーンテキスト消去を行うことができる。
論文 参考訳(メタデータ) (2021-04-23T09:29:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。