論文の概要: A Scene-Text Synthesis Engine Achieved Through Learning from Decomposed
Real-World Data
- arxiv url: http://arxiv.org/abs/2209.02397v2
- Date: Tue, 17 Oct 2023 11:09:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-19 00:45:05.132360
- Title: A Scene-Text Synthesis Engine Achieved Through Learning from Decomposed
Real-World Data
- Title(参考訳): 分解実世界データから学習したシーンテキスト合成エンジン
- Authors: Zhengmi Tang, Tomo Miyazaki, and Shinichiro Omachi
- Abstract要約: シーンテキスト画像合成技術は,背景画像上のテキストインスタンスを自然に構成することを目的としている。
本稿では,テキスト位置提案ネットワーク(TLPNet)とテキスト出現適応ネットワーク(TAANet)を含む学習ベーステキスト合成エンジン(LBTS)を提案する。
トレーニング後、これらのネットワークを統合して、シーンテキスト分析タスクのための合成データセットを生成することができる。
- 参考スコア(独自算出の注目度): 4.096453902709292
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Scene-text image synthesis techniques that aim to naturally compose text
instances on background scene images are very appealing for training deep
neural networks due to their ability to provide accurate and comprehensive
annotation information. Prior studies have explored generating synthetic text
images on two-dimensional and three-dimensional surfaces using rules derived
from real-world observations. Some of these studies have proposed generating
scene-text images through learning; however, owing to the absence of a suitable
training dataset, unsupervised frameworks have been explored to learn from
existing real-world data, which might not yield reliable performance. To ease
this dilemma and facilitate research on learning-based scene text synthesis, we
introduce DecompST, a real-world dataset prepared from some public benchmarks,
containing three types of annotations: quadrilateral-level BBoxes, stroke-level
text masks, and text-erased images. Leveraging the DecompST dataset, we propose
a Learning-Based Text Synthesis engine (LBTS) that includes a text location
proposal network (TLPNet) and a text appearance adaptation network (TAANet).
TLPNet first predicts the suitable regions for text embedding, after which
TAANet adaptively adjusts the geometry and color of the text instance to match
the background context. After training, those networks can be integrated and
utilized to generate the synthetic dataset for scene text analysis tasks.
Comprehensive experiments were conducted to validate the effectiveness of the
proposed LBTS along with existing methods, and the experimental results
indicate the proposed LBTS can generate better pretraining data for scene text
detectors.
- Abstract(参考訳): 背景画像上のテキストインスタンスを自然に構成することを目的としたシーンテキスト画像合成技術は、正確な包括的なアノテーション情報を提供する能力のため、ディープニューラルネットワークのトレーニングに非常に適している。
先行研究は実世界の観測から導かれた規則を用いて二次元および三次元表面上に合成テキスト画像を生成することを検討した。
これらの研究のいくつかは、学習を通じてシーンテキスト画像を生成することを提案したが、適切なトレーニングデータセットが存在しないため、教師なしのフレームワークは既存の実世界のデータから学習するために研究され、信頼性の高い性能は得られなかった。
このジレンマを緩和し、学習に基づくシーンテキスト合成の研究を容易にするために、四角形のbbox、ストロークレベルのテキストマスク、テキスト消去画像の3種類のアノテーションを含む、いくつかの公開ベンチマークから作成される実世界のデータセットであるdecompstを紹介する。
DecompSTデータセットを活用することで、テキスト位置提案ネットワーク(TLPNet)とテキスト外観適応ネットワーク(TAANet)を含む学習ベーステキスト合成エンジン(LBTS)を提案する。
TLPNetはまずテキスト埋め込みに適した領域を予測し、その後TAANetは背景コンテキストに合わせてテキストインスタンスの形状と色を適応的に調整する。
トレーニング後、これらのネットワークを統合して、シーンテキスト分析タスク用の合成データセットを生成することができる。
提案したLBTSの有効性と既存手法の有効性を検証するための総合的な実験を行い, 実験結果から, 提案したLBTSはシーンテキスト検出のためのより優れた事前学習データを生成できることが示唆された。
関連論文リスト
- Text Grouping Adapter: Adapting Pre-trained Text Detector for Layout Analysis [52.34110239735265]
本稿では,事前学習したテキスト検出装置のレイアウト解析を学習するためのモジュールであるText Grouping Adapter (TGA)を提案する。
我々の総合的な実験は、凍結した事前学習モデルであっても、TGAを様々な事前学習されたテキスト検出器やテキストスポッターに組み込むことで、より優れたレイアウト解析性能が得られることを示した。
論文 参考訳(メタデータ) (2024-05-13T05:48:35Z) - Enhancing Scene Text Detectors with Realistic Text Image Synthesis Using
Diffusion Models [63.99110667987318]
DiffTextは、前景のテキストと背景の本質的な特徴をシームレスにブレンドするパイプラインです。
テキストインスタンスが少なくなると、生成したテキストイメージはテキスト検出を支援する他の合成データを一貫して上回ります。
論文 参考訳(メタデータ) (2023-11-28T06:51:28Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Text-based Person Search without Parallel Image-Text Data [52.63433741872629]
テキストベースの人物探索(TBPS)は,対象者の画像を与えられた自然言語記述に基づいて大きな画像ギャラリーから検索することを目的としている。
既存の手法は、並列画像テキストペアによるトレーニングモデルによって支配されており、収集には非常にコストがかかる。
本稿では,並列画像テキストデータなしでTBPSを探索する試みについて述べる。
論文 参考訳(メタデータ) (2023-05-22T12:13:08Z) - Vision-Language Pre-Training for Boosting Scene Text Detectors [57.08046351495244]
シーンテキスト検出に視覚言語を用いた共同学習を特に応用する。
本稿では,視覚言語による事前学習を通して,文脈化された共同表現を学習することを提案する。
事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができる。
論文 参考訳(メタデータ) (2022-04-29T03:53:54Z) - Language Matters: A Weakly Supervised Pre-training Approach for Scene
Text Detection and Spotting [69.77701325270047]
本稿では,シーンテキストを効果的に表現できる弱教師付き事前学習手法を提案する。
本ネットワークは,画像エンコーダと文字認識型テキストエンコーダから構成され,視覚的特徴とテキスト的特徴を抽出する。
実験により、事前訓練されたモデルは、重みを他のテキスト検出やスポッティングネットワークに転送しながら、Fスコアを+2.5%、+4.8%改善することが示された。
論文 参考訳(メタデータ) (2022-03-08T08:10:45Z) - Stroke-Based Scene Text Erasing Using Synthetic Data [0.0]
シーンテキスト消去は、自然画像の適切なコンテンツでテキスト領域を置き換えることができる。
大規模な実世界のシーンテキスト削除データセットがないため、既存のメソッドが十分に機能しない。
我々は、合成テキストの完全活用を強化し、改良された合成テキストエンジンによって生成されたデータセットにのみモデルをトレーニングする。
このモデルは、境界ボックスが設けられたシーン画像中のテキストインスタンスを部分的に消去したり、既存のシーンテキスト検出器で自動シーンテキスト消去を行うことができる。
論文 参考訳(メタデータ) (2021-04-23T09:29:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。