論文の概要: Weakly Supervised Scene Text Generation for Low-resource Languages
- arxiv url: http://arxiv.org/abs/2306.14269v2
- Date: Tue, 27 Jun 2023 15:34:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-28 10:07:23.484532
- Title: Weakly Supervised Scene Text Generation for Low-resource Languages
- Title(参考訳): 低リソース言語のための弱教師付きシーンテキスト生成
- Authors: Yangchen Xie, Xinyuan Chen, Hongjian Zhan, Palaiahankote Shivakum,
Bing Yin, Cong Liu, Yue Lu
- Abstract要約: シーンテキスト認識モデルのトレーニングには,多数の注釈付きトレーニング画像が不可欠である。
既存のシーンテキスト生成手法は、典型的には大量のペアデータに依存しており、低リソース言語では入手が困難である。
本稿では,いくつかの認識レベルラベルを弱監督として活用する,弱教師付きシーンテキスト生成手法を提案する。
- 参考スコア(独自算出の注目度): 19.243705770491577
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: A large number of annotated training images is crucial for training
successful scene text recognition models. However, collecting sufficient
datasets can be a labor-intensive and costly process, particularly for
low-resource languages. To address this challenge, auto-generating text data
has shown promise in alleviating the problem. Unfortunately, existing scene
text generation methods typically rely on a large amount of paired data, which
is difficult to obtain for low-resource languages. In this paper, we propose a
novel weakly supervised scene text generation method that leverages a few
recognition-level labels as weak supervision. The proposed method is able to
generate a large amount of scene text images with diverse backgrounds and font
styles through cross-language generation. Our method disentangles the content
and style features of scene text images, with the former representing textual
information and the latter representing characteristics such as font,
alignment, and background. To preserve the complete content structure of
generated images, we introduce an integrated attention module. Furthermore, to
bridge the style gap in the style of different languages, we incorporate a
pre-trained font classifier. We evaluate our method using state-of-the-art
scene text recognition models. Experiments demonstrate that our generated scene
text significantly improves the scene text recognition accuracy and help
achieve higher accuracy when complemented with other generative methods.
- Abstract(参考訳): シーンテキスト認識モデルのトレーニングには,多数の注釈付きトレーニング画像が不可欠である。
しかし、十分なデータセットの収集は、特に低リソース言語において、労働集約的でコストのかかるプロセスになり得る。
この課題に対処するため、テキストデータの自動生成は問題を緩和する可能性を示している。
残念ながら、既存のシーンテキスト生成手法は、典型的には大量のペアデータに依存しており、低リソース言語では入手が困難である。
本稿では,いくつかの認識レベルラベルを弱い監督として利用する,新しい弱教師付きシーンテキスト生成手法を提案する。
提案手法では,多彩な背景やフォントスタイルを持つシーンテキストを言語横断生成により大量生成することができる。
本手法では,テキスト情報を表す前者,フォント,アライメント,背景などの特徴を表す後者と,シーンテキスト画像の内容とスタイルの特徴を区別する。
生成された画像の完全なコンテンツ構造を維持するため,注意モジュールを統合的に導入する。
さらに、異なる言語スタイルのスタイルギャップをブリッジするために、事前学習されたフォント分類器を組み込む。
本手法は最先端のテキスト認識モデルを用いて評価する。
実験により,生成したシーンテキストがシーン認識精度を大幅に向上し,他の生成手法を補完する場合の精度向上に寄与することを示した。
関連論文リスト
- TextMastero: Mastering High-Quality Scene Text Editing in Diverse Languages and Styles [12.182588762414058]
シーンテキスト編集は、オリジナルのように新たに生成されたテキストのスタイルを維持しながら、画像上のテキストを変更することを目的としている。
最近の研究は拡散モデルを活用し、改善された結果を示しているが、依然として課題に直面している。
emphTextMastero - 潜時拡散モデル(LDM)に基づく多言語シーンテキスト編集アーキテクチャを慎重に設計した。
論文 参考訳(メタデータ) (2024-08-20T08:06:09Z) - Layout Agnostic Scene Text Image Synthesis with Diffusion Models [42.37340959594495]
SceneTextGenは、事前に定義されたレイアウトステージの必要性を回避するために特別に設計された、拡散ベースの新しいモデルである。
SceneTextGenの新規性は、3つの重要なコンポーネントを統合している: 詳細なタイポグラフィ特性をキャプチャする文字レベルエンコーダと、不要なテキスト生成とマイナーな文字不正確な問題に対処する文字レベルインスタンスセグメンテーションモデルと、ワードレベルスポッティングモデルである。
論文 参考訳(メタデータ) (2024-06-03T07:20:34Z) - Efficiently Leveraging Linguistic Priors for Scene Text Spotting [63.22351047545888]
本稿では,大規模テキストコーパスから言語知識を活用する手法を提案する。
シーンテキストデータセットとよく一致したテキスト分布を生成し、ドメイン内の微調整の必要性を取り除く。
実験結果から,本手法は認識精度を向上するだけでなく,単語のより正確な局所化を可能にすることが示された。
論文 参考訳(メタデータ) (2024-02-27T01:57:09Z) - Brush Your Text: Synthesize Any Scene Text on Images via Diffusion Model [31.819060415422353]
Diff-Textは、任意の言語のためのトレーニング不要のシーンテキスト生成フレームワークである。
本手法は, テキスト認識の精度と, 前景と後景のブレンディングの自然性の両方において, 既存の手法よりも優れる。
論文 参考訳(メタデータ) (2023-12-19T15:18:40Z) - Enhancing Scene Text Detectors with Realistic Text Image Synthesis Using
Diffusion Models [63.99110667987318]
DiffTextは、前景のテキストと背景の本質的な特徴をシームレスにブレンドするパイプラインです。
テキストインスタンスが少なくなると、生成したテキストイメージはテキスト検出を支援する他の合成データを一貫して上回ります。
論文 参考訳(メタデータ) (2023-11-28T06:51:28Z) - SpaText: Spatio-Textual Representation for Controllable Image Generation [61.89548017729586]
SpaTextはオープン語彙シーン制御を用いたテキスト・ツー・イメージ生成の新しい手法である。
シーン全体を記述したグローバルテキストプロンプトに加えて、ユーザはセグメンテーションマップを提供する。
現状拡散モデルである画素ベースと潜在条件ベースでの有効性を示す。
論文 参考訳(メタデータ) (2022-11-25T18:59:10Z) - Make-A-Scene: Scene-Based Text-to-Image Generation with Human Priors [58.71128866226768]
近年のテキスト・ツー・イメージ生成手法は、生成した画像の忠実度とテキスト関連性を漸進的に改善している。
i)シーンの形式でテキストを補完する単純な制御機構を実現することで,これらのギャップに対処する新しいテキスト・ツー・イメージ手法を提案する。
このモデルにより,512×512ピクセルの解像度で高忠実度画像を生成することができる。
論文 参考訳(メタデータ) (2022-03-24T15:44:50Z) - Language Matters: A Weakly Supervised Pre-training Approach for Scene
Text Detection and Spotting [69.77701325270047]
本稿では,シーンテキストを効果的に表現できる弱教師付き事前学習手法を提案する。
本ネットワークは,画像エンコーダと文字認識型テキストエンコーダから構成され,視覚的特徴とテキスト的特徴を抽出する。
実験により、事前訓練されたモデルは、重みを他のテキスト検出やスポッティングネットワークに転送しながら、Fスコアを+2.5%、+4.8%改善することが示された。
論文 参考訳(メタデータ) (2022-03-08T08:10:45Z) - Exploring Font-independent Features for Scene Text Recognition [22.34023249700896]
近年,Scene Text Recognition (STR) が広く研究されている。
最近提案された多くの手法は、シーンテキストの任意の形状、レイアウト、配向に対応するよう特別に設計されている。
フォントの特徴と文字のコンテンツ特徴が絡み合っているこれらの手法は、新しいフォントスタイルのテキストを含むシーンイメージのテキスト認識において、不十分な性能を発揮する。
論文 参考訳(メタデータ) (2020-09-16T03:36:59Z) - Improving Disentangled Text Representation Learning with
Information-Theoretic Guidance [99.68851329919858]
自然言語の独特な性質は、テキスト表現の分離をより困難にする。
情報理論にインスパイアされた本研究では,テキストの不整合表現を効果的に表現する手法を提案する。
条件付きテキスト生成とテキストスタイル転送の両方の実験は、不整合表現の質を実証する。
論文 参考訳(メタデータ) (2020-06-01T03:36:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。