論文の概要: Conditional Text Image Generation with Diffusion Models
- arxiv url: http://arxiv.org/abs/2306.10804v1
- Date: Mon, 19 Jun 2023 09:44:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-21 18:27:38.257641
- Title: Conditional Text Image Generation with Diffusion Models
- Title(参考訳): 拡散モデルを用いた条件付きテキスト画像生成
- Authors: Yuanzhi Zhu, Zhaohai Li, Tianwei Wang, Mengchao He, Cong Yao
- Abstract要約: 条件付きモデルを用いたテキスト画像生成法(CTIG-DM)を提案する。
合成モード、拡張モード、リカバリモード、模倣モードの4つのテキスト画像生成モードは、これら3つの条件の組み合わせと設定によって導出することができる。
CTIG-DMは、実世界の複雑さと多様性をシミュレートするイメージサンプルを作成することができ、既存のテキスト認識器の性能を高めることができる。
- 参考スコア(独自算出の注目度): 18.017541111064602
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current text recognition systems, including those for handwritten scripts and
scene text, have relied heavily on image synthesis and augmentation, since it
is difficult to realize real-world complexity and diversity through collecting
and annotating enough real text images. In this paper, we explore the problem
of text image generation, by taking advantage of the powerful abilities of
Diffusion Models in generating photo-realistic and diverse image samples with
given conditions, and propose a method called Conditional Text Image Generation
with Diffusion Models (CTIG-DM for short). To conform to the characteristics of
text images, we devise three conditions: image condition, text condition, and
style condition, which can be used to control the attributes, contents, and
styles of the samples in the image generation process. Specifically, four text
image generation modes, namely: (1) synthesis mode, (2) augmentation mode, (3)
recovery mode, and (4) imitation mode, can be derived by combining and
configuring these three conditions. Extensive experiments on both handwritten
and scene text demonstrate that the proposed CTIG-DM is able to produce image
samples that simulate real-world complexity and diversity, and thus can boost
the performance of existing text recognizers. Besides, CTIG-DM shows its
appealing potential in domain adaptation and generating images containing
Out-Of-Vocabulary (OOV) words.
- Abstract(参考訳): 手書き文字やシーンテキストを含む現在のテキスト認識システムは、十分なテキスト画像の収集と注釈によって現実世界の複雑さと多様性を実現することが困難であるため、画像合成と拡張に大きく依存している。
本稿では, テキスト画像生成の課題について, フォトリアリスティックで多様な画像サンプルを所定の条件で生成する際の拡散モデルの強力な能力を活用して検討し, 拡散モデルを用いた条件付きテキスト画像生成法(CTIG-DM)を提案する。
テキスト画像の特性に適合するため,画像生成過程におけるサンプルの属性,内容,スタイルを制御できる,画像条件,テキスト条件,スタイル条件の3つの条件を考案する。
具体的には、(1)合成モード、(2)拡張モード、(3)回復モード、(4)模倣モードの4つのテキスト画像生成モードをこれら3つの条件を組み合わせて構成することで導出することができる。
手書きテキストとシーンテキストの両方の広範な実験により、提案されているctig-dmは実世界の複雑さと多様性をシミュレートする画像サンプルを作成でき、既存のテキスト認識器の性能を向上させることができる。
さらに、CTIG-DMは、OF-Vocabulary(OOV)単語を含む領域適応および画像生成において、その魅力を示す。
関連論文リスト
- Visual Text Generation in the Wild [67.37458807253064]
野生で高品質なテキスト画像を生成する視覚テキスト生成装置(SceneVTG)を提案する。
提案したSceneVTGは、従来のレンダリングに基づく手法と最近の拡散に基づく手法を、忠実さと理性の観点から大きく上回っている。
生成された画像は、テキスト検出とテキスト認識を含むタスクに優れたユーティリティを提供する。
論文 参考訳(メタデータ) (2024-07-19T09:08:20Z) - Diffusion-based Blind Text Image Super-Resolution [20.91578221617732]
リアルなスタイルでテキストイメージを復元する画像拡散モデル(IDM)を提案する。
拡散モデルでは、現実的な画像分布をモデル化するだけでなく、テキスト分布の学習にも適している。
テキスト認識のためのテキスト拡散モデル(TDM)も提案する。
論文 参考訳(メタデータ) (2023-12-13T06:03:17Z) - Scene Text Image Super-resolution based on Text-conditional Diffusion
Models [0.0]
シーンテキスト画像スーパーレゾリューション(STISR)は,シーンテキスト認識のための前処理手法として最近大きな成功を収めている。
本研究では,テキスト条件拡散モデル(DM)をSTISRタスクに適用する。
LR-HRペアテキスト画像データセットのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-16T10:32:18Z) - GlyphDiffusion: Text Generation as Image Generation [100.98428068214736]
テキスト誘導画像生成によるテキスト生成のための新しい拡散手法であるGlyphDiffusionを提案する。
私たちのキーとなるアイデアは、ターゲットのテキストを視覚言語コンテンツを含むグリフイメージとしてレンダリングすることです。
また,本モデルでは,近年の拡散モデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-04-25T02:14:44Z) - Unified Multi-Modal Latent Diffusion for Joint Subject and Text
Conditional Image Generation [63.061871048769596]
本稿では, 特定対象を含む画像と共同テキストを入力シーケンスとして用いた, Unified Multi-Modal Latent Diffusion (UMM-Diffusion) を提案する。
より具体的には、入力テキストと画像の両方を1つの統一マルチモーダル潜在空間に符号化する。
入力テキストと画像の両面から複雑な意味を持つ高品質な画像を生成することができる。
論文 参考訳(メタデータ) (2023-03-16T13:50:20Z) - eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert
Denoisers [87.52504764677226]
大規模拡散に基づく生成モデルは、テキスト条件の高解像度画像合成においてブレークスルーをもたらした。
異なる段階合成に特化したテキスト・画像拡散モデルのアンサンブルを訓練する。
eDiffiと呼ばれる拡散モデルのアンサンブルは、同じ推論コストを維持しながらテキストアライメントを改善する。
論文 参考訳(メタデータ) (2022-11-02T17:43:04Z) - Make-A-Scene: Scene-Based Text-to-Image Generation with Human Priors [58.71128866226768]
近年のテキスト・ツー・イメージ生成手法は、生成した画像の忠実度とテキスト関連性を漸進的に改善している。
i)シーンの形式でテキストを補完する単純な制御機構を実現することで,これらのギャップに対処する新しいテキスト・ツー・イメージ手法を提案する。
このモデルにより,512×512ピクセルの解像度で高忠実度画像を生成することができる。
論文 参考訳(メタデータ) (2022-03-24T15:44:50Z) - Text to Image Generation with Semantic-Spatial Aware GAN [41.73685713621705]
テキストから画像生成(T2I)モデルは、テキスト記述と意味的に一致するフォトリアリズム画像を生成することを目的としている。
本稿では,テキストエンコーダがより良いテキスト情報を活用できるように,エンドツーエンドで訓練された新しいフレームワークSemantic-Spatial Aware GANを提案する。
論文 参考訳(メタデータ) (2021-04-01T15:48:01Z) - TediGAN: Text-Guided Diverse Face Image Generation and Manipulation [52.83401421019309]
TediGANはマルチモーダル画像生成とテキスト記述による操作のためのフレームワークである。
StyleGANインバージョンモジュールは、よく訓練されたStyleGANの潜在空間に実際の画像をマッピングする。
視覚言語的類似性は、画像とテキストを共通の埋め込み空間にマッピングすることで、テキスト画像マッチングを学ぶ。
インスタンスレベルの最適化は、操作におけるID保存のためのものだ。
論文 参考訳(メタデータ) (2020-12-06T16:20:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。