論文の概要: Visual Text Generation in the Wild
- arxiv url: http://arxiv.org/abs/2407.14138v2
- Date: Sun, 3 Nov 2024 08:12:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-08 19:38:31.803025
- Title: Visual Text Generation in the Wild
- Title(参考訳): 野生におけるビジュアルテキスト生成
- Authors: Yuanzhi Zhu, Jiawei Liu, Feiyu Gao, Wenyu Liu, Xinggang Wang, Peng Wang, Fei Huang, Cong Yao, Zhibo Yang,
- Abstract要約: 野生で高品質なテキスト画像を生成する視覚テキスト生成装置(SceneVTG)を提案する。
提案したSceneVTGは、従来のレンダリングに基づく手法と最近の拡散に基づく手法を、忠実さと理性の観点から大きく上回っている。
生成された画像は、テキスト検出とテキスト認識を含むタスクに優れたユーティリティを提供する。
- 参考スコア(独自算出の注目度): 67.37458807253064
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, with the rapid advancements of generative models, the field of visual text generation has witnessed significant progress. However, it is still challenging to render high-quality text images in real-world scenarios, as three critical criteria should be satisfied: (1) Fidelity: the generated text images should be photo-realistic and the contents are expected to be the same as specified in the given conditions; (2) Reasonability: the regions and contents of the generated text should cohere with the scene; (3) Utility: the generated text images can facilitate related tasks (e.g., text detection and recognition). Upon investigation, we find that existing methods, either rendering-based or diffusion-based, can hardly meet all these aspects simultaneously, limiting their application range. Therefore, we propose in this paper a visual text generator (termed SceneVTG), which can produce high-quality text images in the wild. Following a two-stage paradigm, SceneVTG leverages a Multimodal Large Language Model to recommend reasonable text regions and contents across multiple scales and levels, which are used by a conditional diffusion model as conditions to generate text images. Extensive experiments demonstrate that the proposed SceneVTG significantly outperforms traditional rendering-based methods and recent diffusion-based methods in terms of fidelity and reasonability. Besides, the generated images provide superior utility for tasks involving text detection and text recognition. Code and datasets are available at AdvancedLiterateMachinery.
- Abstract(参考訳): 近年、生成モデルの急速な進歩により、視覚テキスト生成の分野は大きな進歩を遂げている。
しかし, 高品質なテキストイメージを現実のシナリオでレンダリングすることは,(1) 忠実さ: 生成したテキストイメージはフォトリアリスティックで, 内容は指定した条件と同じである,(2) 理性: 生成したテキストの領域と内容がシーンと結びつく,(3) 実用性: 生成したテキストイメージは関連するタスク(例えば, テキストの検出と認識)を促進できる,という3つの重要な基準を満たすことが依然として困難である。
調査の結果,既存の手法はレンダリングベースでも拡散ベースでも,これらすべての側面を同時に満たすことができず,アプリケーション範囲が制限されることが判明した。
そこで本稿では,高品質なテキスト画像を生成する視覚テキスト生成装置(SceneVTG)を提案する。
2段階のパラダイムに従って、SceneVTGはマルチモーダル大言語モデルを利用して、条件付き拡散モデルによってテキスト画像を生成する条件として使用される、複数のスケールとレベルにわたる妥当なテキスト領域と内容を推奨する。
広汎な実験により,提案手法は従来のレンダリング法や最近の拡散法よりも忠実度や理性に優れていた。
さらに、生成された画像は、テキスト検出とテキスト認識を含むタスクに優れたユーティリティを提供する。
コードとデータセットはAdvancedLiterateMachineryで入手できる。
関連論文リスト
- Text Image Generation for Low-Resource Languages with Dual Translation Learning [0.0]
本研究では,高リソース言語からの実際のテキスト画像のスタイルをエミュレートすることで,低リソース言語でテキスト画像を生成する手法を提案する。
このモデルのトレーニングには、2つの翻訳タスクが含まれており、平易なテキストイメージを合成または実際のテキストイメージに変換する。
生成したテキスト画像の精度と多様性を高めるために,2つのガイダンス手法を導入する。
論文 参考訳(メタデータ) (2024-09-26T11:23:59Z) - Enhancing Scene Text Detectors with Realistic Text Image Synthesis Using
Diffusion Models [63.99110667987318]
DiffTextは、前景のテキストと背景の本質的な特徴をシームレスにブレンドするパイプラインです。
テキストインスタンスが少なくなると、生成したテキストイメージはテキスト検出を支援する他の合成データを一貫して上回ります。
論文 参考訳(メタデータ) (2023-11-28T06:51:28Z) - Conditional Text Image Generation with Diffusion Models [18.017541111064602]
条件付きモデルを用いたテキスト画像生成法(CTIG-DM)を提案する。
合成モード、拡張モード、リカバリモード、模倣モードの4つのテキスト画像生成モードは、これら3つの条件の組み合わせと設定によって導出することができる。
CTIG-DMは、実世界の複雑さと多様性をシミュレートするイメージサンプルを作成することができ、既存のテキスト認識器の性能を高めることができる。
論文 参考訳(メタデータ) (2023-06-19T09:44:43Z) - GlyphDiffusion: Text Generation as Image Generation [100.98428068214736]
テキスト誘導画像生成によるテキスト生成のための新しい拡散手法であるGlyphDiffusionを提案する。
私たちのキーとなるアイデアは、ターゲットのテキストを視覚言語コンテンツを含むグリフイメージとしてレンダリングすることです。
また,本モデルでは,近年の拡散モデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-04-25T02:14:44Z) - Unified Multi-Modal Latent Diffusion for Joint Subject and Text
Conditional Image Generation [63.061871048769596]
本稿では, 特定対象を含む画像と共同テキストを入力シーケンスとして用いた, Unified Multi-Modal Latent Diffusion (UMM-Diffusion) を提案する。
より具体的には、入力テキストと画像の両方を1つの統一マルチモーダル潜在空間に符号化する。
入力テキストと画像の両面から複雑な意味を持つ高品質な画像を生成することができる。
論文 参考訳(メタデータ) (2023-03-16T13:50:20Z) - SpaText: Spatio-Textual Representation for Controllable Image Generation [61.89548017729586]
SpaTextはオープン語彙シーン制御を用いたテキスト・ツー・イメージ生成の新しい手法である。
シーン全体を記述したグローバルテキストプロンプトに加えて、ユーザはセグメンテーションマップを提供する。
現状拡散モデルである画素ベースと潜在条件ベースでの有効性を示す。
論文 参考訳(メタデータ) (2022-11-25T18:59:10Z) - Make-A-Scene: Scene-Based Text-to-Image Generation with Human Priors [58.71128866226768]
近年のテキスト・ツー・イメージ生成手法は、生成した画像の忠実度とテキスト関連性を漸進的に改善している。
i)シーンの形式でテキストを補完する単純な制御機構を実現することで,これらのギャップに対処する新しいテキスト・ツー・イメージ手法を提案する。
このモデルにより,512×512ピクセルの解像度で高忠実度画像を生成することができる。
論文 参考訳(メタデータ) (2022-03-24T15:44:50Z) - Text to Image Generation with Semantic-Spatial Aware GAN [41.73685713621705]
テキストから画像生成(T2I)モデルは、テキスト記述と意味的に一致するフォトリアリズム画像を生成することを目的としている。
本稿では,テキストエンコーダがより良いテキスト情報を活用できるように,エンドツーエンドで訓練された新しいフレームワークSemantic-Spatial Aware GANを提案する。
論文 参考訳(メタデータ) (2021-04-01T15:48:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。