論文の概要: Refining Text-to-Image Generation: Towards Accurate Training-Free Glyph-Enhanced Image Generation
- arxiv url: http://arxiv.org/abs/2403.16422v2
- Date: Mon, 28 Oct 2024 22:11:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-31 02:59:38.837089
- Title: Refining Text-to-Image Generation: Towards Accurate Training-Free Glyph-Enhanced Image Generation
- Title(参考訳): テキスト・ツー・イメージ生成の精細化 : グリフ強調画像生成の精度向上を目指して
- Authors: Sanyam Lakhanpal, Shivang Chopra, Vinija Jain, Aman Chadha, Man Luo,
- Abstract要約: 視覚テキストを生成する能力は重要であり、学術的関心と幅広い実践的応用の両方を提供する。
我々はLenCom-Evalというベンチマークを導入し、Lengthy と Complex Visual Text を用いて画像を生成するモデルの性能をテストする。
ここでは,CLIPSスコア,OCR精度,リコール,F1スコア,精度,距離スコアの編集など,様々な評価指標に対する顕著な改善点を示す。
- 参考スコア(独自算出の注目度): 5.55027585813848
- License:
- Abstract: Over the past few years, Text-to-Image (T2I) generation approaches based on diffusion models have gained significant attention. However, vanilla diffusion models often suffer from spelling inaccuracies in the text displayed within the generated images. The capability to generate visual text is crucial, offering both academic interest and a wide range of practical applications. To produce accurate visual text images, state-of-the-art techniques adopt a glyph-controlled image generation approach, consisting of a text layout generator followed by an image generator that is conditioned on the generated text layout. Nevertheless, our study reveals that these models still face three primary challenges, prompting us to develop a testbed to facilitate future research. We introduce a benchmark, LenCom-Eval, specifically designed for testing models' capability in generating images with Lengthy and Complex visual text. Subsequently, we introduce a training-free framework to enhance the two-stage generation approaches. We examine the effectiveness of our approach on both LenCom-Eval and MARIO-Eval benchmarks and demonstrate notable improvements across a range of evaluation metrics, including CLIPScore, OCR precision, recall, F1 score, accuracy, and edit distance scores. For instance, our proposed framework improves the backbone model, TextDiffuser, by more than 23\% and 13.5\% in terms of OCR word F1 on LenCom-Eval and MARIO-Eval, respectively. Our work makes a unique contribution to the field by focusing on generating images with long and rare text sequences, a niche previously unexplored by existing literature
- Abstract(参考訳): 近年,拡散モデルに基づくテキスト・ツー・イメージ(T2I)生成手法が注目されている。
しかしながら、バニラ拡散モデルは、生成された画像内に表示されるテキストのスペルの不正確さに悩まされることが多い。
視覚テキストを生成する能力は重要であり、学術的関心と幅広い実践的応用の両方を提供する。
正確なビジュアルテキスト画像を作成するために、最先端技術は、テキストレイアウト生成器と、生成されたテキストレイアウトに条件付けされた画像生成器とからなるグリフ制御画像生成アプローチを採用する。
それにもかかわらず、我々の研究はこれらのモデルが依然として3つの主要な課題に直面していることを明らかにし、将来の研究を促進するためのテストベッドの開発を促した。
我々はLenCom-Evalというベンチマークを導入し、Lengthy と Complex Visual Text を用いて画像を生成するモデルの性能をテストする。
次に,2段階生成アプローチを強化するためのトレーニングフリーフレームワークを提案する。
LenCom-Eval と MARIO-Eval のベンチマークによるアプローチの有効性を検証し,CLIPScore や OCR の精度,リコール,F1 スコア,精度,編集距離スコアなど,様々な評価指標において顕著な改善点を示した。
例えば,提案フレームワークは,LenCom-Eval 上の OCR ワード F1 と MARIO-Eval のそれぞれで 23\% 以上, 13.5\% 以上のバックボーンモデルである TextDiffuser を改善した。
我々の研究は、既存の文献が未発見のニッチである長文・希文画像の生成に焦点をあてて、この分野にユニークな貢献をしている。
関連論文リスト
- Empowering Backbone Models for Visual Text Generation with Input Granularity Control and Glyph-Aware Training [68.41837295318152]
拡散に基づくテキスト・ツー・イメージモデルでは、多様性と美学の素晴らしい成果が示されているが、視覚的なテキストで画像を生成するのに苦労している。
既存のバックボーンモデルには、ミススペル、テキスト生成の失敗、中国語テキストのサポートの欠如といった制限がある。
本稿では,英語と中国語の視覚テキスト生成にバックボーンモデルを活用するための一連の手法を提案する。
論文 参考訳(メタデータ) (2024-10-06T10:25:39Z) - Visual Text Generation in the Wild [67.37458807253064]
野生で高品質なテキスト画像を生成する視覚テキスト生成装置(SceneVTG)を提案する。
提案したSceneVTGは、従来のレンダリングに基づく手法と最近の拡散に基づく手法を、忠実さと理性の観点から大きく上回っている。
生成された画像は、テキスト検出とテキスト認識を含むタスクに優れたユーティリティを提供する。
論文 参考訳(メタデータ) (2024-07-19T09:08:20Z) - Prompt-Consistency Image Generation (PCIG): A Unified Framework Integrating LLMs, Knowledge Graphs, and Controllable Diffusion Models [20.19571676239579]
生成した画像と対応する記述とのアライメントを強化するための,拡散に基づく新しいフレームワークを提案する。
この枠組みは不整合現象の包括的解析に基づいて構築され,画像の表示に基づいて分類する。
次に、最先端の制御可能な画像生成モデルとビジュアルテキスト生成モジュールを統合し、元のプロンプトと整合した画像を生成する。
論文 参考訳(メタデータ) (2024-06-24T06:12:16Z) - ARTIST: Improving the Generation of Text-rich Images with Disentangled Diffusion Models [52.23899502520261]
テキスト構造学習に焦点を当てたARTISTという新しいフレームワークを提案する。
我々は、事前訓練されたテキスト構造モデルからテキスト構造情報を同化できるように、視覚拡散モデルを微調整する。
MARIO-Evalベンチマークの実証結果は,提案手法の有効性を裏付けるものであり,様々な指標において最大15%の改善が見られた。
論文 参考訳(メタデータ) (2024-06-17T19:31:24Z) - UDiffText: A Unified Framework for High-quality Text Synthesis in
Arbitrary Images via Character-aware Diffusion Models [25.219960711604728]
本稿では,事前学習した拡散モデルを用いたテキスト画像生成手法を提案する。
我々のアプローチは、オリジナルのCLIPエンコーダを置き換える軽量文字レベルテキストエンコーダの設計と訓練である。
推論段階の精細化プロセスを用いることで、任意に与えられた画像のテキストを合成する際に、顕著に高いシーケンス精度を実現する。
論文 参考訳(メタデータ) (2023-12-08T07:47:46Z) - GlyphDiffusion: Text Generation as Image Generation [100.98428068214736]
テキスト誘導画像生成によるテキスト生成のための新しい拡散手法であるGlyphDiffusionを提案する。
私たちのキーとなるアイデアは、ターゲットのテキストを視覚言語コンテンツを含むグリフイメージとしてレンダリングすることです。
また,本モデルでは,近年の拡散モデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-04-25T02:14:44Z) - Shifted Diffusion for Text-to-image Generation [65.53758187995744]
Corgiは,提案したシフト拡散モデルに基づいて,入力テキストからより優れた画像埋め込み生成を実現する。
Corgiはまた、ダウンストリーム言語フリーのテキスト画像生成タスク上で、さまざまなデータセットにまたがる最先端の新たな結果も達成している。
論文 参考訳(メタデータ) (2022-11-24T03:25:04Z) - Re-Imagen: Retrieval-Augmented Text-to-Image Generator [58.60472701831404]
検索用テキスト・ツー・イメージ・ジェネレータ(再画像)
検索用テキスト・ツー・イメージ・ジェネレータ(再画像)
論文 参考訳(メタデータ) (2022-09-29T00:57:28Z) - ERNIE-ViLG: Unified Generative Pre-training for Bidirectional
Vision-Language Generation [22.47279425592133]
ERNIE-ViLGは,双方向画像テキスト生成のための統合型事前学習フレームワークである。
テキスト・ツー・イメージ生成プロセスにおいて,視覚的シーケンス生成器と画像再構成器を協調的に学習するエンドツーエンド・トレーニング手法を提案する。
我々は,1億4500万(中国語)の画像テキストペアからなる大規模データセット上で,10ビリオンパラメータERNIE-ViLGモデルをトレーニングする。
論文 参考訳(メタデータ) (2021-12-31T03:53:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。