論文の概要: TextDiffuser-2: Unleashing the Power of Language Models for Text
Rendering
- arxiv url: http://arxiv.org/abs/2311.16465v1
- Date: Tue, 28 Nov 2023 04:02:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-29 20:25:20.217099
- Title: TextDiffuser-2: Unleashing the Power of Language Models for Text
Rendering
- Title(参考訳): TextDiffuser-2: テキストレンダリングのための言語モデルのパワーを解放する
- Authors: Jingye Chen, Yupan Huang, Tengchao Lv, Lei Cui, Qifeng Chen, Furu Wei
- Abstract要約: TextDiffuser-2は、テキストレンダリングのための言語モデルのパワーを解き放つことを目的としている。
拡散モデル内の言語モデルを用いて,行レベルでの位置とテキストを符号化する。
我々は広範な実験を行い、GPT-4Vと同様に、ヒトの参加者を含むユーザスタディを取り入れた。
- 参考スコア(独自算出の注目度): 118.30923824681642
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The diffusion model has been proven a powerful generative model in recent
years, yet remains a challenge in generating visual text. Several methods
alleviated this issue by incorporating explicit text position and content as
guidance on where and what text to render. However, these methods still suffer
from several drawbacks, such as limited flexibility and automation, constrained
capability of layout prediction, and restricted style diversity. In this paper,
we present TextDiffuser-2, aiming to unleash the power of language models for
text rendering. Firstly, we fine-tune a large language model for layout
planning. The large language model is capable of automatically generating
keywords for text rendering and also supports layout modification through
chatting. Secondly, we utilize the language model within the diffusion model to
encode the position and texts at the line level. Unlike previous methods that
employed tight character-level guidance, this approach generates more diverse
text images. We conduct extensive experiments and incorporate user studies
involving human participants as well as GPT-4V, validating TextDiffuser-2's
capacity to achieve a more rational text layout and generation with enhanced
diversity. The code and model will be available at
\url{https://aka.ms/textdiffuser-2}.
- Abstract(参考訳): 拡散モデルは近年、強力な生成モデルであることが証明されているが、ビジュアルテキストの生成には依然として課題である。
明示的なテキストの位置とコンテンツを、どのテキストをレンダリングするかのガイダンスとして組み込むことで、この問題を緩和した。
しかし、これらの手法には、柔軟性と自動化の制限、レイアウト予測の制限された機能、スタイルの多様性の制限など、いくつかの欠点がある。
本稿では,テキストレンダリングのための言語モデルのパワーを解き放つことを目的としたTextDiffuser-2を提案する。
まず,レイアウト計画のための大規模言語モデルを微調整する。
大規模言語モデルはテキストレンダリング用のキーワードを自動的に生成し、チャットによるレイアウト変更もサポートする。
次に,拡散モデル内の言語モデルを用いて,行レベルでの位置とテキストを符号化する。
タイトな文字レベルのガイダンスを用いた従来の方法とは異なり、このアプローチはより多様なテキストイメージを生成する。
我々は,より合理的なテキストレイアウトを実現するためのtextdiffuser-2のキャパシティを検証し,多様性を増すために,ヒトおよびgpt-4vを用いたユーザ研究を実施し,広範な実験を行った。
コードとモデルは \url{https://aka.ms/textdiffuser-2} で入手できる。
関連論文リスト
- ARTIST: Improving the Generation of Text-rich Images with Disentangled Diffusion Models [52.23899502520261]
テキスト構造学習に焦点を当てたARTISTという新しいフレームワークを提案する。
我々は、事前訓練されたテキスト構造モデルからテキスト構造情報を同化できるように、視覚拡散モデルを微調整する。
MARIO-Evalベンチマークの実証結果は,提案手法の有効性を裏付けるものであり,様々な指標において最大15%の改善が見られた。
論文 参考訳(メタデータ) (2024-06-17T19:31:24Z) - AnyText: Multilingual Visual Text Generation And Editing [18.811943975513483]
拡散型多言語視覚テキスト生成・編集モデルであるAnyTextを紹介する。
AnyTextは複数の言語で文字を書くことができます。
我々は、OCRアノテーションと300万の画像テキストペアを複数言語で含む、最初の大規模多言語テキスト画像データセットであるAnyWord-3Mをコントリビュートする。
論文 参考訳(メタデータ) (2023-11-06T12:10:43Z) - TextDiffuser: Diffusion Models as Text Painters [118.30923824681642]
我々は、背景に忠実な視覚的に魅力的なテキストで画像を生成することに焦点を当てたTextDiffuserを紹介した。
我々は,OCRアノテーションを用いた最初の大規模テキスト画像データセットであるMARIO-10Mに,1000万の画像テキストペアをコントリビュートする。
テキストプロンプトのみまたはテキストテンプレート画像と併用して高品質なテキスト画像を作成し,テキストによる不完全な画像の再構成を行う,テキストディフューザは柔軟かつ制御可能であることを示す。
論文 参考訳(メタデータ) (2023-05-18T10:16:19Z) - DiffUTE: Universal Text Editing Diffusion Model [32.384236053455]
汎用的な自己教師型テキスト編集拡散モデル(DiffUTE)を提案する。
それは、その現実的な外観を維持しながら、ソースイメージ内の単語を別の単語に置き換えたり、修正したりすることを目的としている。
提案手法は印象的な性能を実現し,高忠実度画像の編集を可能にする。
論文 参考訳(メタデータ) (2023-05-18T09:06:01Z) - GlyphDiffusion: Text Generation as Image Generation [100.98428068214736]
テキスト誘導画像生成によるテキスト生成のための新しい拡散手法であるGlyphDiffusionを提案する。
私たちのキーとなるアイデアは、ターゲットのテキストを視覚言語コンテンツを含むグリフイメージとしてレンダリングすることです。
また,本モデルでは,近年の拡散モデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-04-25T02:14:44Z) - Improving Diffusion Models for Scene Text Editing with Dual Encoders [44.12999932588205]
シーンテキスト編集(Scene text editing)は、特定のテキストを画像に修正または挿入する作業である。
拡散モデルの最近の進歩は、これらの制限をテキスト条件による画像編集で克服することを約束している。
デュアルエンコーダ設計による事前学習拡散モデルを改善するためにDIFFSTEを提案する。
論文 参考訳(メタデータ) (2023-04-12T02:08:34Z) - SpaText: Spatio-Textual Representation for Controllable Image Generation [61.89548017729586]
SpaTextはオープン語彙シーン制御を用いたテキスト・ツー・イメージ生成の新しい手法である。
シーン全体を記述したグローバルテキストプロンプトに加えて、ユーザはセグメンテーションマップを提供する。
現状拡散モデルである画素ベースと潜在条件ベースでの有効性を示す。
論文 参考訳(メタデータ) (2022-11-25T18:59:10Z) - eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert
Denoisers [87.52504764677226]
大規模拡散に基づく生成モデルは、テキスト条件の高解像度画像合成においてブレークスルーをもたらした。
異なる段階合成に特化したテキスト・画像拡散モデルのアンサンブルを訓練する。
eDiffiと呼ばれる拡散モデルのアンサンブルは、同じ推論コストを維持しながらテキストアライメントを改善する。
論文 参考訳(メタデータ) (2022-11-02T17:43:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。