論文の概要: GlyphDraw: Learning to Draw Chinese Characters in Image Synthesis Models
Coherently
- arxiv url: http://arxiv.org/abs/2303.17870v1
- Date: Fri, 31 Mar 2023 08:06:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-03 15:02:05.955940
- Title: GlyphDraw: Learning to Draw Chinese Characters in Image Synthesis Models
Coherently
- Title(参考訳): glyphdraw: 画像合成モデルにおける漢字をコヒーレントに描く学習
- Authors: Jian Ma, Mingjun Zhao, Chen Chen, Ruichen Wang, Di Niu, Haonan Lu,
Xiaodong Lin
- Abstract要約: GlyphDrawは、画像生成モデルにコヒーレントテキストに埋め込まれた画像を生成する能力を持たせることを目的とした、一般的な学習フレームワークである。
まず、OCR技術を用いて、漢字の画像を訓練サンプルとして収集し、テキストと位置情報を補助情報として抽出する。
提案手法は,プロンプトのように正確な漢字を生成するだけでなく,生成したテキストを背景に自然にブレンドする。
- 参考スコア(独自算出の注目度): 18.396131717250793
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent breakthroughs in the field of language-guided image generation have
yielded impressive achievements, enabling the creation of high-quality and
diverse images based on user instructions. Although the synthesis performance
is fascinating, one significant limitation of current image generation models
is their insufficient ability to generate coherent text within images,
particularly for complex glyph structures like Chinese characters. To address
this problem, we introduce GlyphDraw, a general learning framework aiming at
endowing image generation models with the capacity to generate images embedded
with coherent text. To the best of our knowledge, this is the first work in the
field of image synthesis to address the generation of Chinese characters. % we
first adopt the OCR technique to collect images with Chinese characters as
training samples, and extract the text and locations as auxiliary information.
We first sophisticatedly design the image-text dataset's construction strategy,
then build our model specifically on a diffusion-based image generator and
carefully modify the network structure to allow the model to learn drawing
Chinese characters with the help of glyph and position information.
Furthermore, we maintain the model's open-domain image synthesis capability by
preventing catastrophic forgetting by using a variety of training techniques.
Extensive qualitative and quantitative experiments demonstrate that our method
not only produces accurate Chinese characters as in prompts, but also naturally
blends the generated text into the background. Please refer to
https://1073521013.github.io/glyph-draw.github.io
- Abstract(参考訳): 近年の言語誘導画像生成の分野におけるブレークスルーは、ユーザ指示に基づく高品質で多彩な画像の作成を可能にした。
合成性能は興味深いが、現在の画像生成モデルの1つの重要な制限は、特に漢字のような複雑なグリフ構造において、画像内でコヒーレントなテキストを生成する能力が不十分であることである。
本稿では,コヒーレントテキストによる画像生成能力を持つ画像生成モデルを内在化することを目的とした汎用学習フレームワークであるglyphdrawを提案する。
我々の知る限りでは、これは漢字の生成に対処する画像合成の分野における最初の作品である。
%で,まずOCR技術を用いて,漢字のイメージをトレーニングサンプルとして収集し,テキストや位置情報を補助情報として抽出した。
まず,画像テキストデータセットの構築戦略を高度に設計し,次に拡散型画像生成器を用いてモデルを構築し,ネットワーク構造を慎重に修正し,グリフと位置情報を用いて漢字の描画を学習できるようにした。
さらに,種々のトレーニング手法を用いて,破滅的忘れを防止し,モデルのオープンドメイン画像合成機能を維持する。
広範にわたる質的定量的実験により,提案手法が精度の高い漢字をプロンプトのように生成するだけでなく,自然に生成したテキストを背景にブレンドすることを示す。
https://1073521013.github.io/glyph-draw.github.ioを参照。
関連論文リスト
- Conditional Text-to-Image Generation with Reference Guidance [81.99538302576302]
本稿では,拡散モデルを生成するために,特定の対象の視覚的ガイダンスを提供する画像の追加条件を用いて検討する。
我々は、異なる参照を取る能力を持つ安定拡散モデルを効率的に支持する、小規模のエキスパートプラグインを複数開発する。
専門的なプラグインは、すべてのタスクにおいて既存のメソッドよりも優れた結果を示し、それぞれ28.55Mのトレーニング可能なパラメータしか含まない。
論文 参考訳(メタデータ) (2024-11-22T21:38:51Z) - Prompt-Consistency Image Generation (PCIG): A Unified Framework Integrating LLMs, Knowledge Graphs, and Controllable Diffusion Models [20.19571676239579]
生成した画像と対応する記述とのアライメントを強化するための,拡散に基づく新しいフレームワークを提案する。
この枠組みは不整合現象の包括的解析に基づいて構築され,画像の表示に基づいて分類する。
次に、最先端の制御可能な画像生成モデルとビジュアルテキスト生成モジュールを統合し、元のプロンプトと整合した画像を生成する。
論文 参考訳(メタデータ) (2024-06-24T06:12:16Z) - ARTIST: Improving the Generation of Text-rich Images with Disentangled Diffusion Models [52.23899502520261]
テキスト構造学習に焦点を当てたARTISTという新しいフレームワークを提案する。
我々は、事前訓練されたテキスト構造モデルからテキスト構造情報を同化できるように、視覚拡散モデルを微調整する。
MARIO-Evalベンチマークの実証結果は,提案手法の有効性を裏付けるものであり,様々な指標において最大15%の改善が見られた。
論文 参考訳(メタデータ) (2024-06-17T19:31:24Z) - AutoStory: Generating Diverse Storytelling Images with Minimal Human
Effort [55.83007338095763]
本稿では,多種多様で高品質で一貫したストーリーイメージを効果的に生成できる自動ストーリー可視化システムを提案する。
本研究では,大規模言語モデルの理解と計画能力をレイアウト計画に利用し,大規模テキスト・画像モデルを用いて高度なストーリー画像を生成する。
論文 参考訳(メタデータ) (2023-11-19T06:07:37Z) - LayoutLLM-T2I: Eliciting Layout Guidance from LLM for Text-to-Image
Generation [121.45667242282721]
レイアウト計画と画像生成を実現するための粗大なパラダイムを提案する。
提案手法は,フォトリアリスティックなレイアウトと画像生成の観点から,最先端のモデルよりも優れている。
論文 参考訳(メタデータ) (2023-08-09T17:45:04Z) - GlyphDiffusion: Text Generation as Image Generation [100.98428068214736]
テキスト誘導画像生成によるテキスト生成のための新しい拡散手法であるGlyphDiffusionを提案する。
私たちのキーとなるアイデアは、ターゲットのテキストを視覚言語コンテンツを含むグリフイメージとしてレンダリングすることです。
また,本モデルでは,近年の拡散モデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-04-25T02:14:44Z) - Unified Multi-Modal Latent Diffusion for Joint Subject and Text
Conditional Image Generation [63.061871048769596]
本稿では, 特定対象を含む画像と共同テキストを入力シーケンスとして用いた, Unified Multi-Modal Latent Diffusion (UMM-Diffusion) を提案する。
より具体的には、入力テキストと画像の両方を1つの統一マルチモーダル潜在空間に符号化する。
入力テキストと画像の両面から複雑な意味を持つ高品質な画像を生成することができる。
論文 参考訳(メタデータ) (2023-03-16T13:50:20Z) - Plug-and-Play Diffusion Features for Text-Driven Image-to-Image
Translation [10.39028769374367]
本稿では,画像間翻訳の領域にテキスト・ツー・イメージ合成を取り入れた新しいフレームワークを提案する。
本手法は,事前学習したテキスト・画像拡散モデルのパワーを利用して,対象のテキストに適合する新たな画像を生成する。
論文 参考訳(メタデータ) (2022-11-22T20:39:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。