論文の概要: UPainting: Unified Text-to-Image Diffusion Generation with Cross-modal
Guidance
- arxiv url: http://arxiv.org/abs/2210.16031v1
- Date: Fri, 28 Oct 2022 10:07:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-31 15:13:09.584776
- Title: UPainting: Unified Text-to-Image Diffusion Generation with Cross-modal
Guidance
- Title(参考訳): UPainting: クロスモーダル誘導による統一テキスト・画像拡散生成
- Authors: Wei Li, Xue Xu, Xinyan Xiao, Jiachen Liu, Hu Yang, Guohao Li, Zhanpeng
Wang, Zhifan Feng, Qiaoqiao She, Yajuan Lyu, Hua Wu
- Abstract要約: 我々は,シンプルかつ複雑なシーン画像生成を統一する,シンプルで効果的なアプローチ,すなわちUPaintingを提案する。
アーキテクチャの改善と多様なガイダンススケジュールに基づいて、UPaintingは事前訓練された画像テキストマッチングモデルからのクロスモーダルガイダンスをテキスト条件拡散モデルに統合する。
UPaintingは、単純なシーンと複雑なシーンの両方において、キャプションの類似性と画像の忠実さという点で、他のモデルよりも大幅に優れています。
- 参考スコア(独自算出の注目度): 40.488455270651684
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion generative models have recently greatly improved the power of
text-conditioned image generation. Existing image generation models mainly
include text conditional diffusion model and cross-modal guided diffusion
model, which are good at small scene image generation and complex scene image
generation respectively. In this work, we propose a simple yet effective
approach, namely UPainting, to unify simple and complex scene image generation,
as shown in Figure~\ref{fig:leading_samples}. Based on architecture
improvements and diverse guidance schedules, UPainting effectively integrates
cross-modal guidance from a pretrained image-text matching model into a text
conditional diffusion model that utilizes a pretrained Transformer language
model as the text encoder. Our key findings is that combining the power of
large-scale Transformer language model in understanding language and image-text
matching model in capturing cross-modal semantics and style, is effective to
improve sample fidelity and image-text alignment of image generation. In this
way, UPainting has a more general image generation capability, which can
generate images of both simple and complex scenes more effectively. %On the
COCO dataset, UPainting achieves much better performance than Stable Diffusion,
one of the state-of-the-art text-to-image diffusion models. To comprehensively
compare text-to-image models, we further create a more general benchmark,
UniBench, with well-written Chinese and English prompts in both simple and
complex scenes. We compare UPainting with recent models and find that UPainting
greatly outperforms other models in terms of caption similarity and image
fidelity in both simple and complex scenes.
- Abstract(参考訳): 拡散生成モデルは最近、テキスト条件付き画像生成のパワーを大幅に改善している。
既存の画像生成モデルは主にテキスト条件付き拡散モデルとクロスモーダル誘導拡散モデルを含み、それぞれ小さなシーン画像生成と複雑なシーン画像生成に適している。
本研究では,図~\ref{fig:leading_samples}に示すように,単純かつ複雑なシーン画像生成を統一する,単純かつ効果的な手法を提案する。
UPaintingは、アーキテクチャの改善と多様なガイダンススケジュールに基づいて、事前訓練された画像テキストマッチングモデルからのクロスモーダルガイダンスを、事前訓練されたトランスフォーマー言語モデルをテキストエンコーダとして利用するテキスト条件拡散モデルに統合する。
我々の重要な発見は、言語理解における大規模トランスフォーマー言語モデルと、クロスモーダルなセマンティクスとスタイルをキャプチャする画像テキストマッチングモデルを組み合わせることで、画像生成のサンプル忠実度と画像テキストアライメントを改善することができることである。
このように、upaintingはより一般的な画像生成機能を持ち、シンプルで複雑なシーンのイメージをより効果的に生成できる。
% COCOデータセット上で、UPaintingは、最先端のテキスト画像拡散モデルの1つであるStable Diffusionよりもはるかに優れたパフォーマンスを実現している。
テキストと画像のモデルを包括的に比較するため、より一般的なベンチマークであるUniBenchを、簡素かつ複雑な場面で中国語と英語のプロンプトで作成する。
UPaintingを最近のモデルと比較すると、UPaintingは他のモデルよりもキャプションの類似性や画像の忠実度において、シンプルかつ複雑なシーンで大幅に優れています。
関連論文リスト
- ARTIST: Improving the Generation of Text-rich Images with Disentangled Diffusion Models [52.23899502520261]
テキスト構造学習に焦点を当てたARTISTという新しいフレームワークを提案する。
我々は、事前訓練されたテキスト構造モデルからテキスト構造情報を同化できるように、視覚拡散モデルを微調整する。
MARIO-Evalベンチマークの実証結果は,提案手法の有効性を裏付けるものであり,様々な指標において最大15%の改善が見られた。
論文 参考訳(メタデータ) (2024-06-17T19:31:24Z) - Generating Images with Multimodal Language Models [78.6660334861137]
本稿では,凍結したテキストのみの大規模言語モデルを,事前学習した画像エンコーダとデコーダモデルで融合する手法を提案する。
本モデルでは,画像検索,新しい画像生成,マルチモーダル対話など,多モーダルな機能群を示す。
論文 参考訳(メタデータ) (2023-05-26T19:22:03Z) - SUR-adapter: Enhancing Text-to-Image Pre-trained Diffusion Models with
Large Language Models [56.88192537044364]
本研究では,事前学習拡散モデルに対するセマンティック・アダプタ (SUR-adapter) と呼ばれる簡易なパラメータ効率の良い微調整手法を提案する。
ユーザエクスペリエンスの向上により,テキストから画像への拡散モデルの使いやすさが向上する。
論文 参考訳(メタデータ) (2023-05-09T05:48:38Z) - GlyphDraw: Seamlessly Rendering Text with Intricate Spatial Structures
in Text-to-Image Generation [18.396131717250793]
GlyphDrawは、画像生成モデルに特定の言語に対して、テキストにコヒーレントに埋め込まれた画像を生成する能力を持たせることを目的とした、一般的な学習フレームワークである。
提案手法は,プロンプトのように正確な言語文字を生成するだけでなく,生成したテキストを背景にシームレスにブレンドする。
論文 参考訳(メタデータ) (2023-03-31T08:06:33Z) - Plug-and-Play Diffusion Features for Text-Driven Image-to-Image
Translation [10.39028769374367]
本稿では,画像間翻訳の領域にテキスト・ツー・イメージ合成を取り入れた新しいフレームワークを提案する。
本手法は,事前学習したテキスト・画像拡散モデルのパワーを利用して,対象のテキストに適合する新たな画像を生成する。
論文 参考訳(メタデータ) (2022-11-22T20:39:18Z) - Photorealistic Text-to-Image Diffusion Models with Deep Language
Understanding [53.170767750244366]
Imagenは、前例のないフォトリアリズムと深い言語理解を備えたテキスト間拡散モデルである。
テキスト・ツー・イメージ・モデルをより深く評価するために,テキスト・ツー・イメージ・モデルの総合的かつ挑戦的なベンチマークであるDrawBenchを紹介した。
論文 参考訳(メタデータ) (2022-05-23T17:42:53Z) - LAFITE: Towards Language-Free Training for Text-to-Image Generation [83.2935513540494]
テキストデータなしでテキストから画像への生成モデルをトレーニングするための最初の作業を提案する。
提案手法は,CLIPモデルのマルチモーダルなセマンティック空間の整合性を活用している。
我々は,標準的なテキスト・画像生成タスクにおいて,最先端の結果を得る。
論文 参考訳(メタデータ) (2021-11-27T01:54:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。