論文の概要: RealCompo: Dynamic Equilibrium between Realism and Compositionality
Improves Text-to-Image Diffusion Models
- arxiv url: http://arxiv.org/abs/2402.12908v1
- Date: Tue, 20 Feb 2024 10:56:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 15:41:29.532520
- Title: RealCompo: Dynamic Equilibrium between Realism and Compositionality
Improves Text-to-Image Diffusion Models
- Title(参考訳): realcompo: テキストから画像への拡散モデルを改善するリアリズムと構成性の動的平衡
- Authors: Xinchen Zhang, Ling Yang, Yaqi Cai, Zhaochen Yu, Jiake Xie, Ye Tian,
Minkai Xu, Yong Tang, Yujiu Yang, Bin Cui
- Abstract要約: 本稿では,RealCompoという,トレーニング不要で移動しやすいテキスト・ツー・イメージ生成フレームワークを提案する。
テキスト・ツー・イメージモデルとレイアウト・ツー・イメージモデルの利点を活用して、生成した画像のリアリズムと構成性の両方を強化することを目的としている。
- 参考スコア(独自算出の注目度): 44.904373096762924
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models have achieved remarkable advancements in text-to-image
generation. However, existing models still have many difficulties when faced
with multiple-object compositional generation. In this paper, we propose a new
training-free and transferred-friendly text-to-image generation framework,
namely RealCompo, which aims to leverage the advantages of text-to-image and
layout-to-image models to enhance both realism and compositionality of the
generated images. An intuitive and novel balancer is proposed to dynamically
balance the strengths of the two models in denoising process, allowing
plug-and-play use of any model without extra training. Extensive experiments
show that our RealCompo consistently outperforms state-of-the-art text-to-image
models and layout-to-image models in multiple-object compositional generation
while keeping satisfactory realism and compositionality of the generated
images. Code is available at https://github.com/YangLing0818/RealCompo
- Abstract(参考訳): 拡散モデルはテキスト・画像生成において顕著な進歩を遂げた。
しかし、既存のモデルでは、多目的合成生成に直面する場合、多くの困難がある。
本稿では,テキスト・ツー・イメージモデルとレイアウト・ツー・イメージモデルのアドバンテージを活かし,生成画像のリアリズムとコンポジション性を向上させることを目的とした,新たなトレーニングフリーかつ転送フレンドリなテキスト・ツー・イメージ生成フレームワークであるrealcompoを提案する。
直感的で斬新なバランサが提案され、デノナイジングプロセスにおいて2つのモデルの強みを動的にバランスさせ、任意のモデルのプラグアンドプレイを余分な訓練なしで使用できるようにする。
我々のRealCompoは、生成した画像の満足なリアリズムと構成性を保ちながら、常に最先端のテキスト・イメージモデルとレイアウト・ツー・イメージモデルより優れていることを示す。
コードはhttps://github.com/YangLing0818/RealCompoで入手できる。
関連論文リスト
- Progressive Compositionality In Text-to-Image Generative Models [33.18510121342558]
拡散モデルのコントラスト学習のための新しいカリキュラムであるEvoGenを提案する。
本研究では,大規模言語モデル(LLM)を活用し,現実的で複雑なシナリオを構成する。
また、VQA(Visual-Question Answering)システムと拡散モデルを用いて、コントラストデータセット(ConPair)を自動的にキュレートする。
論文 参考訳(メタデータ) (2024-10-22T05:59:29Z) - IterComp: Iterative Composition-Aware Feedback Learning from Model Gallery for Text-to-Image Generation [70.8833857249951]
IterCompは、複数のモデルから合成対応モデルの好みを集約する新しいフレームワークである。
クローズドループ方式で構成性を向上する反復的フィードバック学習法を提案する。
IterCompは、拡散モデルと合成生成のための報酬フィードバック学習の新たな研究の道を開く。
論文 参考訳(メタデータ) (2024-10-09T17:59:13Z) - MaxFusion: Plug&Play Multi-Modal Generation in Text-to-Image Diffusion Models [34.611309081801345]
大規模な拡散ベースのテキスト・ツー・イメージ(T2I)モデルでは、テキスト・ツー・イメージ生成に印象的な生成能力がある。
本稿では,最小限の計算量で新しいタスクにまたがって生成モデルを拡張するための新しい手法を提案する。
論文 参考訳(メタデータ) (2024-04-15T17:55:56Z) - Steered Diffusion: A Generalized Framework for Plug-and-Play Conditional
Image Synthesis [62.07413805483241]
Steered Diffusionは、無条件生成のために訓練された拡散モデルを用いたゼロショット条件画像生成のためのフレームワークである。
塗装,着色,テキスト誘導セマンティック編集,画像超解像などのタスクに対して,ステアリング拡散を用いた実験を行った。
論文 参考訳(メタデータ) (2023-09-30T02:03:22Z) - Person Image Synthesis via Denoising Diffusion Model [116.34633988927429]
本研究では,高忠実度人物画像合成に拡散モデルをいかに応用できるかを示す。
2つの大規模ベンチマークとユーザスタディの結果は、挑戦的なシナリオ下で提案したアプローチのフォトリアリズムを実証している。
論文 参考訳(メタデータ) (2022-11-22T18:59:50Z) - Compositional Visual Generation with Composable Diffusion Models [80.75258849913574]
拡散モデルを用いた構成生成のための代替的な構造的アプローチを提案する。
画像は拡散モデルの集合を構成することで生成され、それぞれが画像の特定のコンポーネントをモデル化する。
提案手法は, トレーニングで見られるものよりもはるかに複雑なシーンを, テスト時に生成することができる。
論文 参考訳(メタデータ) (2022-06-03T17:47:04Z) - DiVAE: Photorealistic Images Synthesis with Denoising Diffusion Decoder [73.1010640692609]
本稿では,拡散デコーダ(DiVAE)を用いたVQ-VAEアーキテクチャモデルを提案する。
我々のモデルは最先端の成果を達成し、さらに多くのフォトリアリスティックな画像を生成する。
論文 参考訳(メタデータ) (2022-06-01T10:39:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。