論文の概要: RealCompo: Balancing Realism and Compositionality Improves Text-to-Image Diffusion Models
- arxiv url: http://arxiv.org/abs/2402.12908v3
- Date: Mon, 14 Oct 2024 07:27:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-15 15:05:34.384788
- Title: RealCompo: Balancing Realism and Compositionality Improves Text-to-Image Diffusion Models
- Title(参考訳): RealCompo: テキストと画像の拡散モデルを改善する現実性と構成性のバランス
- Authors: Xinchen Zhang, Ling Yang, Yaqi Cai, Zhaochen Yu, Kai-Ni Wang, Jiake Xie, Ye Tian, Minkai Xu, Yong Tang, Yujiu Yang, Bin Cui,
- Abstract要約: RealCompoは、新しいトレーニングフリーで、移行フレンドリーなテキスト・ツー・イメージ生成フレームワークである。
復調過程における2つのモデルの強みのバランスをとるために,直感的で斬新なバランサを提案する。
我々のRealCompoは、幅広い空間認識画像拡散モデルとスタイル化された拡散モデルでシームレスに拡張できる。
- 参考スコア(独自算出の注目度): 42.20230095700904
- License:
- Abstract: Diffusion models have achieved remarkable advancements in text-to-image generation. However, existing models still have many difficulties when faced with multiple-object compositional generation. In this paper, we propose RealCompo, a new training-free and transferred-friendly text-to-image generation framework, which aims to leverage the respective advantages of text-to-image models and spatial-aware image diffusion models (e.g., layout, keypoints and segmentation maps) to enhance both realism and compositionality of the generated images. An intuitive and novel balancer is proposed to dynamically balance the strengths of the two models in denoising process, allowing plug-and-play use of any model without extra training. Extensive experiments show that our RealCompo consistently outperforms state-of-the-art text-to-image models and spatial-aware image diffusion models in multiple-object compositional generation while keeping satisfactory realism and compositionality of the generated images. Notably, our RealCompo can be seamlessly extended with a wide range of spatial-aware image diffusion models and stylized diffusion models. Our code is available at: https://github.com/YangLing0818/RealCompo
- Abstract(参考訳): 拡散モデルはテキスト・画像生成において顕著な進歩を遂げた。
しかし、既存のモデルでは、複数オブジェクトの合成生成に直面する場合、多くの困難がある。
本稿では,テキスト・ツー・イメージ・モデルと空間認識画像拡散モデル(例えば,レイアウト,キーポイント,セグメンテーションマップ)のそれぞれの利点を活用して,生成した画像のリアリズムと構成性を両立することを目的とした,トレーニングフリーで移動しやすい新しいテキスト・ツー・イメージ生成フレームワークであるRealCompoを提案する。
直感的で斬新なバランサが提案され、デノナイズプロセスにおいて2つのモデルの強度を動的にバランスさせ、任意のモデルのプラグアンドプレイを余分な訓練なしで使用できるようにする。
広汎な実験により、RealCompoは、生成した画像の良好なリアリズムと合成性を保ちながら、最先端のテキスト画像モデルと空間認識画像拡散モデルを多目的合成生成で一貫して上回っていることが示された。
特に、RealCompoは、幅広い空間認識画像拡散モデルとスタイル化された拡散モデルでシームレスに拡張できる。
私たちのコードは、https://github.com/YangLing0818/RealCompoで利用可能です。
関連論文リスト
- DEEM: Diffusion Models Serve as the Eyes of Large Language Models for Image Perception [66.88792390480343]
本稿では,拡散モデルの生成的フィードバックを利用して画像エンコーダのセマンティックな分布を整合させる,シンプルで効果的なアプローチであるDEEMを提案する。
DEEMは、訓練可能なパラメータを少なくし、事前訓練データが少なく、ベースモデルのサイズを小さくし、幻覚を緩和するための強化された堅牢性と優れた能力を示す。
論文 参考訳(メタデータ) (2024-05-24T05:46:04Z) - MaxFusion: Plug&Play Multi-Modal Generation in Text-to-Image Diffusion Models [34.611309081801345]
大規模な拡散ベースのテキスト・ツー・イメージ(T2I)モデルでは、テキスト・ツー・イメージ生成に印象的な生成能力がある。
本稿では,最小限の計算量で新しいタスクにまたがって生成モデルを拡張するための新しい手法を提案する。
論文 参考訳(メタデータ) (2024-04-15T17:55:56Z) - Prompt-Propose-Verify: A Reliable Hand-Object-Interaction Data
Generation Framework using Foundational Models [0.0]
テキストプロンプトに条件付けされた拡散モデルは、複雑な詳細で現実的な画像を生成する。
しかし、これらの事前訓練されたモデルのほとんどは、手や歯などの人間の特徴に関して、正確な画像を生成することができない。
論文 参考訳(メタデータ) (2023-12-23T12:59:22Z) - Steered Diffusion: A Generalized Framework for Plug-and-Play Conditional
Image Synthesis [62.07413805483241]
Steered Diffusionは、無条件生成のために訓練された拡散モデルを用いたゼロショット条件画像生成のためのフレームワークである。
塗装,着色,テキスト誘導セマンティック編集,画像超解像などのタスクに対して,ステアリング拡散を用いた実験を行った。
論文 参考訳(メタデータ) (2023-09-30T02:03:22Z) - Person Image Synthesis via Denoising Diffusion Model [116.34633988927429]
本研究では,高忠実度人物画像合成に拡散モデルをいかに応用できるかを示す。
2つの大規模ベンチマークとユーザスタディの結果は、挑戦的なシナリオ下で提案したアプローチのフォトリアリズムを実証している。
論文 参考訳(メタデータ) (2022-11-22T18:59:50Z) - Compositional Visual Generation with Composable Diffusion Models [80.75258849913574]
拡散モデルを用いた構成生成のための代替的な構造的アプローチを提案する。
画像は拡散モデルの集合を構成することで生成され、それぞれが画像の特定のコンポーネントをモデル化する。
提案手法は, トレーニングで見られるものよりもはるかに複雑なシーンを, テスト時に生成することができる。
論文 参考訳(メタデータ) (2022-06-03T17:47:04Z) - DiVAE: Photorealistic Images Synthesis with Denoising Diffusion Decoder [73.1010640692609]
本稿では,拡散デコーダ(DiVAE)を用いたVQ-VAEアーキテクチャモデルを提案する。
我々のモデルは最先端の成果を達成し、さらに多くのフォトリアリスティックな画像を生成する。
論文 参考訳(メタデータ) (2022-06-01T10:39:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。