論文の概要: Compositional Visual Generation with Composable Diffusion Models
- arxiv url: http://arxiv.org/abs/2206.01714v1
- Date: Fri, 3 Jun 2022 17:47:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-06 13:00:16.612224
- Title: Compositional Visual Generation with Composable Diffusion Models
- Title(参考訳): 構成可能拡散モデルによる合成視覚生成
- Authors: Nan Liu, Shuang Li, Yilun Du, Antonio Torralba, Joshua B. Tenenbaum
- Abstract要約: 拡散モデルを用いた構成生成のための代替的な構造的アプローチを提案する。
画像は拡散モデルの集合を構成することで生成され、それぞれが画像の特定のコンポーネントをモデル化する。
提案手法は, トレーニングで見られるものよりもはるかに複雑なシーンを, テスト時に生成することができる。
- 参考スコア(独自算出の注目度): 80.75258849913574
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large text-guided diffusion models, such as DALLE-2, are able to generate
stunning photorealistic images given natural language descriptions. While such
models are highly flexible, they struggle to understand the composition of
certain concepts, such as confusing the attributes of different objects or
relations between objects. In this paper, we propose an alternative structured
approach for compositional generation using diffusion models. An image is
generated by composing a set of diffusion models, with each of them modeling a
certain component of the image. To do this, we interpret diffusion models as
energy-based models in which the data distributions defined by the energy
functions may be explicitly combined. The proposed method can generate scenes
at test time that are substantially more complex than those seen in training,
composing sentence descriptions, object relations, human facial attributes, and
even generalizing to new combinations that are rarely seen in the real world.
We further illustrate how our approach may be used to compose pre-trained
text-guided diffusion models and generate photorealistic images containing all
the details described in the input descriptions, including the binding of
certain object attributes that have been shown difficult for DALLE-2. These
results point to the effectiveness of the proposed method in promoting
structured generalization for visual generation.
- Abstract(参考訳): dalle-2のような大きなテキスト誘導拡散モデルは、自然言語記述によって素晴らしいフォトリアリスティックな画像を生成することができる。
このようなモデルは非常に柔軟であるが、異なるオブジェクトの属性やオブジェクト間の関係を混乱させるような特定の概念の構成を理解するのに苦労する。
本稿では,拡散モデルを用いた構成生成のための代替的な構造的アプローチを提案する。
画像は拡散モデルの集合を構成することで生成され、それぞれが画像の特定のコンポーネントをモデル化する。
そこで我々は拡散モデルをエネルギーベースモデルとして解釈し、エネルギー関数によって定義されたデータ分布を明示的に組み合わせることができる。
提案手法は, 実世界ではほとんど見られない新しい組み合わせまで一般化することさえ可能であり, 学習中の文章記述, 対象関係, 人間の顔属性を合成し, テスト時間にかなり複雑なシーンを生成できる。
さらに,本手法を用いて事前学習したテキスト誘導拡散モデルを構築し,DALLE-2では困難であった特定のオブジェクト属性の結合を含む,入力記述に記述されたすべての詳細を含むフォトリアリスティック画像を生成する方法について述べる。
これらの結果は、視覚生成のための構造化一般化を促進するための提案手法の有効性を示している。
関連論文リスト
- A Phase Transition in Diffusion Models Reveals the Hierarchical Nature
of Data [55.748186000425996]
最近の進歩は、拡散モデルが高品質な画像を生成することを示している。
我々はこの現象を階層的なデータ生成モデルで研究する。
本分析は拡散モデルにおける時間とスケールの関係を特徴付ける。
論文 参考訳(メタデータ) (2024-02-26T19:52:33Z) - DreamDistribution: Prompt Distribution Learning for Text-to-Image
Diffusion Models [53.17454737232668]
本稿では,事前学習したT2I拡散モデルを用いて,ソフトプロンプトの集合を学習する解を提案する。
これらのプロンプトは、テキストガイドによる編集機能と、複数のディストリビューション間の変動と混合を制御する柔軟性を提供する。
また,テキスト・トゥ・3Dなどの他のタスクに対して,学習したプロンプト分布の適応性を示す。
論文 参考訳(メタデータ) (2023-12-21T12:11:00Z) - CONFORM: Contrast is All You Need For High-Fidelity Text-to-Image
Diffusion Models [48.10798436003449]
テキスト間の拡散モデルによって生成された画像は、提供されたテキストプロンプトの意味的な意図を忠実に表現するとは限らない。
私たちの研究は、対照的な文脈でこの課題に取り組むことによって、新しい視点を導入します。
さまざまなシナリオにまたがって広範な実験を行い、それぞれがオブジェクト、属性、シーンのユニークな組み合わせを含む。
論文 参考訳(メタデータ) (2023-12-11T01:42:15Z) - Interpretable Diffusion via Information Decomposition [45.23329246150018]
拡散モデルにより学習された関係を,拡散と情報分解の正確な関係に注意して照らし出す。
拡散モデルでは、相互情報の自然な非負分解が出現し、画像中の単語と画素間の情報的関係を定量化できることを示す。
論文 参考訳(メタデータ) (2023-10-12T01:40:20Z) - ControlCom: Controllable Image Composition using Diffusion Model [45.48263800282992]
1つの拡散モデルにおいて4つのタスクを統一する制御可能な画像合成法を提案する。
また,拡散モデルにおける前景の詳細を強化するために,局所的な拡張モジュールを提案する。
提案手法は,公開ベンチマークと実世界のデータの両方を用いて評価する。
論文 参考訳(メタデータ) (2023-08-19T14:56:44Z) - Interactive Fashion Content Generation Using LLMs and Latent Diffusion
Models [0.0]
ファッション可能な画像生成は、世界中の多様なファッションのイメージを合成することを目的としている。
拡散モデルとエネルギーベースモデル(EBM)の等価性を利用する手法を提案する。
以上の結果から,LLMを用いて潜在拡散モデルのプロンプトを洗練させることにより,グローバルな創造的,文化的に多様化したファッションスタイルの創出を支援することが示唆された。
論文 参考訳(メタデータ) (2023-05-15T18:38:25Z) - Reduce, Reuse, Recycle: Compositional Generation with Energy-Based
Diffusion Models and MCMC [106.06185677214353]
拡散モデルは、多くの領域において、生成モデリングの一般的なアプローチとなっている。
本稿では,新しい構成演算子の利用を可能にする拡散モデルのエネルギーベースパラメータ化を提案する。
これらのサンプルは、幅広い問題にまたがって構成生成の顕著な改善につながっている。
論文 参考訳(メタデータ) (2023-02-22T18:48:46Z) - Person Image Synthesis via Denoising Diffusion Model [116.34633988927429]
本研究では,高忠実度人物画像合成に拡散モデルをいかに応用できるかを示す。
2つの大規模ベンチマークとユーザスタディの結果は、挑戦的なシナリオ下で提案したアプローチのフォトリアリズムを実証している。
論文 参考訳(メタデータ) (2022-11-22T18:59:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。