論文の概要: Compositional Visual Generation with Composable Diffusion Models
- arxiv url: http://arxiv.org/abs/2206.01714v1
- Date: Fri, 3 Jun 2022 17:47:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-06 13:00:16.612224
- Title: Compositional Visual Generation with Composable Diffusion Models
- Title(参考訳): 構成可能拡散モデルによる合成視覚生成
- Authors: Nan Liu, Shuang Li, Yilun Du, Antonio Torralba, Joshua B. Tenenbaum
- Abstract要約: 拡散モデルを用いた構成生成のための代替的な構造的アプローチを提案する。
画像は拡散モデルの集合を構成することで生成され、それぞれが画像の特定のコンポーネントをモデル化する。
提案手法は, トレーニングで見られるものよりもはるかに複雑なシーンを, テスト時に生成することができる。
- 参考スコア(独自算出の注目度): 80.75258849913574
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large text-guided diffusion models, such as DALLE-2, are able to generate
stunning photorealistic images given natural language descriptions. While such
models are highly flexible, they struggle to understand the composition of
certain concepts, such as confusing the attributes of different objects or
relations between objects. In this paper, we propose an alternative structured
approach for compositional generation using diffusion models. An image is
generated by composing a set of diffusion models, with each of them modeling a
certain component of the image. To do this, we interpret diffusion models as
energy-based models in which the data distributions defined by the energy
functions may be explicitly combined. The proposed method can generate scenes
at test time that are substantially more complex than those seen in training,
composing sentence descriptions, object relations, human facial attributes, and
even generalizing to new combinations that are rarely seen in the real world.
We further illustrate how our approach may be used to compose pre-trained
text-guided diffusion models and generate photorealistic images containing all
the details described in the input descriptions, including the binding of
certain object attributes that have been shown difficult for DALLE-2. These
results point to the effectiveness of the proposed method in promoting
structured generalization for visual generation.
- Abstract(参考訳): dalle-2のような大きなテキスト誘導拡散モデルは、自然言語記述によって素晴らしいフォトリアリスティックな画像を生成することができる。
このようなモデルは非常に柔軟であるが、異なるオブジェクトの属性やオブジェクト間の関係を混乱させるような特定の概念の構成を理解するのに苦労する。
本稿では,拡散モデルを用いた構成生成のための代替的な構造的アプローチを提案する。
画像は拡散モデルの集合を構成することで生成され、それぞれが画像の特定のコンポーネントをモデル化する。
そこで我々は拡散モデルをエネルギーベースモデルとして解釈し、エネルギー関数によって定義されたデータ分布を明示的に組み合わせることができる。
提案手法は, 実世界ではほとんど見られない新しい組み合わせまで一般化することさえ可能であり, 学習中の文章記述, 対象関係, 人間の顔属性を合成し, テスト時間にかなり複雑なシーンを生成できる。
さらに,本手法を用いて事前学習したテキスト誘導拡散モデルを構築し,DALLE-2では困難であった特定のオブジェクト属性の結合を含む,入力記述に記述されたすべての詳細を含むフォトリアリスティック画像を生成する方法について述べる。
これらの結果は、視覚生成のための構造化一般化を促進するための提案手法の有効性を示している。
関連論文リスト
- Human-Object Interaction Detection Collaborated with Large Relation-driven Diffusion Models [65.82564074712836]
テキストと画像の拡散モデルに光を流す新しいHOI検出器であるDIFfusionHOIを紹介する。
まず、埋め込み空間における人間と物体の関係パターンの表現をインバージョンベースで学習する戦略を考案する。
これらの学習された関係埋め込みはテキストのプロンプトとして機能し、スタイア拡散モデルが特定の相互作用を記述する画像を生成する。
論文 参考訳(メタデータ) (2024-10-26T12:00:33Z) - Progressive Compositionality In Text-to-Image Generative Models [33.18510121342558]
拡散モデルのコントラスト学習のための新しいカリキュラムであるEvoGenを提案する。
本研究では,大規模言語モデル(LLM)を活用し,現実的で複雑なシナリオを構成する。
また、VQA(Visual-Question Answering)システムと拡散モデルを用いて、コントラストデータセット(ConPair)を自動的にキュレートする。
論文 参考訳(メタデータ) (2024-10-22T05:59:29Z) - IterComp: Iterative Composition-Aware Feedback Learning from Model Gallery for Text-to-Image Generation [70.8833857249951]
IterCompは、複数のモデルから合成対応モデルの好みを集約する新しいフレームワークである。
クローズドループ方式で構成性を向上する反復的フィードバック学習法を提案する。
IterCompは、拡散モデルと合成生成のための報酬フィードバック学習の新たな研究の道を開く。
論文 参考訳(メタデータ) (2024-10-09T17:59:13Z) - How Diffusion Models Learn to Factorize and Compose [14.161975556325796]
拡散モデルは、トレーニングセットに表示されない可能性のある要素を組み合わせた、フォトリアリスティックな画像を生成することができる。
本研究では,拡散モデルが構成可能な特徴の意味的意味的・要因的表現を学習するかどうかを考察する。
論文 参考訳(メタデータ) (2024-08-23T17:59:03Z) - DiffusionPID: Interpreting Diffusion via Partial Information Decomposition [24.83767778658948]
入力テキストプロンプトを基本成分に分解するために,情報理論の原理を適用した。
個々のトークンとその相互作用が生成した画像をどのように形成するかを分析する。
PIDはテキスト・画像拡散モデルの評価と診断のための強力なツールであることを示す。
論文 参考訳(メタデータ) (2024-06-07T18:17:17Z) - Diffexplainer: Towards Cross-modal Global Explanations with Diffusion Models [51.21351775178525]
DiffExplainerは、言語ビジョンモデルを活用することで、マルチモーダルなグローバルな説明可能性を実現する新しいフレームワークである。
最適化されたテキストプロンプトに条件付けされた拡散モデルを使用し、クラス出力を最大化する画像を合成する。
生成した視覚的記述の分析により、バイアスと突発的特徴の自動識別が可能になる。
論文 参考訳(メタデータ) (2024-04-03T10:11:22Z) - A Phase Transition in Diffusion Models Reveals the Hierarchical Nature
of Data [55.748186000425996]
最近の進歩は、拡散モデルが高品質な画像を生成することを示している。
我々はこの現象を階層的なデータ生成モデルで研究する。
本分析は拡散モデルにおける時間とスケールの関係を特徴付ける。
論文 参考訳(メタデータ) (2024-02-26T19:52:33Z) - Person Image Synthesis via Denoising Diffusion Model [116.34633988927429]
本研究では,高忠実度人物画像合成に拡散モデルをいかに応用できるかを示す。
2つの大規模ベンチマークとユーザスタディの結果は、挑戦的なシナリオ下で提案したアプローチのフォトリアリズムを実証している。
論文 参考訳(メタデータ) (2022-11-22T18:59:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。