論文の概要: Reduce, Reuse, Recycle: Compositional Generation with Energy-Based
Diffusion Models and MCMC
- arxiv url: http://arxiv.org/abs/2302.11552v2
- Date: Mon, 5 Jun 2023 15:40:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-07 02:45:34.137977
- Title: Reduce, Reuse, Recycle: Compositional Generation with Energy-Based
Diffusion Models and MCMC
- Title(参考訳): 省エネルギー・再利用・リサイクル:エネルギー拡散モデルとMCMCによる構成生成
- Authors: Yilun Du, Conor Durkan, Robin Strudel, Joshua B. Tenenbaum, Sander
Dieleman, Rob Fergus, Jascha Sohl-Dickstein, Arnaud Doucet, Will Grathwohl
- Abstract要約: 拡散モデルは、多くの領域において、生成モデリングの一般的なアプローチとなっている。
本稿では,新しい構成演算子の利用を可能にする拡散モデルのエネルギーベースパラメータ化を提案する。
これらのサンプルは、幅広い問題にまたがって構成生成の顕著な改善につながっている。
- 参考スコア(独自算出の注目度): 90.44691478696522
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Since their introduction, diffusion models have quickly become the prevailing
approach to generative modeling in many domains. They can be interpreted as
learning the gradients of a time-varying sequence of log-probability density
functions. This interpretation has motivated classifier-based and
classifier-free guidance as methods for post-hoc control of diffusion models.
In this work, we build upon these ideas using the score-based interpretation of
diffusion models, and explore alternative ways to condition, modify, and reuse
diffusion models for tasks involving compositional generation and guidance. In
particular, we investigate why certain types of composition fail using current
techniques and present a number of solutions. We conclude that the sampler (not
the model) is responsible for this failure and propose new samplers, inspired
by MCMC, which enable successful compositional generation. Further, we propose
an energy-based parameterization of diffusion models which enables the use of
new compositional operators and more sophisticated, Metropolis-corrected
samplers. Intriguingly we find these samplers lead to notable improvements in
compositional generation across a wide set of problems such as
classifier-guided ImageNet modeling and compositional text-to-image generation.
- Abstract(参考訳): 導入以来、拡散モデルは急速に多くの領域における生成モデリングへの一般的なアプローチとなっている。
これらは、ログ確率密度関数の時間変化列の勾配を学ぶと解釈できる。
この解釈は、拡散モデルのポストホック制御方法として、分類器ベースおよび分類器フリーガイダンスを動機付けている。
本研究は, 拡散モデルのスコアに基づく解釈を用いてこれらの概念を構築し, 構成生成と指導を伴うタスクの拡散モデルを条件づけ, 修正, 再利用する方法を検討する。
特に, 現状の技術を用いて, ある種の構成が失敗する理由を考察し, 多数の解を提示する。
この失敗の原因はサンプル(モデルではない)であり,MCMCにインスパイアされた新しいサンプルの提案である。
さらに,新しい構成演算子と,より洗練されたメトロポリス補正試料を用いた拡散モデルのエネルギーベースパラメータ化を提案する。
興味深いことに、これらのサンプルは、分類器誘導画像ネットモデリングや合成テキスト・画像生成など、幅広い問題において、構成生成の顕著な改善につながっている。
関連論文リスト
- Energy-Based Diffusion Language Models for Text Generation [126.23425882687195]
エネルギーベース拡散言語モデル(Energy-based Diffusion Language Model, EDLM)は、拡散ステップごとに全シーケンスレベルで動作するエネルギーベースモデルである。
我々のフレームワークは、既存の拡散モデルよりも1.3$times$のサンプリングスピードアップを提供する。
論文 参考訳(メタデータ) (2024-10-28T17:25:56Z) - Aggregation of Multi Diffusion Models for Enhancing Learned Representations [4.126721111013567]
本稿では, Aggregation of Multi Diffusion Models (AMDM) を提案する。
AMDMは、複数の拡散モデルから特定のモデルに特徴を合成し、学習された表現を拡張して、きめ細かい制御のために特定の特徴を活性化する。
実験の結果,AMDMはトレーニング時間や推論時間を必要とせず,微粒化制御を著しく改善することがわかった。
論文 参考訳(メタデータ) (2024-10-02T06:16:06Z) - Steered Diffusion: A Generalized Framework for Plug-and-Play Conditional
Image Synthesis [62.07413805483241]
Steered Diffusionは、無条件生成のために訓練された拡散モデルを用いたゼロショット条件画像生成のためのフレームワークである。
塗装,着色,テキスト誘導セマンティック編集,画像超解像などのタスクに対して,ステアリング拡散を用いた実験を行った。
論文 参考訳(メタデータ) (2023-09-30T02:03:22Z) - Steerable Conditional Diffusion for Out-of-Distribution Adaptation in Medical Image Reconstruction [75.91471250967703]
我々は、ステアブル条件拡散と呼ばれる新しいサンプリングフレームワークを導入する。
このフレームワークは、利用可能な測定によって提供される情報のみに基づいて、画像再構成と並行して拡散モデルを適用する。
様々な画像モダリティにまたがるアウト・オブ・ディストリビューション性能の大幅な向上を実現した。
論文 参考訳(メタデータ) (2023-08-28T08:47:06Z) - A Reparameterized Discrete Diffusion Model for Text Generation [39.0145272152805]
本研究は, 離散拡散確率モデルと自然言語生成への応用に関する研究である。
離散拡散過程からサンプリングの代替的かつ等価な定式化を導出する。
本研究では,既存の拡散モデルに対して,テキスト生成能力を評価するための広範囲な実験を行った。
論文 参考訳(メタデータ) (2023-02-11T16:26:57Z) - A Survey on Generative Diffusion Model [75.93774014861978]
拡散モデルは、深層生成モデルの新たなクラスである。
時間を要する反復生成過程や高次元ユークリッド空間への閉じ込めなど、いくつかの制限がある。
本調査では,拡散モデルの向上を目的とした高度な手法を多数提示する。
論文 参考訳(メタデータ) (2022-09-06T16:56:21Z) - Improving the Reconstruction of Disentangled Representation Learners via Multi-Stage Modeling [54.94763543386523]
現在の自己エンコーダに基づく非絡み合い表現学習法は、(集合体)後部をペナルティ化し、潜伏因子の統計的独立を促進することで、非絡み合いを実現する。
本稿では,不整合因子をペナルティに基づく不整合表現学習法を用いて学習する,新しい多段階モデリング手法を提案する。
次に、低品質な再構成を、欠落した関連潜伏変数をモデル化するために訓練された別の深層生成モデルで改善する。
論文 参考訳(メタデータ) (2020-10-25T18:51:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。