論文の概要: How Diffusion Models Learn to Factorize and Compose
- arxiv url: http://arxiv.org/abs/2408.13256v1
- Date: Fri, 23 Aug 2024 17:59:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-26 14:11:01.007499
- Title: How Diffusion Models Learn to Factorize and Compose
- Title(参考訳): 拡散モデルがいかにして分解と構成を学ぶか
- Authors: Qiyao Liang, Ziming Liu, Mitchell Ostrow, Ila Fiete,
- Abstract要約: 拡散モデルは、トレーニングセットに表示されない可能性のある要素を組み合わせた、フォトリアリスティックな画像を生成することができる。
本研究では,拡散モデルが構成可能な特徴の意味的意味的・要因的表現を学習するかどうかを考察する。
- 参考スコア(独自算出の注目度): 14.161975556325796
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Diffusion models are capable of generating photo-realistic images that combine elements which likely do not appear together in the training set, demonstrating the ability to compositionally generalize. Nonetheless, the precise mechanism of compositionality and how it is acquired through training remains elusive. Inspired by cognitive neuroscientific approaches, we consider a highly reduced setting to examine whether and when diffusion models learn semantically meaningful and factorized representations of composable features. We performed extensive controlled experiments on conditional Denoising Diffusion Probabilistic Models (DDPMs) trained to generate various forms of 2D Gaussian data. We found that the models learn factorized but not fully continuous manifold representations for encoding continuous features of variation underlying the data. With such representations, models demonstrate superior feature compositionality but limited ability to interpolate over unseen values of a given feature. Our experimental results further demonstrate that diffusion models can attain compositionality with few compositional examples, suggesting a more efficient way to train DDPMs. Finally, we connect manifold formation in diffusion models to percolation theory in physics, offering insight into the sudden onset of factorized representation learning. Our thorough toy experiments thus contribute a deeper understanding of how diffusion models capture compositional structure in data.
- Abstract(参考訳): 拡散モデルは、トレーニングセットに一緒に現れない可能性のある要素を組み合わせたフォトリアリスティック画像を生成することができ、構成的に一般化する能力を示す。
それでも、構成性の正確なメカニズムと、それがいかにトレーニングによって獲得されるかは、いまだ解明されていない。
認知神経科学的なアプローチに触発されて、拡散モデルが構成可能な特徴の意味的意味的・因果的表現を学習するかどうかを調べるために、高度に縮小された設定を考える。
様々な2次元ガウスデータを生成するために訓練された条件付き拡散確率モデル(DDPM)について広範囲に制御実験を行った。
その結果,データに基づく変動の連続的な特徴を符号化するために,モデルが分解されるが完全連続な多様体表現を学習することが判明した。
このような表現では、モデルは優れた特徴合成性を示すが、ある特徴の見えない値を補間する能力は限定的である。
さらに, 実験結果から, 拡散モデルが構成例が少なく, 構成性が得られることが示され, DDPMの訓練方法がより効率的であることが示唆された。
最後に、拡散モデルの多様体形成と物理学のパーコレーション理論を結びつけ、因子化表現学習の突然の開始についての洞察を提供する。
これにより, 拡散モデルがデータ中の構成構造をどのように捉えているか, より深く理解することができる。
関連論文リスト
- Diffusion Models Learn Low-Dimensional Distributions via Subspace Clustering [15.326641037243006]
拡散モデルは画像分布を効果的に学習し、新しいサンプルを生成する。
我々は、この現象に関する理論的な洞察を、重要な経験的観測を利用して提供する。
基礎となる分布を学習するのに必要となるサンプルの最小数は、本質的な次元と線形にスケールすることを示す。
論文 参考訳(メタデータ) (2024-09-04T04:14:02Z) - Variational Distillation of Diffusion Policies into Mixture of Experts [26.315682445979302]
本研究は, 拡散反応をエキスパート混合体 (MoE) に蒸留する新しい方法である変動拡散蒸留 (VDD) を導入する。
拡散モデル(英: Diffusion Models)は、複雑なマルチモーダル分布を正確に学習し、表現する能力があるため、生成モデリングにおける現在の最先端技術である。
VDDは、事前学習した拡散モデルをMoEモデルに蒸留し、拡散モデルの表現性を混合モデルの利点と組み合わせる最初の方法である。
論文 参考訳(メタデータ) (2024-06-18T12:15:05Z) - A Phase Transition in Diffusion Models Reveals the Hierarchical Nature
of Data [55.748186000425996]
最近の進歩は、拡散モデルが高品質な画像を生成することを示している。
我々はこの現象を階層的なデータ生成モデルで研究する。
本分析は拡散モデルにおける時間とスケールの関係を特徴付ける。
論文 参考訳(メタデータ) (2024-02-26T19:52:33Z) - Training Class-Imbalanced Diffusion Model Via Overlap Optimization [55.96820607533968]
実世界のデータセットで訓練された拡散モデルは、尾クラスの忠実度が劣ることが多い。
拡散モデルを含む深い生成モデルは、豊富な訓練画像を持つクラスに偏りがある。
本研究では,異なるクラスに対する合成画像の分布の重複を最小限に抑えるために,コントラスト学習に基づく手法を提案する。
論文 参考訳(メタデータ) (2024-02-16T16:47:21Z) - Diff-Instruct: A Universal Approach for Transferring Knowledge From
Pre-trained Diffusion Models [77.83923746319498]
本稿では,任意の生成モデルの学習を指導するDiff-Instructというフレームワークを提案する。
Diff-Instructは、最先端の単一ステップ拡散モデルであることを示す。
GANモデルの精製実験により、Diff-InstructはGANモデルの事前訓練されたジェネレータを一貫して改善できることが示されている。
論文 参考訳(メタデータ) (2023-05-29T04:22:57Z) - Bi-Noising Diffusion: Towards Conditional Diffusion Models with
Generative Restoration Priors [64.24948495708337]
本研究では,事前訓練した非条件拡散モデルを用いて,予測サンプルをトレーニングデータ多様体に導入する手法を提案する。
我々は,超解像,着色,乱流除去,画像劣化作業におけるアプローチの有効性を実証するための総合的な実験を行った。
論文 参考訳(メタデータ) (2022-12-14T17:26:35Z) - Unifying Diffusion Models' Latent Space, with Applications to
CycleDiffusion and Guidance [95.12230117950232]
関係領域で独立に訓練された2つの拡散モデルから共通潜時空間が現れることを示す。
テキスト・画像拡散モデルにCycleDiffusionを適用することで、大規模なテキスト・画像拡散モデルがゼロショット画像・画像拡散エディタとして使用できることを示す。
論文 参考訳(メタデータ) (2022-10-11T15:53:52Z) - Compositional Visual Generation with Composable Diffusion Models [80.75258849913574]
拡散モデルを用いた構成生成のための代替的な構造的アプローチを提案する。
画像は拡散モデルの集合を構成することで生成され、それぞれが画像の特定のコンポーネントをモデル化する。
提案手法は, トレーニングで見られるものよりもはるかに複雑なシーンを, テスト時に生成することができる。
論文 参考訳(メタデータ) (2022-06-03T17:47:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。