論文の概要: A Phase Transition in Diffusion Models Reveals the Hierarchical Nature
of Data
- arxiv url: http://arxiv.org/abs/2402.16991v1
- Date: Mon, 26 Feb 2024 19:52:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 18:41:32.717673
- Title: A Phase Transition in Diffusion Models Reveals the Hierarchical Nature
of Data
- Title(参考訳): 拡散モデルの相転移はデータの階層性を明らかにする
- Authors: Antonio Sclocchi, Alessandro Favero, Matthieu Wyart
- Abstract要約: 最近の進歩は、拡散モデルが高品質な画像を生成することを示している。
我々はこの現象を階層的なデータ生成モデルで研究する。
本分析は拡散モデルにおける時間とスケールの関係を特徴付ける。
- 参考スコア(独自算出の注目度): 55.748186000425996
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding the structure of real data is paramount in advancing modern
deep-learning methodologies. Natural data such as images are believed to be
composed of features organised in a hierarchical and combinatorial manner,
which neural networks capture during learning. Recent advancements show that
diffusion models can generate high-quality images, hinting at their ability to
capture this underlying structure. We study this phenomenon in a hierarchical
generative model of data. We find that the backward diffusion process acting
after a time $t$ is governed by a phase transition at some threshold time,
where the probability of reconstructing high-level features, like the class of
an image, suddenly drops. Instead, the reconstruction of low-level features,
such as specific details of an image, evolves smoothly across the whole
diffusion process. This result implies that at times beyond the transition, the
class has changed but the generated sample may still be composed of low-level
elements of the initial image. We validate these theoretical insights through
numerical experiments on class-unconditional ImageNet diffusion models. Our
analysis characterises the relationship between time and scale in diffusion
models and puts forward generative models as powerful tools to model
combinatorial data properties.
- Abstract(参考訳): 実際のデータ構造を理解することは、現代のディープラーニング手法の進展において最重要である。
画像などの自然データは、階層的および組合せ的な方法で組織化された特徴で構成されており、学習中にニューラルネットワークがキャプチャする。
最近の進歩は、拡散モデルが高品質な画像を生成できることを示し、その基盤となる構造を捉える能力を示している。
我々はこの現象を階層的データ生成モデルで研究する。
画像のクラスのようなハイレベルな特徴を再構築する確率が突然低下する、あるしきい値時の位相遷移によって、t$ の時間後に作用する後方拡散過程が支配されることがわかった。
代わりに、画像の特定の詳細のような低レベルの特徴の再構成は、拡散過程全体にわたってスムーズに進化する。
この結果は、遷移を超えるとクラスが変わったが、生成されたサンプルは初期画像の低レベル要素で構成される可能性があることを示している。
我々は,これらの理論的知見を,クラス非条件画像ネット拡散モデルに関する数値実験により検証する。
本分析では,拡散モデルにおける時間とスケールの関係を特徴付け,組合せデータ特性をモデル化するための強力なツールとして生成モデルを前進させる。
関連論文リスト
- Probing the Latent Hierarchical Structure of Data via Diffusion Models [47.56642214162824]
拡散モデルを用いた実験は,データの潜伏構造を探索するための有望なツールであることを示す。
我々はこの予測を、最先端拡散モデルを用いてテキストと画像の両方で確認する。
以上の結果から,潜在変数がデータにどのように現れるかを示し,これらの影響を実データで測定する方法を確立した。
論文 参考訳(メタデータ) (2024-10-17T17:08:39Z) - How Diffusion Models Learn to Factorize and Compose [14.161975556325796]
拡散モデルは、トレーニングセットに表示されない可能性のある要素を組み合わせた、フォトリアリスティックな画像を生成することができる。
本研究では,拡散モデルが構成可能な特徴の意味的意味的・要因的表現を学習するかどうかを考察する。
論文 参考訳(メタデータ) (2024-08-23T17:59:03Z) - Training Class-Imbalanced Diffusion Model Via Overlap Optimization [55.96820607533968]
実世界のデータセットで訓練された拡散モデルは、尾クラスの忠実度が劣ることが多い。
拡散モデルを含む深い生成モデルは、豊富な訓練画像を持つクラスに偏りがある。
本研究では,異なるクラスに対する合成画像の分布の重複を最小限に抑えるために,コントラスト学習に基づく手法を提案する。
論文 参考訳(メタデータ) (2024-02-16T16:47:21Z) - Steered Diffusion: A Generalized Framework for Plug-and-Play Conditional
Image Synthesis [62.07413805483241]
Steered Diffusionは、無条件生成のために訓練された拡散モデルを用いたゼロショット条件画像生成のためのフレームワークである。
塗装,着色,テキスト誘導セマンティック編集,画像超解像などのタスクに対して,ステアリング拡散を用いた実験を行った。
論文 参考訳(メタデータ) (2023-09-30T02:03:22Z) - ChiroDiff: Modelling chirographic data with Diffusion Models [132.5223191478268]
チャーログラフィーデータのための強力なモデルクラスである「拡散確率モデル(Denoising Diffusion Probabilistic Models)」やDDPMを導入している。
我々のモデルは「ChiroDiff」と呼ばれ、非自己回帰的であり、全体論的概念を捉えることを学び、したがって高い時間的サンプリングレートに回復する。
論文 参考訳(メタデータ) (2023-04-07T15:17:48Z) - Compositional Visual Generation with Composable Diffusion Models [80.75258849913574]
拡散モデルを用いた構成生成のための代替的な構造的アプローチを提案する。
画像は拡散モデルの集合を構成することで生成され、それぞれが画像の特定のコンポーネントをモデル化する。
提案手法は, トレーニングで見られるものよりもはるかに複雑なシーンを, テスト時に生成することができる。
論文 参考訳(メタデータ) (2022-06-03T17:47:04Z) - BPLF: A Bi-Parallel Linear Flow Model for Facial Expression Generation
from Emotion Set Images [0.0]
フローベース生成モデルはディープラーニング生成モデルであり、データ分布を明示的に学習することでデータを生成する能力を得る。
本稿では、感情セット画像から顔の感情を生成するための双方向線形フローモデルを構築した。
本稿では、現在の顔の感情画像の公開データセットを整理し、新しい感情データを作成し、このデータセットを通してモデルを検証した。
論文 参考訳(メタデータ) (2021-05-27T09:37:09Z) - Understanding invariance via feedforward inversion of discriminatively
trained classifiers [30.23199531528357]
過去の研究では、出力ログに余計な視覚的詳細が残っていることが判明した。
極めて高い忠実度を再現するフィードフォワードインバージョンモデルを開発する。
私たちのアプローチはBigGANをベースにしており、1ホットクラスのラベルの代わりにロジットのコンディショニングを行います。
論文 参考訳(メタデータ) (2021-03-15T17:56:06Z) - Counterfactual Generative Networks [59.080843365828756]
画像生成過程を直接監督せずに訓練する独立した因果機構に分解することを提案する。
適切な誘導バイアスを活用することによって、これらのメカニズムは物体の形状、物体の質感、背景を解き放つ。
その結果, 偽画像は, 元の分類タスクにおける性能の低下を伴い, 分散性が向上することが示された。
論文 参考訳(メタデータ) (2021-01-15T10:23:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。