論文の概要: Diffusion Models, Denoiser Architecture and Creativity
- arxiv url: http://arxiv.org/abs/2605.16415v1
- Date: Wed, 13 May 2026 16:45:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:46.307749
- Title: Diffusion Models, Denoiser Architecture and Creativity
- Title(参考訳): 拡散モデル、デノイザーアーキテクチャ、創造性
- Authors: Itamar Levine, Yair Weiss,
- Abstract要約: 人気の高いUNET Denoiserアーキテクチャの小さな変更が、クリエイティビティの非常に異なる形態をもたらすことを示す。
以上の結果から,デノイザアーキテクチャの帰納バイアスが真のターゲット分布と強く一致している場合にのみ拡散モデルが成功することを示す。
- 参考スコア(独自算出の注目度): 9.489363101382816
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The creativity of diffusion models refers to their ability to generate highly realistic images that are different from their training data. Creativity is somewhat surprising since it is known that if the denoiser used in the diffusion model is the Bayes optimal denoiser for a given training set, then the model will simply copy the training samples. In this paper we present empirical and theoretical results that suggest that creativity in diffusion models is due to an interaction between the denoiser architecture and the target distribution. Theoretically, we give explicit forms for the distribution of generated samples as a function of the target distribution and the denoiser architecture for three different denoiser architectures (linear, polynomial, bottleneck). Empirically, we show that small changes in the popular UNET denoiser architecture leads to very different forms of creativity, and these small changes often yield samples that are highly nonrealistic. Taken together, our results show that diffusion models will only be successful if the inductive bias of the denoiser architecture is in strong alignment with the true target distribution.
- Abstract(参考訳): 拡散モデルの創造性は、トレーニングデータとは異なる非常にリアルな画像を生成する能力を指す。
拡散モデルで使用されるデノイザが与えられたトレーニングセットに対してベイズ最適デノイザであるなら、モデルは単にトレーニングサンプルをコピーする。
本稿では,拡散モデルにおける創造性は,デノイザアーキテクチャと対象分布との相互作用に起因することを示唆する経験的,理論的結果を示す。
理論的には、ターゲット分布の関数として生成されたサンプルの分布と、3つの異なるデノイザーアーキテクチャ(線形、多項式、ボトルネック)に対するデノイザーアーキテクチャを明示する。
経験的に、人気のあるUNET denoiserアーキテクチャの小さな変更は、非常に異なる創造性をもたらし、これらの小さな変更は、しばしば非常に非現実的なサンプルを生み出します。
また,本実験の結果から,デノイザアーキテクチャの帰納バイアスが真のターゲット分布と強く一致している場合にのみ拡散モデルが成功することを示した。
関連論文リスト
- Locality in Image Diffusion Models Emerges from Data Statistics [19.257597016636844]
近年の研究では、画像拡散モデルの一般化能力は、トレーニングされたニューラルネットワークの局所特性から生じることが示されている。
深部拡散モデルの局所性が画像データセットの統計的特性として現れることを示す。
理論的および実験的に、この局所性は画像データセットに存在する画素相関から直接生じることを示す。
論文 参考訳(メタデータ) (2025-09-11T17:59:08Z) - Consistent World Models via Foresight Diffusion [56.45012929930605]
我々は、一貫した拡散に基づく世界モデルを学習する上で重要なボトルネックは、最適下予測能力にあると主張している。
本稿では,拡散に基づく世界モデリングフレームワークであるForesight Diffusion(ForeDiff)を提案する。
論文 参考訳(メタデータ) (2025-05-22T10:01:59Z) - DDAE++: Enhancing Diffusion Models Towards Unified Generative and Discriminative Learning [53.27049077100897]
生成前訓練は差別的な表現をもたらし、統一された視覚生成と理解への道を開くことが示されている。
この研究は自己条件付けを導入し、ネットワークに固有のリッチなセマンティクスを内部的に活用し、独自のデコード層をガイドする。
提案手法は、FIDの生成と認識の精度を1%の計算オーバーヘッドで向上させ、多様な拡散アーキテクチャで一般化する。
論文 参考訳(メタデータ) (2025-05-16T08:47:16Z) - Graph Representation Learning with Diffusion Generative Models [0.0]
我々は、グラフデータの意味のある埋め込みを学習するために、オートエンコーダフレームワーク内で離散拡散モデルを訓練する。
エンコーダの出力とデコーダの最初のステップの埋め込みから表現を抽出する。
本手法は,グラフ表現学習に使用する離散拡散モデルの可能性を示す。
論文 参考訳(メタデータ) (2025-01-22T07:12:10Z) - An analytic theory of creativity in convolutional diffusion models [25.013838586673906]
我々は、畳み込み拡散モデルにおける創造性の分析的、解釈可能、予測的理論を得る。
我々のモデルは、創造性の局所的な一貫したパッチモザイク機構を明らかにする。
我々の理論は、事前訓練された自己認識可能なUNetsの出力を部分的に予測する。
論文 参考訳(メタデータ) (2024-12-28T22:33:29Z) - On the Feature Learning in Diffusion Models [26.53807235141923]
本稿では,拡散モデルの学習力学を従来の分類モデルと比較し,分析・比較することを目的とした特徴学習フレームワークを提案する。
我々の理論的分析は、拡散モデルがデノナイジング目的のために、データのよりバランスよく包括的な表現を学習することを奨励していることを示している。
対照的に、分類のためにトレーニングされた類似アーキテクチャを持つニューラルネットワークは、データ内の特定のパターンを学ぶことを優先する傾向があり、多くの場合、簡単に学習できるコンポーネントに焦点を当てる。
論文 参考訳(メタデータ) (2024-12-02T00:41:25Z) - An Overview of Diffusion Models: Applications, Guided Generation, Statistical Rates and Optimization [59.63880337156392]
拡散モデルはコンピュータビジョン、オーディオ、強化学習、計算生物学において大きな成功を収めた。
経験的成功にもかかわらず、拡散モデルの理論は非常に限定的である。
本稿では,前向きな理論や拡散モデルの手法を刺激する理論的露光について述べる。
論文 参考訳(メタデータ) (2024-04-11T14:07:25Z) - Diff-Instruct: A Universal Approach for Transferring Knowledge From
Pre-trained Diffusion Models [77.83923746319498]
本稿では,任意の生成モデルの学習を指導するDiff-Instructというフレームワークを提案する。
Diff-Instructは、最先端の単一ステップ拡散モデルであることを示す。
GANモデルの精製実験により、Diff-InstructはGANモデルの事前訓練されたジェネレータを一貫して改善できることが示されている。
論文 参考訳(メタデータ) (2023-05-29T04:22:57Z) - Hierarchically branched diffusion models leverage dataset structure for
class-conditional generation [0.6800113478497425]
分岐拡散モデルは従来のモデルと同じ拡散過程に依存するが、階層の各分岐について別々に逆拡散を学ぶ。
いくつかのベンチマークと大規模実世界の科学データセットで分岐拡散モデルを広範囲に評価した。
論文 参考訳(メタデータ) (2022-12-21T05:27:23Z) - SinDiffusion: Learning a Diffusion Model from a Single Natural Image [159.4285444680301]
SinDiffusionは1つの自然な画像からパッチの内部分布を捉えるためにデノナイズ拡散モデルを利用する。
SinDiffusionは、2つのコア設計に基づいている。まず、SinDiffusionは、段階的にスケールが成長する複数のモデルではなく、1つのスケールで1つのモデルで訓練されている。
第2に,拡散ネットワークのパッチレベルの受容領域は,画像のパッチ統計を捉える上で重要かつ効果的であることを示す。
論文 参考訳(メタデータ) (2022-11-22T18:00:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。