論文の概要: An analytic theory of creativity in convolutional diffusion models
- arxiv url: http://arxiv.org/abs/2412.20292v1
- Date: Sat, 28 Dec 2024 22:33:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-31 16:02:22.657501
- Title: An analytic theory of creativity in convolutional diffusion models
- Title(参考訳): 畳み込み拡散モデルにおける創造性の解析理論
- Authors: Mason Kamb, Surya Ganguli,
- Abstract要約: 我々は、畳み込み拡散モデルにおける創造性の最初の分析的、解釈可能、予測的理論を得る。
我々の理論は、事前学習された自己認識可能なUNetsの出力を部分的に予測する。
- 参考スコア(独自算出の注目度): 25.013838586673906
- License:
- Abstract: We obtain the first analytic, interpretable and predictive theory of creativity in convolutional diffusion models. Indeed, score-based diffusion models can generate highly creative images that lie far from their training data. But optimal score-matching theory suggests that these models should only be able to produce memorized training examples. To reconcile this theory-experiment gap, we identify two simple inductive biases, locality and equivariance, that: (1) induce a form of combinatorial creativity by preventing optimal score-matching; (2) result in a fully analytic, completely mechanistically interpretable, equivariant local score (ELS) machine that, (3) without any training can quantitatively predict the outputs of trained convolution only diffusion models (like ResNets and UNets) with high accuracy (median $r^2$ of $0.90, 0.91, 0.94$ on CIFAR10, FashionMNIST, and MNIST). Our ELS machine reveals a locally consistent patch mosaic model of creativity, in which diffusion models create exponentially many novel images by mixing and matching different local training set patches in different image locations. Our theory also partially predicts the outputs of pre-trained self-attention enabled UNets (median $r^2 \sim 0.75$ on CIFAR10), revealing an intriguing role for attention in carving out semantic coherence from local patch mosaics.
- Abstract(参考訳): 我々は、畳み込み拡散モデルにおける創造性の最初の分析的、解釈可能、予測的理論を得る。
実際、スコアベースの拡散モデルは、トレーニングデータから遠く離れた、非常に創造的な画像を生成することができる。
しかし、最適スコアマッチング理論は、これらのモデルが記憶されたトレーニング例しか生成できないことを示唆している。
この理論と実験のギャップを整合させるために、(1)最適スコアマッチングを防止して組合せ的創造性の形式を誘導する(2)完全に解析的、完全に機械的に解釈可能な局所スコア(ELS)マシン、(3)高精度で訓練された畳み込みのみの拡散モデル(ResNetsやUnetsなど)の出力を定量的に予測できる(3)CIFAR10, FashionMNIST, MNISTの中間値$r^2$0.90, 0.91, 0.94$。
我々のESSマシンは、局所的に一貫したパッチモザイクな創造性モデルを示し、拡散モデルは、異なるローカルトレーニングセットパッチを異なる画像位置で混合し、マッチングすることによって、指数関数的に多くの新しい画像を生成する。
我々の理論は、事前学習した自己保持可能なUNets (median $r^2 \sim 0.75$ on CIFAR10) の出力を部分的に予測し、局所的なパッチモザイクからのセマンティックコヒーレンスを彫る際の興味深い役割を明らかにした。
関連論文リスト
- The Unreasonable Effectiveness of Gaussian Score Approximation for Diffusion Models and its Applications [1.8416014644193066]
学習したニューラルスコアと2種類の抽出可能な分布のスコアを比較した。
学習したニューラルスコアは、中等度から高雑音スケールに対する線形(ガウス)近似によって支配される。
その結果,試料品質を維持しつつ,最初の15~30%のサンプリングステップをスキップできることがわかった。
論文 参考訳(メタデータ) (2024-12-12T21:31:27Z) - On the Feature Learning in Diffusion Models [26.53807235141923]
本稿では,拡散モデルの学習力学を従来の分類モデルと比較し,分析・比較することを目的とした特徴学習フレームワークを提案する。
我々の理論的分析は、同じ条件下で拡散モデルがデータのよりバランスよく包括的な表現を学習することを奨励していることを示している。
対照的に、分類のために訓練された類似アーキテクチャを持つニューラルネットワークは、データの特定のパターンを学ぶことを優先する傾向がある。
論文 参考訳(メタデータ) (2024-12-02T00:41:25Z) - How Diffusion Models Learn to Factorize and Compose [14.161975556325796]
拡散モデルは、トレーニングセットに表示されない可能性のある要素を組み合わせた、フォトリアリスティックな画像を生成することができる。
本研究では,拡散モデルが構成可能な特徴の意味的意味的・要因的表現を学習するかどうかを考察する。
論文 参考訳(メタデータ) (2024-08-23T17:59:03Z) - BEND: Bagging Deep Learning Training Based on Efficient Neural Network Diffusion [56.9358325168226]
BEND(Efficient Neural Network Diffusion)に基づくバッグング深層学習学習アルゴリズムを提案する。
我々のアプローチは単純だが効果的であり、まず複数のトレーニングされたモデルの重みとバイアスを入力として、オートエンコーダと潜伏拡散モデルを訓練する。
提案したBENDアルゴリズムは,元のトレーニングモデルと拡散モデルの両方の平均および中央値の精度を一貫して向上させることができる。
論文 参考訳(メタデータ) (2024-03-23T08:40:38Z) - Theoretical Insights for Diffusion Guidance: A Case Study for Gaussian
Mixture Models [59.331993845831946]
拡散モデルは、所望の特性に向けてサンプル生成を操るために、スコア関数にタスク固有の情報を注入することの恩恵を受ける。
本稿では,ガウス混合モデルの文脈における拡散モデルに対する誘導の影響を理解するための最初の理論的研究を提供する。
論文 参考訳(メタデータ) (2024-03-03T23:15:48Z) - Analyzing Neural Network-Based Generative Diffusion Models through Convex Optimization [45.72323731094864]
本稿では,2層ニューラルネットワークを用いた拡散モデル解析のための理論的枠組みを提案する。
我々は,1つの凸プログラムを解くことで,スコア予測のための浅層ニューラルネットワークのトレーニングが可能であることを証明した。
本結果は, ニューラルネットワークに基づく拡散モデルが漸近的でない環境で何を学習するかを, 正確に評価するものである。
論文 参考訳(メタデータ) (2024-02-03T00:20:25Z) - Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution [67.9215891673174]
離散空間に対するスコアマッチングを自然に拡張する新たな損失として,スコアエントロピーを提案する。
標準言語モデリングタスク上で,Score Entropy Discrete Diffusionモデルをテストする。
論文 参考訳(メタデータ) (2023-10-25T17:59:12Z) - Towards Faster Non-Asymptotic Convergence for Diffusion-Based Generative
Models [49.81937966106691]
我々は拡散モデルのデータ生成過程を理解するための非漸近理論のスイートを開発する。
従来の研究とは対照的に,本理論は基本的だが多目的な非漸近的アプローチに基づいて開発されている。
論文 参考訳(メタデータ) (2023-06-15T16:30:08Z) - Diff-Instruct: A Universal Approach for Transferring Knowledge From
Pre-trained Diffusion Models [77.83923746319498]
本稿では,任意の生成モデルの学習を指導するDiff-Instructというフレームワークを提案する。
Diff-Instructは、最先端の単一ステップ拡散モデルであることを示す。
GANモデルの精製実験により、Diff-InstructはGANモデルの事前訓練されたジェネレータを一貫して改善できることが示されている。
論文 参考訳(メタデータ) (2023-05-29T04:22:57Z) - Understanding Diffusion Models: A Unified Perspective [0.0]
拡散モデルは生成モデルとして素晴らしい能力を示している。
変動的視点と得点的視点の両方にわたる拡散モデルの理解をレビューし、デミスティフィケートし、統一する。
論文 参考訳(メタデータ) (2022-08-25T09:55:25Z) - How Much is Enough? A Study on Diffusion Times in Score-based Generative
Models [76.76860707897413]
現在のベストプラクティスは、フォワードダイナミクスが既知の単純なノイズ分布に十分に近づくことを確実にするために大きなTを提唱している。
本稿では, 理想とシミュレーションされたフォワードダイナミクスのギャップを埋めるために補助モデルを用いて, 標準的な逆拡散過程を導出する方法について述べる。
論文 参考訳(メタデータ) (2022-06-10T15:09:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。