論文の概要: Origins of Creativity in Attention-Based Diffusion Models
- arxiv url: http://arxiv.org/abs/2506.17324v1
- Date: Wed, 18 Jun 2025 21:14:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.349524
- Title: Origins of Creativity in Attention-Based Diffusion Models
- Title(参考訳): 注意に基づく拡散モデルにおける創造性の起源
- Authors: Emma Finn, T. Anderson Keller, Manos Theodosis, Demba E. Ba,
- Abstract要約: 我々は, 自己注意が, 生成サンプルのパッチレベルを超えて, 局所的な特徴のグローバルな画像一貫性を誘導することを示す。
提案理論は, 局所特徴の局所的配置が, 生成サンプルのパッチレベルを超えた世界的イメージ一貫性を持つことを示唆するものである。
- 参考スコア(独自算出の注目度): 6.488509718701431
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: As diffusion models have become the tool of choice for image generation and as the quality of the images continues to improve, the question of how `creativity' originates in diffusion has become increasingly important. The score matching perspective on diffusion has proven particularly fruitful for understanding how and why diffusion models generate images that remain plausible while differing significantly from their training images. In particular, as explained in (Kamb \& Ganguli, 2024) and others, e.g., (Ambrogioni, 2023), theory suggests that if our score matching were optimal, we would only be able to recover training samples through our diffusion process. However, as shown by Kamb \& Ganguli, (2024), in diffusion models where the score is parametrized by a simple CNN, the inductive biases of the CNN itself (translation equivariance and locality) allow the model to generate samples that globally do not match any training samples, but are rather patch-wise `mosaics'. Notably, however, this theory does not extend to describe the role of self-attention in this process. In this work, we take a preliminary step in this direction to extend this theory to the case of diffusion models whose score is parametrized by a CNN with a final self-attention layer. We show that our theory suggests that self-attention will induce a globally image-consistent arrangement of local features beyond the patch-level in generated samples, and we verify this behavior empirically on a carefully crafted dataset.
- Abstract(参考訳): 拡散モデルが画像生成のツールとなり、画像の品質が向上し続けていくにつれ、いかに「創造性」が拡散に起源を持つかという疑問がますます重要になっている。
拡散に関するスコアマッチングの観点は、拡散モデルがトレーニング画像と大きく異なるものの、もっともらしい画像を生成する方法と理由を理解する上で、特に有益であることが証明されている。
特に (Kamb \&Ganguli, 2024) 等で説明されているように, e g , (Ambrogioni, 2023) は, スコアマッチングが最適であれば, 拡散過程を通じてのみトレーニングサンプルを回収できることを示唆している。
しかし、Kamb \ & Ganguli (2024) が示すように、単純な CNN によってスコアがパラメータ化される拡散モデルにおいて、CNN 自体の帰納的バイアス(翻訳同値と局所性)により、モデルは世界規模でトレーニングサンプルと一致しないが、パッチワイドな「モザイク」であるサンプルを生成することができる。
しかし、この理論は、この過程における自己意識の役割を記述していない。
本研究では,この理論を,最終的な自己認識層を持つCNNによってスコアがパラメータ化される拡散モデルに拡張するために,この方向の予備的なステップを採る。
提案理論は, 局所特徴の局所的配置が, 生成サンプルのパッチレベルを超えた世界的イメージ一貫性を持つものであることを示唆し, 慎重に構築されたデータセット上で, この挙動を実証的に検証するものである。
関連論文リスト
- Critical windows: non-asymptotic theory for feature emergence in diffusion models [9.275532709125242]
我々は,重要なウィンドウと呼ぶ画像生成のための拡散モデルの興味深い性質を理解するための理論を開発する。
本稿では,これらのウィンドウを解析するための公式な枠組みを提案し,強対数凹凸密度の混合から得られるデータに対して,これらのウィンドウを証明可能な有界化が可能であることを示す。
安定拡散に関する予備実験は、クリティカルウィンドウが現実世界の拡散モデルにおける公正さとプライバシー侵害を診断するための有用なツールとして役立つことを示唆している。
論文 参考訳(メタデータ) (2024-03-03T22:43:47Z) - Training Class-Imbalanced Diffusion Model Via Overlap Optimization [55.96820607533968]
実世界のデータセットで訓練された拡散モデルは、尾クラスの忠実度が劣ることが多い。
拡散モデルを含む深い生成モデルは、豊富な訓練画像を持つクラスに偏りがある。
本研究では,異なるクラスに対する合成画像の分布の重複を最小限に抑えるために,コントラスト学習に基づく手法を提案する。
論文 参考訳(メタデータ) (2024-02-16T16:47:21Z) - Your Diffusion Model is Secretly a Zero-Shot Classifier [90.40799216880342]
大規模テキスト・画像拡散モデルからの密度推定をゼロショット分類に活用できることを示す。
分類に対する我々の生成的アプローチは、様々なベンチマークで強い結果が得られる。
我々の結果は、下流タスクにおける差別的モデルよりも生成的な利用に向けての一歩である。
論文 参考訳(メタデータ) (2023-03-28T17:59:56Z) - DIRE for Diffusion-Generated Image Detection [128.95822613047298]
拡散再構成誤り(DIRE)という新しい表現を提案する。
DIREは、予め訓練された拡散モデルにより、入力画像とその再構成画像間の誤差を測定する。
DIREは生成されたイメージと実際のイメージを区別するためのブリッジとして機能する、というヒントを提供する。
論文 参考訳(メタデータ) (2023-03-16T13:15:03Z) - Bi-Noising Diffusion: Towards Conditional Diffusion Models with
Generative Restoration Priors [64.24948495708337]
本研究では,事前訓練した非条件拡散モデルを用いて,予測サンプルをトレーニングデータ多様体に導入する手法を提案する。
我々は,超解像,着色,乱流除去,画像劣化作業におけるアプローチの有効性を実証するための総合的な実験を行った。
論文 参考訳(メタデータ) (2022-12-14T17:26:35Z) - Improving Sample Quality of Diffusion Models Using Self-Attention
Guidance [36.42984435784378]
自己注意誘導(SAG)は様々な拡散モデルの性能を向上させる。
SAGは拡散モデルが各領域に付随する領域のみを逆向きに曖昧にし、それに従って誘導する。
以上の結果から,SAGはADM, IDDPM, 安定拡散, DiTなど,様々な拡散モデルの性能を向上させることが示唆された。
論文 参考訳(メタデータ) (2022-10-03T13:50:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。