Fugu-MT 論文翻訳(概要): Origins of Creativity in Attention-Based Diffusion Models

論文の概要: Origins of Creativity in Attention-Based Diffusion Models

arxiv url: http://arxiv.org/abs/2506.17324v1
Date: Wed, 18 Jun 2025 21:14:56 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-24 19:06:36.349524
Title: Origins of Creativity in Attention-Based Diffusion Models
Title（参考訳）: 注意に基づく拡散モデルにおける創造性の起源
Authors: Emma Finn, T. Anderson Keller, Manos Theodosis, Demba E. Ba,
Abstract要約: 我々は, 自己注意が, 生成サンプルのパッチレベルを超えて, 局所的な特徴のグローバルな画像一貫性を誘導することを示す。提案理論は, 局所特徴の局所的配置が, 生成サンプルのパッチレベルを超えた世界的イメージ一貫性を持つことを示唆するものである。
参考スコア（独自算出の注目度）: 6.488509718701431
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: As diffusion models have become the tool of choice for image generation and as the quality of the images continues to improve, the question of how `creativity' originates in diffusion has become increasingly important. The score matching perspective on diffusion has proven particularly fruitful for understanding how and why diffusion models generate images that remain plausible while differing significantly from their training images. In particular, as explained in (Kamb \& Ganguli, 2024) and others, e.g., (Ambrogioni, 2023), theory suggests that if our score matching were optimal, we would only be able to recover training samples through our diffusion process. However, as shown by Kamb \& Ganguli, (2024), in diffusion models where the score is parametrized by a simple CNN, the inductive biases of the CNN itself (translation equivariance and locality) allow the model to generate samples that globally do not match any training samples, but are rather patch-wise `mosaics'. Notably, however, this theory does not extend to describe the role of self-attention in this process. In this work, we take a preliminary step in this direction to extend this theory to the case of diffusion models whose score is parametrized by a CNN with a final self-attention layer. We show that our theory suggests that self-attention will induce a globally image-consistent arrangement of local features beyond the patch-level in generated samples, and we verify this behavior empirically on a carefully crafted dataset.
Abstract（参考訳）: 拡散モデルが画像生成のツールとなり、画像の品質が向上し続けていくにつれ、いかに「創造性」が拡散に起源を持つかという疑問がますます重要になっている。拡散に関するスコアマッチングの観点は、拡散モデルがトレーニング画像と大きく異なるものの、もっともらしい画像を生成する方法と理由を理解する上で、特に有益であることが証明されている。特に (Kamb \&Ganguli, 2024) 等で説明されているように, e g , (Ambrogioni, 2023) は, スコアマッチングが最適であれば, 拡散過程を通じてのみトレーニングサンプルを回収できることを示唆している。しかし、Kamb \ & Ganguli (2024) が示すように、単純な CNN によってスコアがパラメータ化される拡散モデルにおいて、CNN 自体の帰納的バイアス(翻訳同値と局所性)により、モデルは世界規模でトレーニングサンプルと一致しないが、パッチワイドな「モザイク」であるサンプルを生成することができる。しかし、この理論は、この過程における自己意識の役割を記述していない。本研究では,この理論を,最終的な自己認識層を持つCNNによってスコアがパラメータ化される拡散モデルに拡張するために,この方向の予備的なステップを採る。提案理論は, 局所特徴の局所的配置が, 生成サンプルのパッチレベルを超えた世界的イメージ一貫性を持つものであることを示唆し, 慎重に構築されたデータセット上で, この挙動を実証的に検証するものである。

関連論文リスト

Integrating Amortized Inference with Diffusion Models for Learning Clean Distribution from Corrupted Images [19.957503854446735]
拡散モデル(DM)は、逆問題を解決するための強力な生成モデルとして登場した。 FlowDiffは条件付き正規化フローモデルを利用して、破損したデータソース上で拡散モデルのトレーニングを容易にする共同トレーニングパラダイムである。実験の結果,FlowDiffは広範囲の破損したデータソースにわたるクリーンな分布を効果的に学習できることがわかった。
論文参考訳（メタデータ） (2024-07-15T18:33:20Z)
Plug-and-Play Diffusion Distillation [14.359953671470242]
誘導拡散モデルのための新しい蒸留手法を提案する。オリジナルのテキスト・ツー・イメージモデルが凍結されている間、外部の軽量ガイドモデルがトレーニングされる。提案手法は,クラス化なしガイド付きラテント空間拡散モデルの推論をほぼ半減することを示す。
論文参考訳（メタデータ） (2024-06-04T04:22:47Z)
Critical windows: non-asymptotic theory for feature emergence in diffusion models [9.275532709125242]
我々は,重要なウィンドウと呼ぶ画像生成のための拡散モデルの興味深い性質を理解するための理論を開発する。本稿では,これらのウィンドウを解析するための公式な枠組みを提案し,強対数凹凸密度の混合から得られるデータに対して,これらのウィンドウを証明可能な有界化が可能であることを示す。安定拡散に関する予備実験は、クリティカルウィンドウが現実世界の拡散モデルにおける公正さとプライバシー侵害を診断するための有用なツールとして役立つことを示唆している。
論文参考訳（メタデータ） (2024-03-03T22:43:47Z)
Training Class-Imbalanced Diffusion Model Via Overlap Optimization [55.96820607533968]
実世界のデータセットで訓練された拡散モデルは、尾クラスの忠実度が劣ることが多い。拡散モデルを含む深い生成モデルは、豊富な訓練画像を持つクラスに偏りがある。本研究では,異なるクラスに対する合成画像の分布の重複を最小限に抑えるために,コントラスト学習に基づく手法を提案する。
論文参考訳（メタデータ） (2024-02-16T16:47:21Z)
Adversarial Examples are Misaligned in Diffusion Model Manifolds [7.979892202477701]
本研究は,拡散モデルのレンズによる敵攻撃の研究に焦点をあてる。我々の焦点は、拡散モデルを利用して、画像に対するこれらの攻撃によって引き起こされる異常を検出し、分析することにある。その結果、良性画像と攻撃画像とを効果的に識別できる顕著な能力が示された。
論文参考訳（メタデータ） (2024-01-12T15:29:21Z)
Your Diffusion Model is Secretly a Zero-Shot Classifier [90.40799216880342]
大規模テキスト・画像拡散モデルからの密度推定をゼロショット分類に活用できることを示す。分類に対する我々の生成的アプローチは、様々なベンチマークで強い結果が得られる。我々の結果は、下流タスクにおける差別的モデルよりも生成的な利用に向けての一歩である。
論文参考訳（メタデータ） (2023-03-28T17:59:56Z)
DIRE for Diffusion-Generated Image Detection [128.95822613047298]
拡散再構成誤り(DIRE)という新しい表現を提案する。 DIREは、予め訓練された拡散モデルにより、入力画像とその再構成画像間の誤差を測定する。 DIREは生成されたイメージと実際のイメージを区別するためのブリッジとして機能する、というヒントを提供する。
論文参考訳（メタデータ） (2023-03-16T13:15:03Z)
Extracting Training Data from Diffusion Models [77.11719063152027]
拡散モデルはトレーニングデータから個々の画像を記憶し,生成時に出力することを示す。生成とフィルタのパイプラインを用いて、最先端のモデルから数千以上のトレーニング例を抽出する。さまざまな設定で何百もの拡散モデルをトレーニングし、モデリングとデータ決定の違いがプライバシに与える影響を分析する。
論文参考訳（メタデータ） (2023-01-30T18:53:09Z)
Bi-Noising Diffusion: Towards Conditional Diffusion Models with Generative Restoration Priors [64.24948495708337]
本研究では,事前訓練した非条件拡散モデルを用いて,予測サンプルをトレーニングデータ多様体に導入する手法を提案する。我々は,超解像,着色,乱流除去,画像劣化作業におけるアプローチの有効性を実証するための総合的な実験を行った。
論文参考訳（メタデータ） (2022-12-14T17:26:35Z)
SinDiffusion: Learning a Diffusion Model from a Single Natural Image [159.4285444680301]
SinDiffusionは1つの自然な画像からパッチの内部分布を捉えるためにデノナイズ拡散モデルを利用する。 SinDiffusionは、2つのコア設計に基づいている。まず、SinDiffusionは、段階的にスケールが成長する複数のモデルではなく、1つのスケールで1つのモデルで訓練されている。第2に,拡散ネットワークのパッチレベルの受容領域は,画像のパッチ統計を捉える上で重要かつ効果的であることを示す。
論文参考訳（メタデータ） (2022-11-22T18:00:03Z)
Improving Sample Quality of Diffusion Models Using Self-Attention Guidance [36.42984435784378]
自己注意誘導(SAG)は様々な拡散モデルの性能を向上させる。 SAGは拡散モデルが各領域に付随する領域のみを逆向きに曖昧にし、それに従って誘導する。以上の結果から,SAGはADM, IDDPM, 安定拡散, DiTなど,様々な拡散モデルの性能を向上させることが示唆された。
論文参考訳（メタデータ） (2022-10-03T13:50:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。