論文の概要: Locality in Image Diffusion Models Emerges from Data Statistics
- arxiv url: http://arxiv.org/abs/2509.09672v2
- Date: Thu, 30 Oct 2025 17:40:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 16:05:09.413506
- Title: Locality in Image Diffusion Models Emerges from Data Statistics
- Title(参考訳): データ統計から得られた画像拡散モデルの局所性
- Authors: Artem Lukoianov, Chenyang Yuan, Justin Solomon, Vincent Sitzmann,
- Abstract要約: 近年の研究では、画像拡散モデルの一般化能力は、トレーニングされたニューラルネットワークの局所特性から生じることが示されている。
深部拡散モデルの局所性が画像データセットの統計的特性として現れることを示す。
理論的および実験的に、この局所性は画像データセットに存在する画素相関から直接生じることを示す。
- 参考スコア(独自算出の注目度): 19.257597016636844
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent work has shown that the generalization ability of image diffusion models arises from the locality properties of the trained neural network. In particular, when denoising a particular pixel, the model relies on a limited neighborhood of the input image around that pixel, which, according to the previous work, is tightly related to the ability of these models to produce novel images. Since locality is central to generalization, it is crucial to understand why diffusion models learn local behavior in the first place, as well as the factors that govern the properties of locality patterns. In this work, we present evidence that the locality in deep diffusion models emerges as a statistical property of the image dataset and is not due to the inductive bias of convolutional neural networks, as suggested in previous work. Specifically, we demonstrate that an optimal parametric linear denoiser exhibits similar locality properties to deep neural denoisers. We show, both theoretically and experimentally, that this locality arises directly from pixel correlations present in the image datasets. Moreover, locality patterns are drastically different on specialized datasets, approximating principal components of the data's covariance. We use these insights to craft an analytical denoiser that better matches scores predicted by a deep diffusion model than prior expert-crafted alternatives. Our key takeaway is that while neural network architectures influence generation quality, their primary role is to capture locality patterns inherent in the data.
- Abstract(参考訳): 近年の研究では、画像拡散モデルの一般化能力は、トレーニングされたニューラルネットワークの局所特性から生じることが示されている。
特に、特定の画素を復調する際には、その画素の周囲の入力画像の限られた近傍にモデルが依存しており、これは以前の研究によれば、これらのモデルが新しい画像を生成する能力と密接に関連している。
局所性は一般化の中心であるため、拡散モデルがそもそも局所挙動を学習する理由や、局所性パターンの性質を規定する要因を理解することが重要である。
本研究では, 画像データセットの統計的特性として深部拡散モデルの局所性が出現し, 畳み込みニューラルネットワークの帰納バイアスによるものではないことを示す。
具体的には、最適パラメトリックリニアデノイザがディープニューラルデノイザに類似した局所性を示すことを示す。
理論的および実験的に、この局所性は画像データセットに存在する画素相関から直接生じることを示す。
さらに、局所性パターンは、データの共分散の主成分を近似することで、特別なデータセットで大幅に異なる。
これらの知見を用いて分析的なデノイザを構築し、より深い拡散モデルによって予測されるスコアを、従来の専門家による代替よりもよく一致させる。
私たちの重要な特徴は、ニューラルネットワークアーキテクチャが生成品質に影響を与える一方で、その主な役割は、データに固有の局所パターンをキャプチャすることだ。
関連論文リスト
- Towards Understanding Text Hallucination of Diffusion Models via Local Generation Bias [76.85949078144098]
本稿では,拡散モデルが個々のシンボルを正しく生成するが,それらを意味のない方法で組み立てるテキスト幻覚に焦点を当てる。
このような現象は,ネットワークの局所的生成バイアスに起因すると考えられる。
また、ハイパーキューブ上の2層学習パリティポイントを含む特定のケースのトレーニングダイナミクスを理論的に解析する。
論文 参考訳(メタデータ) (2025-03-05T15:28:50Z) - Diffusion Models Learn Low-Dimensional Distributions via Subspace Clustering [15.326641037243006]
拡散モデルは画像分布を効果的に学習し、新しいサンプルを生成する。
我々は、この現象に関する理論的な洞察を、重要な経験的観測を利用して提供する。
基礎となる分布を学習するのに必要となるサンプルの最小数は、本質的な次元と線形にスケールすることを示す。
論文 参考訳(メタデータ) (2024-09-04T04:14:02Z) - Mitigating Bias Using Model-Agnostic Data Attribution [1.477005743355395]
機械学習モデルにおけるバイアスの緩和は、公平性と公平性を保証するための重要な取り組みである。
本稿では, 画素画像の属性を利用して, バイアス属性を含む画像の領域を特定し, 正規化することで, バイアスに対処する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-08T13:00:56Z) - A Phase Transition in Diffusion Models Reveals the Hierarchical Nature of Data [51.03144354630136]
最近の進歩は、拡散モデルが高品質な画像を生成することを示している。
我々はこの現象を階層的なデータ生成モデルで研究する。
t$の後に作用する後方拡散過程は相転移によって制御される。
論文 参考訳(メタデータ) (2024-02-26T19:52:33Z) - Analyzing Neural Network-Based Generative Diffusion Models through Convex Optimization [45.72323731094864]
本稿では,2層ニューラルネットワークを用いた拡散モデル解析のための理論的枠組みを提案する。
我々は,1つの凸プログラムを解くことで,スコア予測のための浅層ニューラルネットワークのトレーニングが可能であることを証明した。
本結果は, ニューラルネットワークに基づく拡散モデルが漸近的でない環境で何を学習するかを, 正確に評価するものである。
論文 参考訳(メタデータ) (2024-02-03T00:20:25Z) - Soft Mixture Denoising: Beyond the Expressive Bottleneck of Diffusion
Models [76.46246743508651]
我々は,現在の拡散モデルが後方認知において表現力のあるボトルネックを持っていることを示した。
本稿では,後方復調のための表現的かつ効率的なモデルであるソフトミキシング・デノナイジング(SMD)を導入する。
論文 参考訳(メタデータ) (2023-09-25T12:03:32Z) - Diffusion Models are Minimax Optimal Distribution Estimators [49.47503258639454]
拡散モデリングの近似と一般化能力について、初めて厳密な分析を行った。
実密度関数がベソフ空間に属し、経験値整合損失が適切に最小化されている場合、生成したデータ分布は、ほぼ最小の最適推定値が得られることを示す。
論文 参考訳(メタデータ) (2023-03-03T11:31:55Z) - CRADL: Contrastive Representations for Unsupervised Anomaly Detection
and Localization [2.8659934481869715]
医用画像における教師なし異常検出は、訓練中に異常データを必要とせず、任意の異常を検出し、位置決めすることを目的としている。
現在の最先端の手法のほとんどは、画像上で直接動作する潜在変数生成モデルを使用している。
コントラストプレテクストタスクで訓練されたエンコーダの低次元表現空間において,正規サンプルの分布を直接モデル化するCRADLを提案する。
論文 参考訳(メタデータ) (2023-01-05T16:07:49Z) - Image Embedding for Denoising Generative Models [0.0]
逆拡散過程の決定論的性質から拡散入射モデルに着目する。
本研究の副次として,拡散モデルの潜伏空間の構造についてより深い知見を得た。
論文 参考訳(メタデータ) (2022-12-30T17:56:07Z) - DeepDC: Deep Distance Correlation as a Perceptual Image Quality
Evaluator [53.57431705309919]
ImageNet Pre-trained Deep Neural Network (DNN)は、効果的な画像品質評価(IQA)モデルを構築するための顕著な転送性を示す。
我々は,事前学習DNN機能のみに基づく新しいフル参照IQA(FR-IQA)モデルを開発した。
5つの標準IQAデータセット上で,提案した品質モデルの優位性を示すため,包括的実験を行った。
論文 参考訳(メタデータ) (2022-11-09T14:57:27Z) - Sampling Based On Natural Image Statistics Improves Local Surrogate
Explainers [111.31448606885672]
代理説明器は、モデルが予測にどのように到着するかをさらに理解するために、ポストホック解釈法として人気がある。
そこで本研究では,(1)局所領域のサンプリング方法を変更すること,(2)自然画像の分布特性を知覚的指標を用いて伝達すること,の2つの手法を提案する。
論文 参考訳(メタデータ) (2022-08-08T08:10:13Z) - How Much is Enough? A Study on Diffusion Times in Score-based Generative
Models [76.76860707897413]
現在のベストプラクティスは、フォワードダイナミクスが既知の単純なノイズ分布に十分に近づくことを確実にするために大きなTを提唱している。
本稿では, 理想とシミュレーションされたフォワードダイナミクスのギャップを埋めるために補助モデルを用いて, 標準的な逆拡散過程を導出する方法について述べる。
論文 参考訳(メタデータ) (2022-06-10T15:09:46Z) - Data-driven emergence of convolutional structure in neural networks [83.4920717252233]
識別タスクを解くニューラルネットワークが、入力から直接畳み込み構造を学習できることを示す。
データモデルを慎重に設計することにより、このパターンの出現は、入力の非ガウス的、高次局所構造によって引き起こされることを示す。
論文 参考訳(メタデータ) (2022-02-01T17:11:13Z) - Multi-Branch Deep Radial Basis Function Networks for Facial Emotion
Recognition [80.35852245488043]
放射状基底関数(RBF)ユニットによって形成された複数の分岐で拡張されたCNNベースのアーキテクチャを提案する。
RBFユニットは、中間表現を用いて類似のインスタンスで共有される局所パターンをキャプチャする。
提案手法は,提案手法の競争力を高めるためのローカル情報の導入であることを示す。
論文 参考訳(メタデータ) (2021-09-07T21:05:56Z) - Anomaly localization by modeling perceptual features [3.04585143845864]
特徴拡張型VAEは、入力画像を画素空間や複数の異なる特徴空間で再構成することで訓練される。
MVTec異常検出およびローカライゼーションデータセットの最先端手法に対する明確な改善を実現する。
論文 参考訳(メタデータ) (2020-08-12T15:09:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。