論文の概要: Generalization in diffusion models arises from geometry-adaptive harmonic representations
- arxiv url: http://arxiv.org/abs/2310.02557v2
- Date: Fri, 15 Mar 2024 18:21:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 03:42:41.715030
- Title: Generalization in diffusion models arises from geometry-adaptive harmonic representations
- Title(参考訳): 拡散モデルの一般化は幾何適応調和表現から生じる
- Authors: Zahra Kadkhodaie, Florentin Guth, Eero P. Simoncelli, Stéphane Mallat,
- Abstract要約: 画像復調のために訓練されたディープニューラルネットワーク(DNN)は、スコアベースの逆拡散アルゴリズムを用いて高品質なサンプルを生成することができる。
トレーニングセットの記憶に関する最近の報告は、これらのネットワークがデータの「真の」連続密度を学習しているかどうかという疑問を提起している。
データセットの重複しない部分集合でトレーニングされた2つのDNNは、ほぼ同じスコア関数を学習し、したがってトレーニング画像の数が十分に大きい場合、同じ密度を学習する。
- 参考スコア(独自算出の注目度): 21.384922363202335
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep neural networks (DNNs) trained for image denoising are able to generate high-quality samples with score-based reverse diffusion algorithms. These impressive capabilities seem to imply an escape from the curse of dimensionality, but recent reports of memorization of the training set raise the question of whether these networks are learning the "true" continuous density of the data. Here, we show that two DNNs trained on non-overlapping subsets of a dataset learn nearly the same score function, and thus the same density, when the number of training images is large enough. In this regime of strong generalization, diffusion-generated images are distinct from the training set, and are of high visual quality, suggesting that the inductive biases of the DNNs are well-aligned with the data density. We analyze the learned denoising functions and show that the inductive biases give rise to a shrinkage operation in a basis adapted to the underlying image. Examination of these bases reveals oscillating harmonic structures along contours and in homogeneous regions. We demonstrate that trained denoisers are inductively biased towards these geometry-adaptive harmonic bases since they arise not only when the network is trained on photographic images, but also when it is trained on image classes supported on low-dimensional manifolds for which the harmonic basis is suboptimal. Finally, we show that when trained on regular image classes for which the optimal basis is known to be geometry-adaptive and harmonic, the denoising performance of the networks is near-optimal.
- Abstract(参考訳): 画像復調のために訓練されたディープニューラルネットワーク(DNN)は、スコアベースの逆拡散アルゴリズムを用いて高品質なサンプルを生成することができる。
これらの印象的な能力は、次元の呪いから逃れることを意味しているように見えるが、最近のトレーニングセットの記憶は、これらのネットワークがデータの「真の」連続密度を学習しているかどうかという疑問を提起している。
ここでは、データセットの重複しない部分集合で訓練された2つのDNNが、ほぼ同じスコア関数を学習し、したがって、トレーニング画像の数が十分に大きい場合、同じ密度を学習することを示す。
この強い一般化の状況において、拡散生成画像はトレーニングセットと異なり、高い視覚的品質であり、DNNの帰納バイアスはデータ密度とよく一致していることを示唆している。
学習した復調関数を解析し、帰納的バイアスが基礎となる画像に適応して縮小操作を生じさせることを示す。
これらの基底を調べると、等質領域と輪郭に沿った振動する調和構造が明らかになる。
トレーニングされたデノイザは、これらの幾何適応調和ベースに対して誘導的に偏りがあることを実証する。なぜなら、ネットワークが写真画像上でトレーニングされたときだけでなく、低次元多様体上でハーモニック基底が最適である画像クラスでトレーニングされたときにも発生するからである。
最後に、最適基底が幾何適応的かつ調和的であることが知られている正規画像クラスで訓練された場合、ネットワークの雑音発生性能はほぼ最適であることを示す。
関連論文リスト
- Denoising: from classical methods to deep CNNs [0.0]
フーリエ解析やウェーブレットベースなどの古典的手法を概観し、ニューラルネットワークの出現まで直面した課題を強調した。
本稿では,確率密度の真の学習の前提条件について論じ,数学的研究から普遍構造の含意にまで及ぶ洞察を提供する。
論文 参考訳(メタデータ) (2024-04-25T13:56:54Z) - Factorized Diffusion Architectures for Unsupervised Image Generation and
Segmentation [24.436957604430678]
本研究では,非教師付き拡散モデルとして訓練されたニューラルネットワークアーキテクチャを,画像の生成とセグメント分割の両面から同時に学習する。
実験により,複数のデータセットにまたがって,高精度な教師なし画像分割と高品質な合成画像生成を実現することができた。
論文 参考訳(メタデータ) (2023-09-27T15:32:46Z) - Denoising Diffusion Autoencoders are Unified Self-supervised Learners [58.194184241363175]
本稿では,拡散モデルにおけるネットワーク,すなわち拡散オートエンコーダ(DDAE)が,自己教師型学習者の統合であることを示す。
DDAEはすでに、補助エンコーダを使わずに、中間層内で線形分離可能な表現を強く学習している。
CIFAR-10 と Tiny-ImageNet の線形評価精度は95.9% と 50.0% である。
論文 参考訳(メタデータ) (2023-03-17T04:20:47Z) - Decoupled Mixup for Generalized Visual Recognition [71.13734761715472]
視覚認識のためのCNNモデルを学習するための新しい「デカップリング・ミクスアップ」手法を提案する。
本手法は,各画像を識別領域と雑音発生領域に分離し,これらの領域を均一に組み合わせてCNNモデルを訓練する。
実験結果から,未知のコンテキストからなるデータに対する本手法の高一般化性能を示す。
論文 参考訳(メタデータ) (2022-10-26T15:21:39Z) - How deep convolutional neural networks lose spatial information with
training [0.7328100870402177]
画像の微分同相性に対する安定性は, 前半の空間プール, 後半のチャネルプールによって達成されることを示す。
ノイズに対する感度の上昇は、ReLUユニットによって修正された後、プール中に発生する摂動騒音によるものである。
論文 参考訳(メタデータ) (2022-10-04T10:21:03Z) - Deep Semantic Statistics Matching (D2SM) Denoising Network [70.01091467628068]
本稿では,Deep Semantic Statistics Matching (D2SM) Denoising Networkを紹介する。
事前訓練された分類ネットワークの意味的特徴を利用して、意味的特徴空間における明瞭な画像の確率的分布と暗黙的に一致させる。
識別画像のセマンティックな分布を学習することで,ネットワークの認知能力を大幅に向上させることを実証的に見出した。
論文 参考訳(メタデータ) (2022-07-19T14:35:42Z) - Learning Discriminative Shrinkage Deep Networks for Image Deconvolution [122.79108159874426]
本稿では,これらの用語を暗黙的にモデル化する識別的縮小関数を学習することで,効果的に非盲検デコンボリューション手法を提案する。
実験結果から,提案手法は最先端の手法に対して,効率と精度の点で好適に動作することがわかった。
論文 参考訳(メタデータ) (2021-11-27T12:12:57Z) - Adaptive Denoising via GainTuning [17.72738152112575]
画像復調のためのディープ畳み込みニューラルネットワーク(CNN)は通常、大規模なデータセットでトレーニングされる。
本稿では,大規模データセット上で事前学習したCNNモデルを,個々のテスト画像に対して適応的かつ選択的に調整する「GainTuning」を提案する。
GainTuningは、標準的な画像デノゲティングベンチマークで最先端のCNNを改善し、ホールドアウトテストセットのほぼすべての画像上でのデノゲティング性能を向上させる。
論文 参考訳(メタデータ) (2021-07-27T13:35:48Z) - Diffusion-Based Representation Learning [65.55681678004038]
教師付き信号のない表現学習を実現するために,デノナイズスコアマッチングフレームワークを拡張した。
対照的に、拡散に基づく表現学習は、デノナイジングスコアマッチング目的の新しい定式化に依存している。
同じ手法を用いて,半教師付き画像分類における最先端モデルの改善を実現する無限次元潜在符号の学習を提案する。
論文 参考訳(メタデータ) (2021-05-29T09:26:02Z) - Variational Denoising Network: Toward Blind Noise Modeling and Removal [59.36166491196973]
ブラインド画像のデノイングはコンピュータビジョンにおいて重要な問題であるが、非常に難しい問題である。
本稿では,ノイズ推定と画像デノーミングを併用した新しい変分推論手法を提案する。
論文 参考訳(メタデータ) (2019-08-29T15:54:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。