論文の概要: Elucidating the representation of images within an unconditional diffusion model denoiser
- arxiv url: http://arxiv.org/abs/2506.01912v1
- Date: Mon, 02 Jun 2025 17:33:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.635485
- Title: Elucidating the representation of images within an unconditional diffusion model denoiser
- Title(参考訳): 非条件拡散モデルデノイザにおける画像表現の解明
- Authors: Zahra Kadkhodaie, Stéphane Mallat, Eero Simoncelli,
- Abstract要約: 生成拡散モデルは、ノイズ除去のためにトレーニングされたニューラルネットワークを用いてスコアを推定することにより、多様な画像データセット上の確率密度を学習する。
本稿では,その内部表現とスコアの計算をよりよく理解するために,ImageNetデータセットをデノナイズするために訓練されたUNetについて検討する。
UNetの中間ブロックは、個々の画像を活性チャネルのスパース部分集合に分解し、これらのチャネルの空間平均のベクトルは、基礎となるクリーン画像の非線形表現を提供することができることを示す。
- 参考スコア(独自算出の注目度): 10.853652149844999
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative diffusion models learn probability densities over diverse image datasets by estimating the score with a neural network trained to remove noise. Despite their remarkable success in generating high-quality images, the internal mechanisms of the underlying score networks are not well understood. Here, we examine a UNet trained for denoising on the ImageNet dataset, to better understand its internal representation and computation of the score. We show that the middle block of the UNet decomposes individual images into sparse subsets of active channels, and that the vector of spatial averages of these channels can provide a nonlinear representation of the underlying clean images. We develop a novel algorithm for stochastic reconstruction of images from this representation and demonstrate that it recovers a sample from a set of images defined by a target image representation. We then study the properties of the representation and demonstrate that Euclidean distances in the latent space correspond to distances between conditional densities induced by representations as well as semantic similarities in the image space. Applying a clustering algorithm in the representation space yields groups of images that share both fine details (e.g., specialized features, textured regions, small objects), as well as global structure, but are only partially aligned with object identities. Thus, we show for the first time that a network trained solely on denoising contains a rich and accessible sparse representation of images.
- Abstract(参考訳): 生成拡散モデルは、ノイズ除去のためにトレーニングされたニューラルネットワークを用いてスコアを推定することにより、多様な画像データセット上の確率密度を学習する。
高品質な画像の生成に顕著な成功にもかかわらず、基盤となるスコアネットワークの内部メカニズムはよく理解されていない。
本稿では,その内部表現とスコアの計算をよりよく理解するために,ImageNetデータセットをデノナイズするために訓練されたUNetについて検討する。
UNetの中間ブロックは、個々の画像を活性チャネルのスパース部分集合に分解し、これらのチャネルの空間平均のベクトルは、基礎となるクリーン画像の非線形表現を提供することができることを示す。
本研究では,この表現から画像の確率的再構成を行う新しいアルゴリズムを開発し,対象画像表現によって定義された画像の集合からサンプルを復元することを示す。
次に、この表現の性質を考察し、潜在空間におけるユークリッド距離が、表現によって誘導される条件密度間の距離と、画像空間における意味的類似性に対応することを示す。
表現空間にクラスタリングアルゴリズムを適用すると、細部(例えば、特殊特徴、テクスチャ化された領域、小さなオブジェクト)とグローバル構造の両方を共有する画像群が生成されるが、オブジェクトのアイデンティティに部分的に一致しているだけである。
そこで本研究では,視覚のみを訓練したネットワークが,画像の豊かでアクセスしやすいスパース表現を含むことを初めて示す。
関連論文リスト
- UnSeg: One Universal Unlearnable Example Generator is Enough against All Image Segmentation [64.01742988773745]
未承認のプライベートデータ上での大規模なイメージセグメンテーションモデルのトレーニングに関して、プライバシーに関する懸念が高まっている。
我々は、学習不可能な例の概念を利用して、学習不可能なノイズを原画像に生成し、付加することにより、モデルトレーニングに使用不能な画像を作成する。
6つのメインストリームイメージセグメンテーションタスク、10つの広く使われているデータセット、7つの異なるネットワークアーキテクチャでUnSegの有効性を実証的に検証する。
論文 参考訳(メタデータ) (2024-10-13T16:34:46Z) - EmerDiff: Emerging Pixel-level Semantic Knowledge in Diffusion Models [52.3015009878545]
我々は、追加の訓練をすることなく、きめ細かなセグメンテーションマップを生成できる画像セグメンタを開発した。
低次元特徴写像の空間的位置と画像画素間の意味的対応を同定する。
大規模な実験では、生成したセグメンテーションマップがよく説明され、画像の細部を捉えることが示されている。
論文 参考訳(メタデータ) (2024-01-22T07:34:06Z) - Image segmentation with traveling waves in an exactly solvable recurrent
neural network [71.74150501418039]
繰り返しニューラルネットワークは、シーンの構造特性に応じて、画像をグループに効果的に分割できることを示す。
本稿では,このネットワークにおけるオブジェクトセグメンテーションのメカニズムを正確に記述する。
次に、グレースケール画像中の単純な幾何学的対象から自然画像まで、入力をまたいで一般化するオブジェクトセグメンテーションの簡単なアルゴリズムを実証する。
論文 参考訳(メタデータ) (2023-11-28T16:46:44Z) - Factorized Diffusion Architectures for Unsupervised Image Generation and
Segmentation [24.436957604430678]
本研究では,非教師付き拡散モデルとして訓練されたニューラルネットワークアーキテクチャを,画像の生成とセグメント分割の両面から同時に学習する。
実験により,複数のデータセットにまたがって,高精度な教師なし画像分割と高品質な合成画像生成を実現することができた。
論文 参考訳(メタデータ) (2023-09-27T15:32:46Z) - Learning to Annotate Part Segmentation with Gradient Matching [58.100715754135685]
本稿では,事前学習したGANを用いて,高品質な画像を生成することで,半教師付き部分分割タスクに対処することに焦点を当てる。
特に、アノテータ学習を学習から学習までの問題として定式化する。
提案手法は,実画像,生成された画像,さらには解析的に描画された画像を含む,幅広いラベル付き画像からアノテータを学習可能であることを示す。
論文 参考訳(メタデータ) (2022-11-06T01:29:22Z) - Deep Semantic Statistics Matching (D2SM) Denoising Network [70.01091467628068]
本稿では,Deep Semantic Statistics Matching (D2SM) Denoising Networkを紹介する。
事前訓練された分類ネットワークの意味的特徴を利用して、意味的特徴空間における明瞭な画像の確率的分布と暗黙的に一致させる。
識別画像のセマンティックな分布を学習することで,ネットワークの認知能力を大幅に向上させることを実証的に見出した。
論文 参考訳(メタデータ) (2022-07-19T14:35:42Z) - Embedding contrastive unsupervised features to cluster in- and
out-of-distribution noise in corrupted image datasets [18.19216557948184]
Web画像検索に検索エンジンを使用することは、イメージデータセットを作成する際の手作業によるキュレーションに代わる誘惑的な手段である。
主な欠点は、回収された間違った(ノイズの多い)サンプルの割合である。
本稿では,教師なしのコントラスト特徴学習を用いた検出ステップから始める2段階のアルゴリズムを提案する。
比較学習のアライメントと均一性原理により,OODサンプルは単位超球面上のIDサンプルから線形に分離できることがわかった。
論文 参考訳(メタデータ) (2022-07-04T16:51:56Z) - Self-supervised Contrastive Learning for Cross-domain Hyperspectral
Image Representation [26.610588734000316]
本稿では,アノテートが本質的に困難であるハイパースペクトル画像に適した自己教師型学習フレームワークを提案する。
提案するフレームワークアーキテクチャは、クロスドメインCNNを利用して、異なるハイパースペクトル画像から表現を学習する。
実験結果は、スクラッチや他の移動学習法から学習したモデルに対して、提案した自己教師型表現の利点を示す。
論文 参考訳(メタデータ) (2022-02-08T16:16:45Z) - Neighbor2Neighbor: Self-Supervised Denoising from Single Noisy Images [98.82804259905478]
Neighbor2Neighborを提示し、ノイズの多い画像のみで効果的な画像消音モデルをトレーニングします。
ネットワークのトレーニングに使用される入力とターゲットは、同じノイズ画像からサブサンプリングされた画像である。
デノイジングネットワークは、第1段階で生成されたサブサンプルトレーニングペアで訓練され、提案された正規化器は、より良いパフォーマンスのための追加の損失として訓練される。
論文 参考訳(メタデータ) (2021-01-08T02:03:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。