論文の概要: Learning normalized image densities via dual score matching
- arxiv url: http://arxiv.org/abs/2506.05310v1
- Date: Thu, 05 Jun 2025 17:53:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.878746
- Title: Learning normalized image densities via dual score matching
- Title(参考訳): デュアルスコアマッチングによる正規化画像密度の学習
- Authors: Florentin Guth, Zahra Kadkhodaie, Eero P Simoncelli,
- Abstract要約: 拡散生成モデルにインスパイアされた固有化エネルギー(log probability)モデルを学習するための新しいフレームワークを提案する。
我々は、その帰納バイアスを保ちながらエネルギーを計算するためにスコアネットワークアーキテクチャを変更した。
推定ログ確率は、トレーニングセット内の特定の画像とほぼ独立である。
- 参考スコア(独自算出の注目度): 15.755741986753785
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Learning probability models from data is at the heart of many machine learning endeavors, but is notoriously difficult due to the curse of dimensionality. We introduce a new framework for learning \emph{normalized} energy (log probability) models that is inspired from diffusion generative models, which rely on networks optimized to estimate the score. We modify a score network architecture to compute an energy while preserving its inductive biases. The gradient of this energy network with respect to its input image is the score of the learned density, which can be optimized using a denoising objective. Importantly, the gradient with respect to the noise level provides an additional score that can be optimized with a novel secondary objective, ensuring consistent and normalized energies across noise levels. We train an energy network with this \emph{dual} score matching objective on the ImageNet64 dataset, and obtain a cross-entropy (negative log likelihood) value comparable to the state of the art. We further validate our approach by showing that our energy model \emph{strongly generalizes}: estimated log probabilities are nearly independent of the specific images in the training set. Finally, we demonstrate that both image probability and dimensionality of local neighborhoods vary significantly with image content, in contrast with traditional assumptions such as concentration of measure or support on a low-dimensional manifold.
- Abstract(参考訳): データから確率モデルを学ぶことは、多くの機械学習の取り組みの中心にあるが、次元の呪いのために悪名高い。
本稿では,拡散生成モデルにインスパイアされた<emph{normalized} Energy(log probability)モデルを学習するための新しいフレームワークを提案する。
我々は、その帰納バイアスを保ちながらエネルギーを計算するためにスコアネットワークアーキテクチャを変更した。
入力画像に対するこのエネルギーネットワークの勾配は、学習された密度のスコアである。
重要なことに、ノイズレベルに対する勾配は、新しい二次目標に最適化可能な追加スコアを提供し、ノイズレベル全体にわたる一貫した正規化されたエネルギーを保証する。
我々は、ImageNet64データセット上で、このemph{dual}スコアマッチング目標を用いてエネルギーネットワークをトレーニングし、最先端に匹敵するクロスエントロピー(負の対数可能性)値を得る。
我々は、我々のエネルギーモデル \emph{strongly generalizes}: 推定ログ確率がトレーニングセットの特定の画像とほぼ独立であることを示すことによって、我々のアプローチをさらに検証する。
最後に, 局所近傍の像確率と次元性は, 低次元多様体上の測度集中や支持といった従来の仮定とは対照的に, 画像内容と大きく異なることを示す。
関連論文リスト
- Equipping Diffusion Models with Differentiable Spatial Entropy for Low-Light Image Enhancement [7.302792947244082]
本研究では,決定論的画素間比較から統計的視点へ焦点を移す新しい手法を提案する。
中心となる考え方は、損失関数に空間エントロピーを導入して、予測と目標の分布差を測定することである。
具体的には,拡散モデルにエントロピーを装備し,L1ベースノイズマッチング損失よりも高精度で知覚品質の向上を図っている。
論文 参考訳(メタデータ) (2024-04-15T12:35:10Z) - DiffiT: Diffusion Vision Transformers for Image Generation [88.08529836125399]
ViT(Vision Transformer)は、特に認識タスクにおいて、強力なモデリング機能とスケーラビリティを実証している。
拡散型生成学習におけるViTの有効性について検討し、拡散ビジョン変換器(DiffiT)と呼ばれる新しいモデルを提案する。
DiffiTはパラメータ効率が大幅に向上した高忠実度画像を生成するのに驚くほど効果的である。
論文 参考訳(メタデータ) (2023-12-04T18:57:01Z) - Generalization in diffusion models arises from geometry-adaptive harmonic representations [21.384922363202335]
画像復調のために訓練されたディープニューラルネットワーク(DNN)は、スコアベースの逆拡散アルゴリズムを用いて高品質なサンプルを生成することができる。
トレーニングセットの記憶に関する最近の報告は、これらのネットワークがデータの「真の」連続密度を学習しているかどうかという疑問を提起している。
データセットの重複しない部分集合でトレーニングされた2つのDNNは、ほぼ同じスコア関数を学習し、したがってトレーニング画像の数が十分に大きい場合、同じ密度を学習する。
論文 参考訳(メタデータ) (2023-10-04T03:30:32Z) - Traditional Classification Neural Networks are Good Generators: They are
Competitive with DDPMs and GANs [104.72108627191041]
従来のニューラルネットワーク分類器は、最先端の生成モデルに匹敵する高品質な画像を生成することができることを示す。
マスクをベースとした再構成モジュールを提案し, 意味的勾配を意識し, 可視画像の合成を行う。
また,本手法は,画像テキスト基盤モデルに関して,テキスト・画像生成にも適用可能であることを示す。
論文 参考訳(メタデータ) (2022-11-27T11:25:35Z) - Deep Semantic Statistics Matching (D2SM) Denoising Network [70.01091467628068]
本稿では,Deep Semantic Statistics Matching (D2SM) Denoising Networkを紹介する。
事前訓練された分類ネットワークの意味的特徴を利用して、意味的特徴空間における明瞭な画像の確率的分布と暗黙的に一致させる。
識別画像のセマンティックな分布を学習することで,ネットワークの認知能力を大幅に向上させることを実証的に見出した。
論文 参考訳(メタデータ) (2022-07-19T14:35:42Z) - Probabilistic Warp Consistency for Weakly-Supervised Semantic
Correspondences [118.6018141306409]
本稿では,セマンティックマッチングのための弱教師付き学習目標である確率ワープ一貫性を提案する。
まず、同じオブジェクトクラスの異なるインスタンスを表現したペアで、既知のワープを画像の1つに適用することで、画像トリプルを構築する。
我々の目的はまた、キーポイントアノテーションと組み合わせることで、強く監督された体制を大幅に改善する。
論文 参考訳(メタデータ) (2022-03-08T18:55:11Z) - NeurInt : Learning to Interpolate through Neural ODEs [18.104328632453676]
本稿では,2つの画像間の軌跡分布を学習する新しい生成モデルを提案する。
提案手法の有効性を示すとともに,画像の品質向上と,実画像と対象画像の任意のペアに対して,スムーズな軌道上の多様な分布を学習する能力を示す。
論文 参考訳(メタデータ) (2021-11-07T16:31:18Z) - Understanding Integrated Gradients with SmoothTaylor for Deep Neural
Network Attribution [70.78655569298923]
ディープニューラルネットワークモデルの属性方法としての統合グラディエントは、シンプルな実装性を提供する。
理解しやすさに影響を及ぼす説明のうるささに悩まされる。
SmoothGrad法は,ノイズ問題を解消し,勾配に基づく帰属法の帰属写像を円滑化するために提案される。
論文 参考訳(メタデータ) (2020-04-22T10:43:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。