論文の概要: Likelihood Training of Cascaded Diffusion Models via Hierarchical Volume-preserving Maps
- arxiv url: http://arxiv.org/abs/2501.06999v1
- Date: Mon, 13 Jan 2025 01:20:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-14 14:27:52.253999
- Title: Likelihood Training of Cascaded Diffusion Models via Hierarchical Volume-preserving Maps
- Title(参考訳): 階層的体積保存マップを用いたカスケード拡散モデルの類似学習
- Authors: Henry Li, Ronen Basri, Yuval Kluger,
- Abstract要約: 確率的マルチスケールモデルにおける根本的な難しさを克服しさえすれば、カスケードモデルは優れた確率モデルになり得ることを示す。
主にカスケードモデルにおいて、各中間スケールは、可能性評価のために取り除くことができない余剰変数を導入している。
また、ラプラシアピラミッドとウェーブレット変換は、確率モデルにおけるベンチマークの選択における最先端の大幅な改善をもたらすことを示した。
- 参考スコア(独自算出の注目度): 19.573246885611923
- License:
- Abstract: Cascaded models are multi-scale generative models with a marked capacity for producing perceptually impressive samples at high resolutions. In this work, we show that they can also be excellent likelihood models, so long as we overcome a fundamental difficulty with probabilistic multi-scale models: the intractability of the likelihood function. Chiefly, in cascaded models each intermediary scale introduces extraneous variables that cannot be tractably marginalized out for likelihood evaluation. This issue vanishes by modeling the diffusion process on latent spaces induced by a class of transformations we call hierarchical volume-preserving maps, which decompose spatially structured data in a hierarchical fashion without introducing local distortions in the latent space. We demonstrate that two such maps are well-known in the literature for multiscale modeling: Laplacian pyramids and wavelet transforms. Not only do such reparameterizations allow the likelihood function to be directly expressed as a joint likelihood over the scales, we show that the Laplacian pyramid and wavelet transform also produces significant improvements to the state-of-the-art on a selection of benchmarks in likelihood modeling, including density estimation, lossless compression, and out-of-distribution detection. Investigating the theoretical basis of our empirical gains we uncover deep connections to score matching under the Earth Mover's Distance (EMD), which is a well-known surrogate for perceptual similarity. Code can be found at \href{https://github.com/lihenryhfl/pcdm}{this https url}.
- Abstract(参考訳): カスケードモデル(Cascaded model)は、高解像度で知覚的に印象的なサンプルを生成する能力を持つマルチスケール生成モデルである。
本研究は,確率的多スケールモデルにおける根本的な困難を克服する限り,確率関数の抽出可能性という,優れた確率モデルであることを示す。
主にカスケードモデルにおいて、各中間スケールは、可能性評価のために取り除くことができない余剰変数を導入している。
この問題は、階層的な体積保存写像と呼ばれる変換のクラスによって誘導される潜在空間上の拡散過程をモデル化することによって、潜在空間に局所歪みを導入することなく、空間的に構造化されたデータを階層的に分解する。
このような2つの写像は、ラプラシアピラミッドとウェーブレット変換という、マルチスケールモデリングの文献でよく知られている。
このような再パラメータ化によって、確率関数をスケール上のジョイントチャンスとして直接表現できるだけでなく、密度推定、ロスレス圧縮、アウト・オブ・ディストリビューション検出など、確率モデルにおけるベンチマークの選択において、ラプラシアピラミッドとウェーブレット変換が最先端の精度向上をもたらすことも示している。
経験的利得の理論的基礎を調査した結果、地球Mover's Distance (EMD)の下でのスコアマッチングの深い関係が明らかになった。
コードは \href{https://github.com/lihenryhfl/pcdm}{this https url} で見ることができる。
関連論文リスト
- Latent diffusion models for parameterization and data assimilation of facies-based geomodels [0.0]
拡散モデルは、ランダムノイズを特徴とする入力場から新しい地質学的実現を生成するために訓練される。
遅延拡散モデルは、ジオモデリングソフトウェアからのサンプルと視覚的に整合した実現を提供する。
論文 参考訳(メタデータ) (2024-06-21T01:32:03Z) - Hierarchic Flows to Estimate and Sample High-dimensional Probabilities [8.548100130679614]
エネルギーと密度をまたいだロバストなマルチスケール近似を持つ低次元モデルを導入する。
本研究では,これらのウェーブレットモデルを用いて乱流の2次元渦場と暗黒物質の画像を生成する。
論文 参考訳(メタデータ) (2024-05-06T13:44:51Z) - Hierarchical Integration Diffusion Model for Realistic Image Deblurring [71.76410266003917]
拡散モデル (DM) は画像劣化に導入され, 有望な性能を示した。
本稿では,階層型統合拡散モデル(HI-Diff)を提案する。
人工的および実世界のぼかしデータセットの実験は、HI-Diffが最先端の手法より優れていることを示した。
論文 参考訳(メタデータ) (2023-05-22T12:18:20Z) - Reflected Diffusion Models [93.26107023470979]
本稿では,データのサポートに基づいて進化する反射微分方程式を逆転する反射拡散モデルを提案する。
提案手法は,一般化されたスコアマッチング損失を用いてスコア関数を学習し,標準拡散モデルの主要成分を拡張する。
論文 参考訳(メタデータ) (2023-04-10T17:54:38Z) - ChiroDiff: Modelling chirographic data with Diffusion Models [132.5223191478268]
チャーログラフィーデータのための強力なモデルクラスである「拡散確率モデル(Denoising Diffusion Probabilistic Models)」やDDPMを導入している。
我々のモデルは「ChiroDiff」と呼ばれ、非自己回帰的であり、全体論的概念を捉えることを学び、したがって高い時間的サンプリングレートに回復する。
論文 参考訳(メタデータ) (2023-04-07T15:17:48Z) - VTAE: Variational Transformer Autoencoder with Manifolds Learning [144.0546653941249]
深層生成モデルは、多くの潜伏変数を通して非線形データ分布の学習に成功している。
ジェネレータの非線形性は、潜在空間がデータ空間の不満足な射影を示し、表現学習が不十分になることを意味する。
本研究では、測地学と正確な計算により、深部生成モデルの性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2023-04-03T13:13:19Z) - Diagnosing and Fixing Manifold Overfitting in Deep Generative Models [11.82509693248749]
ニューラルネットワークを使ってフレキシブルな高次元密度を構築する。
観測データは高次元空間に埋め込まれた低次元多様体上に存在することを示す。
そこで本研究では,次元削減ステップと最大線密度推定を併用した2段階の手順のクラスを提案する。
論文 参考訳(メタデータ) (2022-04-14T18:00:03Z) - Improving the Reconstruction of Disentangled Representation Learners via Multi-Stage Modeling [54.94763543386523]
現在の自己エンコーダに基づく非絡み合い表現学習法は、(集合体)後部をペナルティ化し、潜伏因子の統計的独立を促進することで、非絡み合いを実現する。
本稿では,不整合因子をペナルティに基づく不整合表現学習法を用いて学習する,新しい多段階モデリング手法を提案する。
次に、低品質な再構成を、欠落した関連潜伏変数をモデル化するために訓練された別の深層生成モデルで改善する。
論文 参考訳(メタデータ) (2020-10-25T18:51:15Z) - Haar Wavelet based Block Autoregressive Flows for Trajectories [129.37479472754083]
歩行者等の軌道予測は,自律型エージェントの性能向上に不可欠である。
本稿では分割結合を利用した新しいハールウェーブレットに基づくブロック自己回帰モデルを提案する。
実世界の2つのデータセット上で、多種多様な正確な軌跡を生成するアプローチの利点について説明する。
論文 参考訳(メタデータ) (2020-09-21T13:57:10Z) - Variational Mixture of Normalizing Flows [0.0]
生成逆数ネットワークオートサイトGAN、変分オートエンコーダオートサイトベイペーパー、およびそれらの変種などの深い生成モデルは、複雑なデータ分布をモデル化するタスクに広く採用されている。
正規化フローはこの制限を克服し、確率密度関数にそのような公式の変更を利用する。
本研究は,混合モデルのコンポーネントとして正規化フローを用い,そのようなモデルのエンドツーエンドトレーニング手順を考案することによって,この問題を克服する。
論文 参考訳(メタデータ) (2020-09-01T17:20:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。