論文の概要: On Designing Diffusion Autoencoders for Efficient Generation and Representation Learning
- arxiv url: http://arxiv.org/abs/2506.00136v1
- Date: Fri, 30 May 2025 18:14:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:32.387294
- Title: On Designing Diffusion Autoencoders for Efficient Generation and Representation Learning
- Title(参考訳): 効率的な生成・表現学習のための拡散オートエンコーダの設計について
- Authors: Magdalena Proszewska, Nikolay Malkin, N. Siddharth,
- Abstract要約: 拡散オートエンコーダ(DA)は、入力依存の潜在変数を使用して、拡散過程と共に表現をキャプチャする。
より良い生成モデリングは、別のクラスの拡散モデル -- 前方(ノイズ)プロセスを学ぶもの -- の第一の目標です。
- 参考スコア(独自算出の注目度): 14.707830064594056
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion autoencoders (DAs) are variants of diffusion generative models that use an input-dependent latent variable to capture representations alongside the diffusion process. These representations, to varying extents, can be used for tasks such as downstream classification, controllable generation, and interpolation. However, the generative performance of DAs relies heavily on how well the latent variables can be modelled and subsequently sampled from. Better generative modelling is also the primary goal of another class of diffusion models -- those that learn their forward (noising) process. While effective at adjusting the noise process in an input-dependent manner, they must satisfy additional constraints derived from the terminal conditions of the diffusion process. Here, we draw a connection between these two classes of models and show that certain design decisions (latent variable choice, conditioning method, etc.) in the DA framework -- leading to a model we term DMZ -- allow us to obtain the best of both worlds: effective representations as evaluated on downstream tasks, including domain transfer, as well as more efficient modelling and generation with fewer denoising steps compared to standard DMs.
- Abstract(参考訳): 拡散オートエンコーダ(英: Diffusion Autoencoder、DA)は、拡散過程に沿って表現をキャプチャするために入力依存潜在変数を使用する拡散生成モデルの変種である。
これらの表現は、様々な範囲において、下流の分類、制御可能な生成、補間といったタスクに使用することができる。
しかし、DAの生成性能は、潜伏変数がどれだけうまくモデル化され、次にサンプル化できるかに大きく依存している。
より良い生成モデリングは、別のクラスの拡散モデル -- 前方(ノイズ)プロセスを学ぶもの -- の第一の目標でもある。
入力依存的な方法でノイズプロセスを調整するのに効果的であるが、拡散過程の終端条件から導かれる追加の制約を満たす必要がある。
ここでは、これらの2つのモデルの関連性を示し、DAフレームワークの特定の設計決定(遅延変数選択、条件付けメソッドなど) -- DMZと呼ばれるモデルに導かれることによって、両方の世界の長所を得られることを示す。
関連論文リスト
- InPO: Inversion Preference Optimization with Reparametrized DDIM for Efficient Diffusion Model Alignment [12.823734370183482]
拡散モデルの直接選好アライメント法であるDDIM-InPOを導入する。
提案手法は拡散モデルを単一ステップ生成モデルとして概念化し,特定の潜伏変数の出力を選択的に微調整する。
実験結果から, DDIM-InPOは400ステップの微調整で最先端の性能を達成できることがわかった。
論文 参考訳(メタデータ) (2025-03-24T08:58:49Z) - ACDiT: Interpolating Autoregressive Conditional Modeling and Diffusion Transformer [95.80384464922147]
ACDiTはブロックワイド条件拡散変換器である。
トークン単位の自己回帰とフルシーケンス拡散のフレキシブルな関係を提供する。
本稿では,映像生成タスクにおける自己回帰ベースラインの中で,ACDiTが最良であることを示す。
論文 参考訳(メタデータ) (2024-12-10T18:13:20Z) - Neural Diffusion Models [2.1779479916071067]
本稿では,データの時間依存非線形変換の定義と学習を可能にする,従来の拡散モデルの一般化について述べる。
NDMは、可能性の観点から従来の拡散モデルより優れ、高品質なサンプルを生成する。
論文 参考訳(メタデータ) (2023-10-12T13:54:55Z) - DiffFlow: A Unified SDE Framework for Score-Based Diffusion Models and
Generative Adversarial Networks [41.451880167535776]
我々は、明示的生成モデル(SDM)と生成逆数ネット(GAN)のための統一的理論フレームワークを提案する。
統合理論フレームワークでは,GAN や SDM 以外の新しいアルゴリズムを精度の高い推定で提供する DiffFLow のインスタンス化がいくつか導入されている。
論文 参考訳(メタデータ) (2023-07-05T10:00:53Z) - Semi-Implicit Denoising Diffusion Models (SIDDMs) [50.30163684539586]
Denoising Diffusion Probabilistic Models (DDPM)のような既存のモデルは、高品質で多様なサンプルを提供するが、本質的に多くの反復的なステップによって遅くなる。
暗黙的要因と明示的要因を一致させることにより、この問題に対処する新しいアプローチを導入する。
提案手法は拡散モデルに匹敵する生成性能と,少数のサンプリングステップを持つモデルに比較して非常に優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2023-06-21T18:49:22Z) - Diff-Instruct: A Universal Approach for Transferring Knowledge From
Pre-trained Diffusion Models [77.83923746319498]
本稿では,任意の生成モデルの学習を指導するDiff-Instructというフレームワークを提案する。
Diff-Instructは、最先端の単一ステップ拡散モデルであることを示す。
GANモデルの精製実験により、Diff-InstructはGANモデルの事前訓練されたジェネレータを一貫して改善できることが示されている。
論文 参考訳(メタデータ) (2023-05-29T04:22:57Z) - Modiff: Action-Conditioned 3D Motion Generation with Denoising Diffusion
Probabilistic Models [58.357180353368896]
本稿では,現実的で多様な3D骨格に基づく運動生成問題に対処するために,拡散確率モデル(DDPM)の利点を生かした条件付きパラダイムを提案する。
我々はDDPMを用いてカテゴリ的動作で条件付けられた動作列の可変数を合成する先駆的な試みである。
論文 参考訳(メタデータ) (2023-01-10T13:15:42Z) - f-DM: A Multi-stage Diffusion Model via Progressive Signal
Transformation [56.04628143914542]
拡散モデル(DM)は、最近、様々な領域で生成モデリングを行うためのSoTAツールとして登場した。
本稿では、プログレッシブ信号変換が可能なDMの一般化されたファミリであるf-DMを提案する。
我々は、ダウンサンプリング、ぼやけ、学習された変換を含む様々な機能を持つ画像生成タスクにf-DMを適用した。
論文 参考訳(メタデータ) (2022-10-10T18:49:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。