論文の概要: Variational Autoencoding Discrete Diffusion with Enhanced Dimensional Correlations Modeling
- arxiv url: http://arxiv.org/abs/2505.17384v1
- Date: Fri, 23 May 2025 01:45:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.76021
- Title: Variational Autoencoding Discrete Diffusion with Enhanced Dimensional Correlations Modeling
- Title(参考訳): 拡張次元相関モデルを用いた変分自己符号化離散拡散
- Authors: Tianyu Xie, Shuchen Xue, Zijin Feng, Tianyang Hu, Jiacheng Sun, Zhenguo Li, Cheng Zhang,
- Abstract要約: Variencoding Discrete Diffusion (VADD) は、潜在変数モデリングによる離散拡散を強化する新しいフレームワークである。
補助的認識モデルを導入することにより、VADDはトレーニングセット上の変分下界と償却推論を介して安定したトレーニングを可能にする。
2Dトイデータ、画素レベルの画像生成、テキスト生成に関する実証結果は、VADDがMDMベースラインを一貫して上回ることを示す。
- 参考スコア(独自算出の注目度): 48.96034602889216
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Discrete diffusion models have recently shown great promise for modeling complex discrete data, with masked diffusion models (MDMs) offering a compelling trade-off between quality and generation speed. MDMs denoise by progressively unmasking multiple dimensions from an all-masked input, but their performance can degrade when using few denoising steps due to limited modeling of inter-dimensional dependencies. In this paper, we propose Variational Autoencoding Discrete Diffusion (VADD), a novel framework that enhances discrete diffusion with latent variable modeling to implicitly capture correlations among dimensions. By introducing an auxiliary recognition model, VADD enables stable training via variational lower bounds maximization and amortized inference over the training set. Our approach retains the efficiency of traditional MDMs while significantly improving sample quality, especially when the number of denoising steps is small. Empirical results on 2D toy data, pixel-level image generation, and text generation demonstrate that VADD consistently outperforms MDM baselines.
- Abstract(参考訳): 離散拡散モデルは最近、複雑な離散データをモデル化する大きな可能性を示しており、マスク拡散モデル(MDM)は、品質と生成速度の間に魅力的なトレードオフを提供する。
MDMは、すべてマスキングされた入力から複数の次元を徐々に解き放つことでデノナイズするが、その性能は、次元間の依存関係の限られたモデリングのため、ほとんどデノナイズしないステップを使用すると劣化する。
本稿では,変分自己符号化離散拡散(VADD)を提案する。これは,潜在変数モデリングによる離散拡散を高め,次元間の相関関係を暗黙的に捉える新しいフレームワークである。
補助的認識モデルを導入することにより、VADDはトレーニングセット上の変動的下界最大化と償却推論による安定したトレーニングを可能にする。
提案手法は, 従来のMDMの効率を保ちながら, 特にデノナイジングステップの数が少ない場合には, 試料品質を著しく向上させる。
2Dトイデータ、画素レベルの画像生成、テキスト生成に関する実証結果は、VADDがMDMベースラインを一貫して上回ることを示す。
関連論文リスト
- One-Step Diffusion Model for Image Motion-Deblurring [85.76149042561507]
本稿では,脱臭過程を1段階に短縮する新しいフレームワークである脱臭拡散モデル(OSDD)を提案する。
拡散モデルにおける忠実度損失に対処するために,構造復元を改善する改良された変分オートエンコーダ(eVAE)を導入する。
提案手法は,実測値と非参照値の両方で高い性能を達成する。
論文 参考訳(メタデータ) (2025-03-09T09:39:57Z) - Steering Masked Discrete Diffusion Models via Discrete Denoising Posterior Prediction [88.65168366064061]
本稿では,確率論的推論の課題として,事前学習したMDMを操る作業を行う新しいフレームワークであるDDPPを紹介する。
私たちのフレームワークは、3つの新しい目標のファミリーにつながります。
Wet-lab Validation(ウェット・ラブ・バリデーション)を用いて,報酬最適化タンパク質配列の過渡的発現を観察する。
論文 参考訳(メタデータ) (2024-10-10T17:18:30Z) - Improving Fine-Grained Control via Aggregation of Multiple Diffusion Models [4.703252654452953]
本稿では,多重拡散モデル (AMDM) の微粒化のための新しい学習自由度アルゴリズムを提案する。
AMDMは複数の拡散モデルの機能を特定のモデルに統合し、特定の機能を活性化し、きめ細かい制御を可能にする。
実験結果から,AMDMはトレーニングなしで微粒化制御を著しく改善し,その有効性が検証された。
論文 参考訳(メタデータ) (2024-10-02T06:16:06Z) - Neural Diffusion Models [2.1779479916071067]
本稿では,データの時間依存非線形変換の定義と学習を可能にする,従来の拡散モデルの一般化について述べる。
NDMは、可能性の観点から従来の拡散モデルより優れ、高品質なサンプルを生成する。
論文 参考訳(メタデータ) (2023-10-12T13:54:55Z) - Hierarchical Integration Diffusion Model for Realistic Image Deblurring [71.76410266003917]
拡散モデル (DM) は画像劣化に導入され, 有望な性能を示した。
本稿では,階層型統合拡散モデル(HI-Diff)を提案する。
人工的および実世界のぼかしデータセットの実験は、HI-Diffが最先端の手法より優れていることを示した。
論文 参考訳(メタデータ) (2023-05-22T12:18:20Z) - Fast Inference in Denoising Diffusion Models via MMD Finetuning [23.779985842891705]
拡散モデルの高速サンプリング法であるMDD-DDMを提案する。
我々のアプローチは、学習した分布を所定の予算のタイムステップで微調整するために、最大平均離散性(MMD)を使用するという考え方に基づいている。
提案手法は,広範に普及した拡散モデルで要求されるわずかな時間で高品質なサンプルを生成できることが示唆された。
論文 参考訳(メタデータ) (2023-01-19T09:48:07Z) - f-DM: A Multi-stage Diffusion Model via Progressive Signal
Transformation [56.04628143914542]
拡散モデル(DM)は、最近、様々な領域で生成モデリングを行うためのSoTAツールとして登場した。
本稿では、プログレッシブ信号変換が可能なDMの一般化されたファミリであるf-DMを提案する。
我々は、ダウンサンプリング、ぼやけ、学習された変換を含む様々な機能を持つ画像生成タスクにf-DMを適用した。
論文 参考訳(メタデータ) (2022-10-10T18:49:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。