論文の概要: Unlocking the Capabilities of Masked Generative Models for Image Synthesis via Self-Guidance
- arxiv url: http://arxiv.org/abs/2410.13136v1
- Date: Thu, 17 Oct 2024 01:48:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-18 13:19:49.639714
- Title: Unlocking the Capabilities of Masked Generative Models for Image Synthesis via Self-Guidance
- Title(参考訳): 自己誘導による画像合成のためのマスク生成モデルの能力の解放
- Authors: Jiwan Hur, Dong-Jae Lee, Gyojin Han, Jaehyun Choi, Yunho Jeon, Junmo Kim,
- Abstract要約: Masked Generative Model (MGM)は、非常に効率的なサンプリングステップを提供しながら、印象的な生成能力を示している。
本稿では,より優れた生成品質を実現する自己誘導サンプリング手法を提案する。
- 参考スコア(独自算出の注目度): 25.41734642338575
- License:
- Abstract: Masked generative models (MGMs) have shown impressive generative ability while providing an order of magnitude efficient sampling steps compared to continuous diffusion models. However, MGMs still underperform in image synthesis compared to recent well-developed continuous diffusion models with similar size in terms of quality and diversity of generated samples. A key factor in the performance of continuous diffusion models stems from the guidance methods, which enhance the sample quality at the expense of diversity. In this paper, we extend these guidance methods to generalized guidance formulation for MGMs and propose a self-guidance sampling method, which leads to better generation quality. The proposed approach leverages an auxiliary task for semantic smoothing in vector-quantized token space, analogous to the Gaussian blur in continuous pixel space. Equipped with the parameter-efficient fine-tuning method and high-temperature sampling, MGMs with the proposed self-guidance achieve a superior quality-diversity trade-off, outperforming existing sampling methods in MGMs with more efficient training and sampling costs. Extensive experiments with the various sampling hyperparameters confirm the effectiveness of the proposed self-guidance.
- Abstract(参考訳): マスク付き生成モデル (MGM) は, 連続拡散モデルと比較して, 非常に効率的なサンプリングステップを提供するとともに, 優れた生成能力を示した。
しかし、MGMは画像合成において、生成したサンプルの品質と多様性の点で類似した大きさの最近のよく発達した連続拡散モデルと比較しても、まだ性能が劣っている。
連続拡散モデルの性能の重要な要因は、多様性を犠牲にしてサンプルの品質を高めるガイダンス法に由来する。
本稿では,これらのガイダンス手法をMGMの汎用ガイダンス定式化に拡張し,自己誘導サンプリング手法を提案する。
提案手法は,連続画素空間におけるガウス的曖昧さに類似した,ベクトル量子化トークン空間におけるセマンティックスムージングの補助的タスクを利用する。
パラメータ効率のよい微調整法と高温サンプリングにより、提案した自己誘導型MGMは、より優れた品質多様性トレードオフを実現し、より効率的なトレーニングとサンプリングコストで既存のMGMのサンプリング方法より優れている。
種々のサンプリングハイパーパラメータによる大規模な実験により、提案した自己誘導の有効性が確認された。
関連論文リスト
- Preference Optimization with Multi-Sample Comparisons [53.02717574375549]
本稿では,マルチサンプル比較を含むポストトレーニングの拡張手法を提案する。
これらのアプローチは、生成的多様性やバイアスといった重要な特徴を捉えられない。
マルチサンプル比較はシングルサンプル比較よりも集団特性の最適化に有効であることを示す。
論文 参考訳(メタデータ) (2024-10-16T00:59:19Z) - EM Distillation for One-step Diffusion Models [65.57766773137068]
最小品質の損失を最小限に抑えた1ステップ生成モデルに拡散モデルを蒸留する最大可能性に基づく手法を提案する。
本研究では, 蒸留プロセスの安定化を図るため, 再パラメータ化サンプリング手法とノイズキャンセリング手法を開発した。
論文 参考訳(メタデータ) (2024-05-27T05:55:22Z) - Diffusive Gibbs Sampling [40.1197715949575]
本稿では,ディフューシブギブズサンプリング(Diffusive Gibbs Sampling, DiGS)を提案する。
DiGSは拡散モデルにおける最近の発展を統合し、ガウスの畳み込みを利用して補助雑音分布を生成する。
新規なメトロポリス・ウィスティン・ギブス法は, サンプリング工程における混合性を高めるために提案されている。
論文 参考訳(メタデータ) (2024-02-05T13:47:41Z) - Fast Sampling via Discrete Non-Markov Diffusion Models [49.598085130313514]
離散データ生成のための高速化された逆サンプリングを許容する離散非マルコフ拡散モデルを提案する。
提案手法は, ニューラルネットワークに対する関数評価の回数を大幅に削減し, サンプリング処理を高速化する。
論文 参考訳(メタデータ) (2023-12-14T18:14:11Z) - Learning Energy-Based Models by Cooperative Diffusion Recovery Likelihood [64.95663299945171]
高次元データに基づくエネルギーベースモデル(EBM)の訓練は、困難かつ時間を要する可能性がある。
EBMと、GANや拡散モデルのような他の生成フレームワークとの間には、サンプル品質に顕著なギャップがある。
本研究では,協調拡散回復可能性 (CDRL) を提案する。
論文 参考訳(メタデータ) (2023-09-10T22:05:24Z) - Semi-Implicit Denoising Diffusion Models (SIDDMs) [50.30163684539586]
Denoising Diffusion Probabilistic Models (DDPM)のような既存のモデルは、高品質で多様なサンプルを提供するが、本質的に多くの反復的なステップによって遅くなる。
暗黙的要因と明示的要因を一致させることにより、この問題に対処する新しいアプローチを導入する。
提案手法は拡散モデルに匹敵する生成性能と,少数のサンプリングステップを持つモデルに比較して非常に優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2023-06-21T18:49:22Z) - Fast Inference in Denoising Diffusion Models via MMD Finetuning [23.779985842891705]
拡散モデルの高速サンプリング法であるMDD-DDMを提案する。
我々のアプローチは、学習した分布を所定の予算のタイムステップで微調整するために、最大平均離散性(MMD)を使用するという考え方に基づいている。
提案手法は,広範に普及した拡散モデルで要求されるわずかな時間で高品質なサンプルを生成できることが示唆された。
論文 参考訳(メタデータ) (2023-01-19T09:48:07Z) - Diffusion Glancing Transformer for Parallel Sequence to Sequence
Learning [52.72369034247396]
モーダリティ拡散プロセスと残差グランシングサンプリングを併用した拡散グランシング変換器を提案する。
DIFFGLATは、自己回帰モデルと非自己回帰モデルの両方と比較して、高速な復号速度を維持しながら、より優れた生成精度を実現する。
論文 参考訳(メタデータ) (2022-12-20T13:36:25Z) - Improving Sample Quality of Diffusion Models Using Self-Attention
Guidance [36.42984435784378]
自己注意誘導(SAG)は様々な拡散モデルの性能を向上させる。
SAGは拡散モデルが各領域に付随する領域のみを逆向きに曖昧にし、それに従って誘導する。
以上の結果から,SAGはADM, IDDPM, 安定拡散, DiTなど,様々な拡散モデルの性能を向上させることが示唆された。
論文 参考訳(メタデータ) (2022-10-03T13:50:58Z) - Refining Deep Generative Models via Discriminator Gradient Flow [18.406499703293566]
判別器グラディエントフロー (DGflow) は, エントロピー規則化されたf-ディバージェンスの勾配流を介して生成したサンプルを改善する新しい手法である。
DGflowは, 様々な生成モデルに対して, 生成したサンプルの品質を著しく向上させることを示す。
論文 参考訳(メタデータ) (2020-12-01T19:10:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。