論文の概要: Improved Vector Quantized Diffusion Models
- arxiv url: http://arxiv.org/abs/2205.16007v1
- Date: Tue, 31 May 2022 17:59:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-01 14:56:20.517006
- Title: Improved Vector Quantized Diffusion Models
- Title(参考訳): ベクトル量子化拡散モデルの改良
- Authors: Zhicong Tang, Shuyang Gu, Jianmin Bao, Dong Chen, Fang Wen
- Abstract要約: VQ拡散はテキスト-画像合成のための強力な生成モデルである。
テキスト入力で低品質のサンプルや弱い相関画像を生成することができる。
本稿では,VQ拡散の試料品質をさらに向上する2つの手法を提案する。
- 参考スコア(独自算出の注目度): 34.23016989464389
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vector quantized diffusion (VQ-Diffusion) is a powerful generative model for
text-to-image synthesis, but sometimes can still generate low-quality samples
or weakly correlated images with text input. We find these issues are mainly
due to the flawed sampling strategy. In this paper, we propose two important
techniques to further improve the sample quality of VQ-Diffusion. 1) We explore
classifier-free guidance sampling for discrete denoising diffusion model and
propose a more general and effective implementation of classifier-free
guidance. 2) We present a high-quality inference strategy to alleviate the
joint distribution issue in VQ-Diffusion. Finally, we conduct experiments on
various datasets to validate their effectiveness and show that the improved
VQ-Diffusion suppresses the vanilla version by large margins. We achieve an
8.44 FID score on MSCOCO, surpassing VQ-Diffusion by 5.42 FID score. When
trained on ImageNet, we dramatically improve the FID score from 11.89 to 4.83,
demonstrating the superiority of our proposed techniques.
- Abstract(参考訳): ベクトル量子化拡散(VQ-Diffusion)はテキスト対画像合成の強力な生成モデルであるが、低品質のサンプルや弱い相関画像を生成することもある。
これらの問題は、主にサンプリング戦略の欠陥によるものである。
本稿では,VQ拡散の試料品質をさらに向上する2つの重要な手法を提案する。
1)離散分別拡散モデルに対する分類器フリー誘導サンプリングについて検討し,分類器フリー誘導のより汎用的かつ効果的な実装を提案する。
2)VQ拡散における連立分布問題を軽減するための高品質な推論手法を提案する。
最後に,様々なデータセットを用いてその効果を検証する実験を行い,改良vq-diffusionがバニラバージョンを大きなマージンで抑制することを示した。
MSCOCOの8.44 FIDスコアを達成し、VQ-Diffusionを5.42 FIDスコアで上回った。
ImageNet上でのトレーニングでは、FIDスコアを11.89から4.83に劇的に改善し、提案手法の優位性を実証した。
関連論文リスト
- IV-Mixed Sampler: Leveraging Image Diffusion Models for Enhanced Video Synthesis [22.79121512759783]
IV-Mixed Samplerは、ビデオ拡散モデルのための新しいトレーニングフリーアルゴリズムである。
IDMを使用して、各ビデオフレームとVDMの品質を高め、サンプリングプロセス中のビデオの時間的コヒーレンスを確保する。
UCF-101-FVD, MSR-VTT-FVD, Chronomagic-Bench-150, Chronomagic-Bench-1649 の4つのベンチマークで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2024-10-05T14:33:28Z) - Learning Quantized Adaptive Conditions for Diffusion Models [19.9601581920218]
適応条件を利用して軌道曲率を小さくする新しい,効果的な手法を提案する。
本手法は, トレーニングパラメータの1%に過ぎず, 追加の正規化項の必要性を排除し, サンプル品質を著しく向上させる。
論文 参考訳(メタデータ) (2024-09-26T02:49:51Z) - Post-training Quantization for Text-to-Image Diffusion Models with Progressive Calibration and Activation Relaxing [49.800746112114375]
本稿では,テキスト・画像拡散モデルのための学習後量子化手法(プログレッシブ・アンド・リラクシング)を提案する。
我々は,安定拡散XLの量子化を初めて達成し,その性能を維持した。
論文 参考訳(メタデータ) (2023-11-10T09:10:09Z) - Low-Light Image Enhancement with Wavelet-based Diffusion Models [50.632343822790006]
拡散モデルは画像復元作業において有望な結果を得たが、時間を要する、過剰な計算資源消費、不安定な復元に悩まされている。
本稿では,DiffLLと呼ばれる高能率かつ高能率な拡散型低光画像強調手法を提案する。
論文 参考訳(メタデータ) (2023-06-01T03:08:28Z) - Are Diffusion Models Vision-And-Language Reasoners? [30.579483430697803]
我々は、DiffusionITMと呼ばれる新しい手法を用いて、任意の画像テキストマッチング(ITM)タスクに対する拡散ベースモデルを変換する。
GDBench(Generative-Discriminative Evaluation Benchmark)ベンチマークを7つの複雑な視覚・言語タスク、バイアス評価、詳細な分析で導入する。
安定拡散+拡散ITMは多くのタスクで競争力があり、CLIPよりもCLEVRやWinogroundのようなコンポジションタスクで優れています。
論文 参考訳(メタデータ) (2023-05-25T18:02:22Z) - Q-Diffusion: Quantizing Diffusion Models [52.978047249670276]
ポストトレーニング量子化(PTQ)は、他のタスクに対するゴーツー圧縮法であると考えられている。
本稿では,一意なマルチステップパイプラインとモデルアーキテクチャに適した新しいPTQ手法を提案する。
提案手法は,完全精度の非条件拡散モデルを同等の性能を維持しつつ4ビットに定量化できることを示す。
論文 参考訳(メタデータ) (2023-02-08T19:38:59Z) - On Distillation of Guided Diffusion Models [94.95228078141626]
そこで本研究では,分類器を含まない誘導拡散モデルから抽出し易いモデルへ抽出する手法を提案する。
画素空間上で訓練された標準拡散モデルに対して,本手法は元のモデルに匹敵する画像を生成することができる。
遅延空間で訓練された拡散モデル(例えば、安定拡散)に対して、我々の手法は1から4段階のデノナイジングステップで高忠実度画像を生成することができる。
論文 参考訳(メタデータ) (2022-10-06T18:03:56Z) - How Much is Enough? A Study on Diffusion Times in Score-based Generative
Models [76.76860707897413]
現在のベストプラクティスは、フォワードダイナミクスが既知の単純なノイズ分布に十分に近づくことを確実にするために大きなTを提唱している。
本稿では, 理想とシミュレーションされたフォワードダイナミクスのギャップを埋めるために補助モデルを用いて, 標準的な逆拡散過程を導出する方法について述べる。
論文 参考訳(メタデータ) (2022-06-10T15:09:46Z) - Learning Fast Samplers for Diffusion Models by Differentiating Through
Sample Quality [44.37533757879762]
差分拡散サンプリングサーチ(DDSS)は,任意の事前学習拡散モデルに対して高速サンプリングを最適化する手法である。
また、拡散モデルのためのフレキシブルな非マルコフ型サンプルモデルのファミリーである一般化ガウス拡散モデル(GGDM)を提示する。
本手法は, 微調整や再学習の必要なく, 事前学習した拡散モデルと互換性がある。
論文 参考訳(メタデータ) (2022-02-11T18:53:18Z) - Cascaded Diffusion Models for High Fidelity Image Generation [53.57766722279425]
本研究では,画像ネット生成の課題に対して,カスケード拡散モデルを用いて高忠実度画像を生成可能であることを示す。
カスケード拡散モデルは、解像度が増大する画像を生成する複数の拡散モデルのパイプラインを含む。
その結果,カスケードパイプラインのサンプル品質は,条件付拡張に大きく依存していることがわかった。
論文 参考訳(メタデータ) (2021-05-30T17:14:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。