論文の概要: Zigzag Diffusion Sampling: Diffusion Models Can Self-Improve via Self-Reflection
- arxiv url: http://arxiv.org/abs/2412.10891v2
- Date: Tue, 17 Dec 2024 05:23:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-18 14:00:23.306811
- Title: Zigzag Diffusion Sampling: Diffusion Models Can Self-Improve via Self-Reflection
- Title(参考訳): Zigzag拡散サンプリング:拡散モデルによる自己回帰による自己改善
- Authors: Lichen Bai, Shitong Shao, Zikai Zhou, Zipeng Qi, Zhiqiang Xu, Haoyi Xiong, Zeke Xie,
- Abstract要約: 既存のテキストと画像の拡散モデルは、しばしば挑戦的なプロンプトに対して高い画質と高いプロンプトのアライメントを維持するのに失敗する。
本稿では, 交互に denoising と inversion を行う拡散自己回帰法を提案する。
我々は,新しい自己反射型拡散サンプリング法であるZigzag Diffusion Smpling (Z-Sampling) を導出した。
- 参考スコア(独自算出の注目度): 28.82743020243849
- License:
- Abstract: Diffusion models, the most popular generative paradigm so far, can inject conditional information into the generation path to guide the latent towards desired directions. However, existing text-to-image diffusion models often fail to maintain high image quality and high prompt-image alignment for those challenging prompts. To mitigate this issue and enhance existing pretrained diffusion models, we mainly made three contributions in this paper. First, we propose diffusion self-reflection that alternately performs denoising and inversion and demonstrate that such diffusion self-reflection can leverage the guidance gap between denoising and inversion to capture prompt-related semantic information with theoretical and empirical evidence. Second, motivated by theoretical analysis, we derive Zigzag Diffusion Sampling (Z-Sampling), a novel self-reflection-based diffusion sampling method that leverages the guidance gap between denosing and inversion to accumulate semantic information step by step along the sampling path, leading to improved sampling results. Moreover, as a plug-and-play method, Z-Sampling can be generally applied to various diffusion models (e.g., accelerated ones and Transformer-based ones) with very limited coding and computational costs. Third, our extensive experiments demonstrate that Z-Sampling can generally and significantly enhance generation quality across various benchmark datasets, diffusion models, and performance evaluation metrics. For example, DreamShaper with Z-Sampling can self-improve with the HPSv2 winning rate up to 94% over the original results. Moreover, Z-Sampling can further enhance existing diffusion models combined with other orthogonal methods, including Diffusion-DPO.
- Abstract(参考訳): 拡散モデル(Diffusion model)は、現在最も一般的な生成パラダイムであり、条件情報を生成経路に注入することで、潜伏者を望ましい方向に導くことができる。
しかし、既存のテキスト・画像拡散モデルは、しばしば、困難なプロンプトに対して高い画質と高いプロンプト・イメージアライメントを維持するのに失敗する。
本論文では,この問題を緩和し,既存の事前学習拡散モデルを強化するために,主に3つの貢献を行った。
まず,拡散自己回帰を交互に行う拡散自己回帰法を提案し,その拡散自己回帰法は,復調と逆転のガイダンスギャップを利用して,理論的および経験的証拠を用いて,即時関連意味情報を捉えることができることを示す。
第2に,Zigzag Diffusion Smpling (Z-Sampling) を導出した。これは,デノシングとインバージョン間のガイダンスギャップを利用して,サンプリング経路に沿ってステップを踏んで意味情報を蓄積し,サンプリング結果の改善を実現する,自己回帰に基づく拡散サンプリング法である。
さらに、プラグアンドプレイ法として、Z-Samplingは様々な拡散モデル(例えば、アクセラレーションされたもの、トランスフォーマーベースのもの)に非常に限定的なコーディングと計算コストで適用できる。
第3に、Z-Samplingは、様々なベンチマークデータセット、拡散モデル、性能評価指標に対して、一般的に、かつ、著しく生成品質を向上させることができることを示す。
例えば、Z-SamplingのDreamShaperは、HPSv2の勝利率を94%まで向上させることができる。
さらに、Z-Samplingは拡散DPOを含む他の直交法と組み合わせた既存の拡散モデルをさらに強化することができる。
関連論文リスト
- Diffusing Differentiable Representations [60.72992910766525]
本稿では,事前学習した拡散モデルを用いて,微分可能な表現(拡散)をサンプリングする,新しい学習自由な手法を提案する。
差分によって引き起こされるサンプルに対する暗黙の制約を特定し、この制約に対処することで、生成されたオブジェクトの一貫性と詳細が大幅に改善されることを示す。
論文 参考訳(メタデータ) (2024-12-09T20:42:58Z) - Diffusion Rejection Sampling [13.945372555871414]
Diffusion Rejection Sampling (DiffRS) は、サンプリングされたトランジションカーネルを各タイムステップで真のカーネルと整列するリジェクションサンプリングスキームである。
提案手法は, 各中間段階における試料の品質を評価し, 試料に応じて異なる作業で精製する機構とみなすことができる。
実験により,ベンチマークデータセット上でのDiffRSの最先端性能と高速拡散サンプリングおよび大規模テキスト・画像拡散モデルに対するDiffRSの有効性を実証した。
論文 参考訳(メタデータ) (2024-05-28T07:00:28Z) - Guided Diffusion from Self-Supervised Diffusion Features [49.78673164423208]
ガイダンスは拡散モデルにおいて重要な概念として機能するが、その効果は追加のデータアノテーションや事前学習の必要性によって制限されることが多い。
本稿では,拡散モデルからガイダンスを抽出するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-14T11:19:11Z) - Semi-Implicit Denoising Diffusion Models (SIDDMs) [50.30163684539586]
Denoising Diffusion Probabilistic Models (DDPM)のような既存のモデルは、高品質で多様なサンプルを提供するが、本質的に多くの反復的なステップによって遅くなる。
暗黙的要因と明示的要因を一致させることにより、この問題に対処する新しいアプローチを導入する。
提案手法は拡散モデルに匹敵する生成性能と,少数のサンプリングステップを持つモデルに比較して非常に優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2023-06-21T18:49:22Z) - A Variational Perspective on Solving Inverse Problems with Diffusion
Models [101.831766524264]
逆タスクは、データ上の後続分布を推測するものとして定式化することができる。
しかし、拡散過程の非線形的かつ反復的な性質が後部を引き付けるため、拡散モデルではこれは困難である。
そこで我々は,真の後続分布を近似する設計手法を提案する。
論文 参考訳(メタデータ) (2023-05-07T23:00:47Z) - Towards Controllable Diffusion Models via Reward-Guided Exploration [15.857464051475294]
強化学習(RL)による拡散モデルの学習段階を導く新しい枠組みを提案する。
RLは、政策そのものではなく、指数スケールの報酬に比例したペイオフ分布からのサンプルによる政策勾配を計算することができる。
3次元形状と分子生成タスクの実験は、既存の条件拡散モデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-04-14T13:51:26Z) - Reflected Diffusion Models [93.26107023470979]
本稿では,データのサポートに基づいて進化する反射微分方程式を逆転する反射拡散モデルを提案する。
提案手法は,一般化されたスコアマッチング損失を用いてスコア関数を学習し,標準拡散モデルの主要成分を拡張する。
論文 参考訳(メタデータ) (2023-04-10T17:54:38Z) - Fast Inference in Denoising Diffusion Models via MMD Finetuning [23.779985842891705]
拡散モデルの高速サンプリング法であるMDD-DDMを提案する。
我々のアプローチは、学習した分布を所定の予算のタイムステップで微調整するために、最大平均離散性(MMD)を使用するという考え方に基づいている。
提案手法は,広範に普及した拡散モデルで要求されるわずかな時間で高品質なサンプルを生成できることが示唆された。
論文 参考訳(メタデータ) (2023-01-19T09:48:07Z) - Unifying Diffusion Models' Latent Space, with Applications to
CycleDiffusion and Guidance [95.12230117950232]
関係領域で独立に訓練された2つの拡散モデルから共通潜時空間が現れることを示す。
テキスト・画像拡散モデルにCycleDiffusionを適用することで、大規模なテキスト・画像拡散モデルがゼロショット画像・画像拡散エディタとして使用できることを示す。
論文 参考訳(メタデータ) (2022-10-11T15:53:52Z) - Come-Closer-Diffuse-Faster: Accelerating Conditional Diffusion Models
for Inverse Problems through Stochastic Contraction [31.61199061999173]
拡散モデルには重要な欠点がある。純粋なガウスノイズから画像を生成するために数千ステップの反復を必要とするため、サンプリングが本質的に遅い。
ガウスノイズから始めることは不要であることを示す。代わりに、より優れた初期化を伴う単一前方拡散から始めると、逆条件拡散におけるサンプリングステップの数を大幅に減少させる。
ComeCloser-DiffuseFaster (CCDF)と呼ばれる新しいサンプリング戦略は、逆問題に対する既存のフィードフォワードニューラルネットワークアプローチが拡散モデルと相乗的に組み合わせられる方法について、新たな洞察を明らかにしている。
論文 参考訳(メタデータ) (2021-12-09T04:28:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。