論文の概要: Zigzag Diffusion Sampling: The Path to Success Is Zigzag
- arxiv url: http://arxiv.org/abs/2412.10891v1
- Date: Sat, 14 Dec 2024 16:42:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 14:00:00.496639
- Title: Zigzag Diffusion Sampling: The Path to Success Is Zigzag
- Title(参考訳): Zigzag拡散サンプリング:成功への道はZigzag
- Authors: Lichen Bai, Shitong Shao, Zikai Zhou, Zipeng Qi, Zhiqiang Xu, Haoyi Xiong, Zeke Xie,
- Abstract要約: 既存のテキストと画像の拡散モデルは、しばしば、挑戦的なプロンプトに対して高い画質と高いプロンプトのアライメントを維持するのに失敗する。
Z-Samplingは、誘導ギャップを利用して生成プロセス全体を通して意味情報を段階的に蓄積する新しいサンプリング手法である。
Z-Samplingは、さまざまなベンチマークデータセット、拡散モデル、パフォーマンス評価指標で生成品質を大幅に向上させることができる。
- 参考スコア(独自算出の注目度): 28.82743020243849
- License:
- Abstract: Diffusion models, the most popular generative paradigm so far, can inject conditional information into the generation path to guide the latent towards desired directions. However, existing text-to-image diffusion models often fail to maintain high image quality and high prompt-image alignment for those challenging prompts. To mitigate this issue and enhance existing pretrained diffusion models, we mainly made three contributions in this paper. First, we theoretically and empirically demonstrate that the conditional guidance gap between the denoising and inversion processes captures prompt-related semantic information. Second, motivated by theoretical analysis, we derive Zigzag Diffusion Sampling (Z-Sampling), a novel sampling method that leverages the guidance gap to accumulate semantic information step-by-step throughout the entire generation process, leading to improved sampling results. Moreover, as a plug-and-play method, Z-Sampling can be generally applied to various diffusion models (e.g., accelerated ones and Transformer-based ones) with very limited coding and computational costs. Third, our extensive experiments demonstrate that Z-Sampling can generally and significantly enhance generation quality across various benchmark datasets, diffusion models, and performance evaluation metrics. For example, Z-Sampling can even make DreamShaper achieve the HPSv2 winning rate higher than 94% over the original results. Moreover, Z-Sampling can further enhance existing diffusion models combined with other orthogonal methods, including Diffusion-DPO.
- Abstract(参考訳): 拡散モデル(Diffusion model)は、現在最も一般的な生成パラダイムであり、条件情報を生成経路に注入することで、潜伏者を望ましい方向に導くことができる。
しかし、既存のテキスト・画像拡散モデルは、しばしば、困難なプロンプトに対して高い画質と高いプロンプト・イメージアライメントを維持するのに失敗する。
本論文では,この問題を緩和し,既存の事前学習拡散モデルを強化するために,主に3つの貢献を行った。
まず, 理論的, 実験的に, 復調過程と逆転過程の条件付きガイダンスギャップが, 即時関連セマンティック情報を取得することを実証する。
第2に,Zigzag Diffusion Sampling (Z-Sampling) を導出する。これは誘導ギャップを利用して生成プロセス全体を通して意味情報を段階的に蓄積し,サンプリング結果の改善につながる。
さらに、プラグアンドプレイ法として、Z-Samplingは様々な拡散モデル(例えば、アクセラレーションされたもの、トランスフォーマーベースのもの)に非常に限定的なコーディングと計算コストで適用できる。
第3に、Z-Samplingは、様々なベンチマークデータセット、拡散モデル、性能評価指標に対して、一般的に、かつ、著しく生成品質を向上させることができることを示す。
例えば、Z-Samplingは、DreamShaperがHPSv2の勝利率を当初の結果よりも94%以上達成させることもできる。
さらに、Z-Samplingは拡散DPOを含む他の直交法と組み合わせた既存の拡散モデルをさらに強化することができる。
関連論文リスト
- SITCOM: Step-wise Triple-Consistent Diffusion Sampling for Inverse Problems [14.2814208019426]
拡散モデル(英: Diffusion Model、DM)は、トレーニングセット上で学習した分布からサンプリングできる生成モデルのクラスである。
DMは通常、画像空間内の測定条件分布からおよそサンプルに修正される。
これらの修正は、特定の設定(測定ノイズの存在など)や非線形タスクには適さないかもしれない。
測定一貫性拡散軌道を達成するための3つの条件を述べる。
論文 参考訳(メタデータ) (2024-10-06T13:39:36Z) - Fast LiDAR Upsampling using Conditional Diffusion Models [1.3709133749179265]
既存の手法は拡散モデルを用いて高忠実度で洗練されたLiDARデータを生成する可能性を示している。
高速かつ高品質な3次元シーンポイント雲のスパース・ツー・デンスアップサンプリングのための条件拡散モデルに基づく新しいアプローチを提案する。
本手法では,条件付き塗装マスクを用いて訓練した拡散確率モデルを用いて,画像補完タスクの性能向上を図っている。
論文 参考訳(メタデータ) (2024-05-08T08:38:28Z) - Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation [59.184980778643464]
ファインチューニング拡散モデル : 生成人工知能(GenAI)の最前線
本稿では,拡散モデル(SPIN-Diffusion)のための自己演奏ファインチューニングという革新的な手法を紹介する。
提案手法は従来の教師付き微調整とRL戦略の代替として,モデル性能とアライメントの両方を大幅に改善する。
論文 参考訳(メタデータ) (2024-02-15T18:59:18Z) - Semi-Implicit Denoising Diffusion Models (SIDDMs) [50.30163684539586]
Denoising Diffusion Probabilistic Models (DDPM)のような既存のモデルは、高品質で多様なサンプルを提供するが、本質的に多くの反復的なステップによって遅くなる。
暗黙的要因と明示的要因を一致させることにより、この問題に対処する新しいアプローチを導入する。
提案手法は拡散モデルに匹敵する生成性能と,少数のサンプリングステップを持つモデルに比較して非常に優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2023-06-21T18:49:22Z) - A Geometric Perspective on Diffusion Models [57.27857591493788]
本稿では,人気のある分散拡散型SDEのODEに基づくサンプリングについて検討する。
我々は、最適なODEベースのサンプリングと古典的な平均シフト(モード探索)アルゴリズムの理論的関係を確立する。
論文 参考訳(メタデータ) (2023-05-31T15:33:16Z) - Hierarchical Integration Diffusion Model for Realistic Image Deblurring [71.76410266003917]
拡散モデル (DM) は画像劣化に導入され, 有望な性能を示した。
本稿では,階層型統合拡散モデル(HI-Diff)を提案する。
人工的および実世界のぼかしデータセットの実験は、HI-Diffが最先端の手法より優れていることを示した。
論文 参考訳(メタデータ) (2023-05-22T12:18:20Z) - Towards Controllable Diffusion Models via Reward-Guided Exploration [15.857464051475294]
強化学習(RL)による拡散モデルの学習段階を導く新しい枠組みを提案する。
RLは、政策そのものではなく、指数スケールの報酬に比例したペイオフ分布からのサンプルによる政策勾配を計算することができる。
3次元形状と分子生成タスクの実験は、既存の条件拡散モデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-04-14T13:51:26Z) - Reflected Diffusion Models [93.26107023470979]
本稿では,データのサポートに基づいて進化する反射微分方程式を逆転する反射拡散モデルを提案する。
提案手法は,一般化されたスコアマッチング損失を用いてスコア関数を学習し,標準拡散モデルの主要成分を拡張する。
論文 参考訳(メタデータ) (2023-04-10T17:54:38Z) - Fast Inference in Denoising Diffusion Models via MMD Finetuning [23.779985842891705]
拡散モデルの高速サンプリング法であるMDD-DDMを提案する。
我々のアプローチは、学習した分布を所定の予算のタイムステップで微調整するために、最大平均離散性(MMD)を使用するという考え方に基づいている。
提案手法は,広範に普及した拡散モデルで要求されるわずかな時間で高品質なサンプルを生成できることが示唆された。
論文 参考訳(メタデータ) (2023-01-19T09:48:07Z) - Diffusion Glancing Transformer for Parallel Sequence to Sequence
Learning [52.72369034247396]
モーダリティ拡散プロセスと残差グランシングサンプリングを併用した拡散グランシング変換器を提案する。
DIFFGLATは、自己回帰モデルと非自己回帰モデルの両方と比較して、高速な復号速度を維持しながら、より優れた生成精度を実現する。
論文 参考訳(メタデータ) (2022-12-20T13:36:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。