論文の概要: Fast constrained sampling in pre-trained diffusion models
- arxiv url: http://arxiv.org/abs/2410.18804v2
- Date: Mon, 07 Apr 2025 19:36:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-09 13:26:59.522084
- Title: Fast constrained sampling in pre-trained diffusion models
- Title(参考訳): 事前学習拡散モデルにおける高速拘束サンプリング
- Authors: Alexandros Graikos, Nebojsa Jojic, Dimitris Samaras,
- Abstract要約: 任意の制約下で高速かつ高品質な生成を可能にするアルゴリズムを提案する。
推測中、ノイズの多い画像上で計算された勾配更新と、最終的なクリーンな画像で計算されたアップデートとを交換できる。
我々のアプローチは、最先端のトレーニングフリー推論アプローチに匹敵するか、超越した結果をもたらす。
- 参考スコア(独自算出の注目度): 77.21486516041391
- License:
- Abstract: Large denoising diffusion models, such as Stable Diffusion, have been trained on billions of image-caption pairs to perform text-conditioned image generation. As a byproduct of this training, these models have acquired general knowledge about image statistics, which can be useful for other inference tasks. However, when confronted with sampling an image under new constraints, e.g. generating the missing parts of an image, using large pre-trained text-to-image diffusion models is inefficient and often unreliable. Previous approaches either utilize backpropagation, making them significantly slower and more memory-demanding than text-to-image inference, or only enforce the constraint locally, failing to capture critical long-range correlations. In this work, we propose an algorithm that enables fast and high-quality generation under arbitrary constraints. We observe that, during inference, we can interchange between gradient updates computed on the noisy image and updates computed on the final, clean image. This allows us to employ a numerical approximation to expensive gradient computations, incurring significant speed-ups in inference. Our approach produces results that rival or surpass the state-of-the-art training-free inference approaches while requiring a fraction of the time. We demonstrate the effectiveness of our algorithm under both linear and non-linear constraints. An implementation is provided at https://github.com/cvlab-stonybrook/fast-constrained-sampling.
- Abstract(参考訳): 安定拡散のような大規模な微分拡散モデルは、テキスト条件付き画像生成を行うために何十億もの画像カプセルペアで訓練されている。
このトレーニングの副産物として、これらのモデルは、他の推論タスクに役立つ画像統計に関する一般的な知識を得た。
しかし、新しい制約下で画像のサンプリングに直面した場合、例えば、大きな事前訓練されたテキスト-画像拡散モデルを使用して、画像の欠落部分を生成することは非効率であり、しばしば信頼できない。
以前のアプローチでは、バックプロパゲーションを利用することで、テキストから画像への推論よりも大幅に遅く、メモリ要求が大きくなるか、あるいはローカルでのみ制約を強制し、重要な長距離相関を捕捉できなかった。
本研究では,任意の制約下で高速かつ高品質な生成を可能にするアルゴリズムを提案する。
推測中は、ノイズの多い画像上で計算された勾配更新と、最終的なクリーンな画像上で計算されたアップデートとを交換できる。
これにより、高価な勾配計算に数値近似を適用でき、推論の大幅な高速化がもたらされる。
われわれの手法は、最先端のトレーニング不要推論アプローチに匹敵する、あるいは超越した結果をもたらす。
線形制約と非線形制約の両方でアルゴリズムの有効性を示す。
実装はhttps://github.com/cvlab-stonybrook/fast-constrained-samplingで提供されている。
関連論文リスト
- An Ordinary Differential Equation Sampler with Stochastic Start for Diffusion Bridge Models [13.00429687431982]
拡散ブリッジモデルは、純粋なガウスノイズではなく、劣化した画像から生成過程を初期化する。
既存の拡散ブリッジモデルは、しばしば微分方程式のサンプリングに頼り、推論速度が遅くなる。
拡散ブリッジモデルの開始点を有する高次ODEサンプリング器を提案する。
本手法は, 既訓練拡散ブリッジモデルと完全に互換性があり, 追加の訓練は不要である。
論文 参考訳(メタデータ) (2024-12-28T03:32:26Z) - VIPaint: Image Inpainting with Pre-Trained Diffusion Models via Variational Inference [5.852077003870417]
我々のVIPaint法は,提案手法の妥当性と多様性の両方において,従来の手法よりも優れていることを示す。
我々のVIPaint法は,提案手法の妥当性と多様性の両方において,従来の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-11-28T05:35:36Z) - ReNoise: Real Image Inversion Through Iterative Noising [62.96073631599749]
本研究では,操作数を増やすことなく,高い品質と操作率の逆転法を導入し,再現精度を向上する。
我々は,近年の高速化拡散モデルを含む様々なサンプリングアルゴリズムとモデルを用いて,Renoise手法の性能を評価する。
論文 参考訳(メタデータ) (2024-03-21T17:52:08Z) - CoDi: Conditional Diffusion Distillation for Higher-Fidelity and Faster
Image Generation [49.3016007471979]
大規模な生成拡散モデルは、テキスト・ツー・イメージ生成に革命をもたらし、条件付き生成タスクに大きな可能性を秘めている。
しかし、彼らの普及は高い計算コストによって妨げられ、リアルタイムの応用が制限される。
本稿では,事前学習した潜伏拡散モデルに付加的な画像条件入力を適応させるCoDiという新しい手法を提案する。
論文 参考訳(メタデータ) (2023-10-02T17:59:18Z) - Steered Diffusion: A Generalized Framework for Plug-and-Play Conditional
Image Synthesis [62.07413805483241]
Steered Diffusionは、無条件生成のために訓練された拡散モデルを用いたゼロショット条件画像生成のためのフレームワークである。
塗装,着色,テキスト誘導セマンティック編集,画像超解像などのタスクに対して,ステアリング拡散を用いた実験を行った。
論文 参考訳(メタデータ) (2023-09-30T02:03:22Z) - Simultaneous Image-to-Zero and Zero-to-Noise: Diffusion Models with Analytical Image Attenuation [53.04220377034574]
高品質(未条件)な画像生成のための前方拡散プロセスに解析的画像減衰プロセスを導入することを提案する。
本手法は,フォワード画像からノイズへのマッピングを,テクスチメジからゼロへのマッピングとテクスティケロ・ツー・ノイズマッピングの同時マッピングとして表現する。
我々は,CIFAR-10やCelebA-HQ-256などの無条件画像生成や,超解像,サリエンシ検出,エッジ検出,画像インペインティングなどの画像条件下での下流処理について実験を行った。
論文 参考訳(メタデータ) (2023-06-23T18:08:00Z) - On Distillation of Guided Diffusion Models [94.95228078141626]
そこで本研究では,分類器を含まない誘導拡散モデルから抽出し易いモデルへ抽出する手法を提案する。
画素空間上で訓練された標準拡散モデルに対して,本手法は元のモデルに匹敵する画像を生成することができる。
遅延空間で訓練された拡散モデル(例えば、安定拡散)に対して、我々の手法は1から4段階のデノナイジングステップで高忠実度画像を生成することができる。
論文 参考訳(メタデータ) (2022-10-06T18:03:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。