論文の概要: Fast constrained sampling in pre-trained diffusion models
- arxiv url: http://arxiv.org/abs/2410.18804v2
- Date: Mon, 07 Apr 2025 19:36:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-09 14:46:26.504077
- Title: Fast constrained sampling in pre-trained diffusion models
- Title(参考訳): 事前学習拡散モデルにおける高速拘束サンプリング
- Authors: Alexandros Graikos, Nebojsa Jojic, Dimitris Samaras,
- Abstract要約: 任意の制約下で高速かつ高品質な生成を可能にするアルゴリズムを提案する。
推測中、ノイズの多い画像上で計算された勾配更新と、最終的なクリーンな画像で計算されたアップデートとを交換できる。
我々のアプローチは、最先端のトレーニングフリー推論アプローチに匹敵するか、超越した結果をもたらす。
- 参考スコア(独自算出の注目度): 77.21486516041391
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large denoising diffusion models, such as Stable Diffusion, have been trained on billions of image-caption pairs to perform text-conditioned image generation. As a byproduct of this training, these models have acquired general knowledge about image statistics, which can be useful for other inference tasks. However, when confronted with sampling an image under new constraints, e.g. generating the missing parts of an image, using large pre-trained text-to-image diffusion models is inefficient and often unreliable. Previous approaches either utilize backpropagation, making them significantly slower and more memory-demanding than text-to-image inference, or only enforce the constraint locally, failing to capture critical long-range correlations. In this work, we propose an algorithm that enables fast and high-quality generation under arbitrary constraints. We observe that, during inference, we can interchange between gradient updates computed on the noisy image and updates computed on the final, clean image. This allows us to employ a numerical approximation to expensive gradient computations, incurring significant speed-ups in inference. Our approach produces results that rival or surpass the state-of-the-art training-free inference approaches while requiring a fraction of the time. We demonstrate the effectiveness of our algorithm under both linear and non-linear constraints. An implementation is provided at https://github.com/cvlab-stonybrook/fast-constrained-sampling.
- Abstract(参考訳): 安定拡散のような大規模な微分拡散モデルは、テキスト条件付き画像生成を行うために何十億もの画像カプセルペアで訓練されている。
このトレーニングの副産物として、これらのモデルは、他の推論タスクに役立つ画像統計に関する一般的な知識を得た。
しかし、新しい制約下で画像のサンプリングに直面した場合、例えば、大きな事前訓練されたテキスト-画像拡散モデルを使用して、画像の欠落部分を生成することは非効率であり、しばしば信頼できない。
以前のアプローチでは、バックプロパゲーションを利用することで、テキストから画像への推論よりも大幅に遅く、メモリ要求が大きくなるか、あるいはローカルでのみ制約を強制し、重要な長距離相関を捕捉できなかった。
本研究では,任意の制約下で高速かつ高品質な生成を可能にするアルゴリズムを提案する。
推測中は、ノイズの多い画像上で計算された勾配更新と、最終的なクリーンな画像上で計算されたアップデートとを交換できる。
これにより、高価な勾配計算に数値近似を適用でき、推論の大幅な高速化がもたらされる。
われわれの手法は、最先端のトレーニング不要推論アプローチに匹敵する、あるいは超越した結果をもたらす。
線形制約と非線形制約の両方でアルゴリズムの有効性を示す。
実装はhttps://github.com/cvlab-stonybrook/fast-constrained-samplingで提供されている。
関連論文リスト
- Towards Better Alignment: Training Diffusion Models with Reinforcement Learning Against Sparse Rewards [52.90573877727541]
拡散モデル微調整では強化学習(RL)が検討されている。
RLの有効性はスパース報酬の挑戦によって制限される。
$textB2text-DiffuRL$は既存の最適化アルゴリズムと互換性がある。
論文 参考訳(メタデータ) (2025-03-14T09:45:19Z) - Robust Representation Consistency Model via Contrastive Denoising [83.47584074390842]
ランダムな平滑化は、敵の摂動に対する堅牢性を証明する理論的保証を提供する。
拡散モデルは、ノイズ摂動サンプルを浄化するためにランダムな平滑化に成功している。
我々は,画素空間における拡散軌跡に沿った生成的モデリングタスクを,潜在空間における識別的タスクとして再構成する。
論文 参考訳(メタデータ) (2025-01-22T18:52:06Z) - Time Step Generating: A Universal Synthesized Deepfake Image Detector [0.4488895231267077]
汎用合成画像検出器 Time Step Generating (TSG) を提案する。
TSGは、事前訓練されたモデルの再構築能力、特定のデータセット、サンプリングアルゴリズムに依存していない。
我々は,提案したTSGを大規模GenImageベンチマークで検証し,精度と一般化性の両方において大幅な改善を実現した。
論文 参考訳(メタデータ) (2024-11-17T09:39:50Z) - Towards Unsupervised Blind Face Restoration using Diffusion Prior [12.69610609088771]
ブラインド顔復元法は、教師付き学習による大規模合成データセットの訓練において、顕著な性能を示した。
これらのデータセットは、手作りの画像分解パイプラインで、低品質の顔イメージをシミュレートすることによって生成されることが多い。
本稿では, 入力画像の集合のみを用いて, 劣化が不明で, 真理の目標がない場合にのみ, 復元モデルの微調整を行うことにより, この問題に対処する。
我々の最良のモデルは、合成と実世界の両方のデータセットの最先端の結果も達成します。
論文 参考訳(メタデータ) (2024-10-06T20:38:14Z) - SpotDiffusion: A Fast Approach For Seamless Panorama Generation Over Time [7.532695984765271]
生成モデルを用いて高解像度画像を生成する新しい手法を提案する。
提案手法は,時間とともに重なりのないデノベーションウィンドウをシフトさせ,一段階のシームが次回修正されるようにする。
提案手法は計算効率の向上や推論時間の高速化など,いくつかの重要な利点を提供する。
論文 参考訳(メタデータ) (2024-07-22T09:44:35Z) - Identifying and Solving Conditional Image Leakage in Image-to-Video Diffusion Model [31.70050311326183]
拡散モデルは、予想より少ない動きでビデオを生成する傾向がある。
推論とトレーニングの両方の観点からこの問題に対処します。
提案手法は,より低い誤差で高い動作スコアを生成することにより,ベースラインを上回ります。
論文 参考訳(メタデータ) (2024-06-22T04:56:16Z) - ReNoise: Real Image Inversion Through Iterative Noising [62.96073631599749]
本研究では,操作数を増やすことなく,高い品質と操作率の逆転法を導入し,再現精度を向上する。
我々は,近年の高速化拡散モデルを含む様々なサンプリングアルゴリズムとモデルを用いて,Renoise手法の性能を評価する。
論文 参考訳(メタデータ) (2024-03-21T17:52:08Z) - CoDi: Conditional Diffusion Distillation for Higher-Fidelity and Faster
Image Generation [49.3016007471979]
大規模な生成拡散モデルは、テキスト・ツー・イメージ生成に革命をもたらし、条件付き生成タスクに大きな可能性を秘めている。
しかし、彼らの普及は高い計算コストによって妨げられ、リアルタイムの応用が制限される。
本稿では,事前学習した潜伏拡散モデルに付加的な画像条件入力を適応させるCoDiという新しい手法を提案する。
論文 参考訳(メタデータ) (2023-10-02T17:59:18Z) - Steered Diffusion: A Generalized Framework for Plug-and-Play Conditional
Image Synthesis [62.07413805483241]
Steered Diffusionは、無条件生成のために訓練された拡散モデルを用いたゼロショット条件画像生成のためのフレームワークである。
塗装,着色,テキスト誘導セマンティック編集,画像超解像などのタスクに対して,ステアリング拡散を用いた実験を行った。
論文 参考訳(メタデータ) (2023-09-30T02:03:22Z) - Simultaneous Image-to-Zero and Zero-to-Noise: Diffusion Models with Analytical Image Attenuation [53.04220377034574]
高品質(未条件)な画像生成のための前方拡散プロセスに解析的画像減衰プロセスを導入することを提案する。
本手法は,フォワード画像からノイズへのマッピングを,テクスチメジからゼロへのマッピングとテクスティケロ・ツー・ノイズマッピングの同時マッピングとして表現する。
我々は,CIFAR-10やCelebA-HQ-256などの無条件画像生成や,超解像,サリエンシ検出,エッジ検出,画像インペインティングなどの画像条件下での下流処理について実験を行った。
論文 参考訳(メタデータ) (2023-06-23T18:08:00Z) - BOOT: Data-free Distillation of Denoising Diffusion Models with
Bootstrapping [64.54271680071373]
拡散モデルは多様な画像を生成する優れた可能性を示している。
知識蒸留は、推論ステップの数を1つか数に減らすための治療法として最近提案されている。
本稿では,効率的なデータフリー蒸留アルゴリズムにより限界を克服するBOOTと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-06-08T20:30:55Z) - Fast Sampling of Diffusion Models via Operator Learning [74.37531458470086]
我々は,拡散モデルのサンプリング過程を高速化するために,確率フロー微分方程式の効率的な解法であるニューラル演算子を用いる。
シーケンシャルな性質を持つ他の高速サンプリング手法と比較して、並列復号法を最初に提案する。
本稿では,CIFAR-10では3.78、ImageNet-64では7.83の最先端FIDを1モデル評価環境で達成することを示す。
論文 参考訳(メタデータ) (2022-11-24T07:30:27Z) - Conffusion: Confidence Intervals for Diffusion Models [32.36217153362305]
現在の拡散法は、生成された結果に関する統計的保証を提供していない。
我々は,1つの前方通過における間隔境界を予測するために,事前学習した拡散モデルを微調整する融合法を提案する。
コンフュージョンは3桁の精度でベースライン法より優れていることを示す。
論文 参考訳(メタデータ) (2022-11-17T18:58:15Z) - On Distillation of Guided Diffusion Models [94.95228078141626]
そこで本研究では,分類器を含まない誘導拡散モデルから抽出し易いモデルへ抽出する手法を提案する。
画素空間上で訓練された標準拡散モデルに対して,本手法は元のモデルに匹敵する画像を生成することができる。
遅延空間で訓練された拡散モデル(例えば、安定拡散)に対して、我々の手法は1から4段階のデノナイジングステップで高忠実度画像を生成することができる。
論文 参考訳(メタデータ) (2022-10-06T18:03:56Z) - DeFlow: Learning Complex Image Degradations from Unpaired Data with
Conditional Flows [145.83812019515818]
本論文では,不対データから画像劣化を学習するDeFlowを提案する。
共有フローデコーダネットワークの潜在空間における劣化過程をモデル化する。
共同画像復元と超解像におけるDeFlowの定式化を検証した。
論文 参考訳(メタデータ) (2021-01-14T18:58:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。