論文の概要: Steered Diffusion: A Generalized Framework for Plug-and-Play Conditional
Image Synthesis
- arxiv url: http://arxiv.org/abs/2310.00224v1
- Date: Sat, 30 Sep 2023 02:03:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 05:53:44.531672
- Title: Steered Diffusion: A Generalized Framework for Plug-and-Play Conditional
Image Synthesis
- Title(参考訳): Steered Diffusion: プラグアンドプレイ条件画像合成のための一般化されたフレームワーク
- Authors: Nithin Gopalakrishnan Nair, Anoop Cherian, Suhas Lohit, Ye Wang,
Toshiaki Koike-Akino, Vishal M. Patel, Tim K. Marks
- Abstract要約: Steered Diffusionは、無条件生成のために訓練された拡散モデルを用いたゼロショット条件画像生成のためのフレームワークである。
塗装,着色,テキスト誘導セマンティック編集,画像超解像などのタスクに対して,ステアリング拡散を用いた実験を行った。
- 参考スコア(独自算出の注目度): 62.07413805483241
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conditional generative models typically demand large annotated training sets
to achieve high-quality synthesis. As a result, there has been significant
interest in designing models that perform plug-and-play generation, i.e., to
use a predefined or pretrained model, which is not explicitly trained on the
generative task, to guide the generative process (e.g., using language).
However, such guidance is typically useful only towards synthesizing high-level
semantics rather than editing fine-grained details as in image-to-image
translation tasks. To this end, and capitalizing on the powerful fine-grained
generative control offered by the recent diffusion-based generative models, we
introduce Steered Diffusion, a generalized framework for photorealistic
zero-shot conditional image generation using a diffusion model trained for
unconditional generation. The key idea is to steer the image generation of the
diffusion model at inference time via designing a loss using a pre-trained
inverse model that characterizes the conditional task. This loss modulates the
sampling trajectory of the diffusion process. Our framework allows for easy
incorporation of multiple conditions during inference. We present experiments
using steered diffusion on several tasks including inpainting, colorization,
text-guided semantic editing, and image super-resolution. Our results
demonstrate clear qualitative and quantitative improvements over
state-of-the-art diffusion-based plug-and-play models while adding negligible
additional computational cost.
- Abstract(参考訳): 条件付き生成モデルは通常、高品質な合成を達成するために大きな注釈付きトレーニングセットを要求する。
その結果、プラグアンドプレイ生成を行うモデル、すなわち、生成タスクで明示的に訓練されていない事前定義されたまたは事前訓練されたモデルを使用して、生成プロセス(例えば、言語を使用して)を導くモデルの設計に大きな関心が寄せられている。
しかし、このようなガイダンスは、画像から画像への翻訳タスクのように細かな詳細を編集するよりも、高レベルの意味論の合成にのみ有用である。
この目的のために,最近の拡散ベース生成モデルが提供する強力な細粒度生成制御を活かし,無条件生成を訓練した拡散モデルを用いて,フォトリアリスティックなゼロショット条件付き画像生成のための一般化フレームワークであるステアレート拡散を提案する。
鍵となるアイデアは、条件付きタスクを特徴付ける事前訓練された逆モデルを用いて損失を設計することにより、推論時に拡散モデルのイメージ生成を制御することだ。
この損失は拡散プロセスのサンプリング軌道を変調する。
我々のフレームワークは推論中に容易に複数の条件を組み込むことができる。
塗装,着色,テキスト誘導セマンティック編集,画像超解像などのタスクに対して,ステアリング拡散を用いた実験を行った。
以上の結果から,現状の拡散型プラグ・アンド・プレイモデルに対する質的,定量的な改善が得られた。
関連論文リスト
- Fast constrained sampling in pre-trained diffusion models [77.21486516041391]
拡散モデルは、大規模な生成画像モデルの分野を支配してきた。
本研究では,大規模な事前学習拡散モデルにおける高速拘束サンプリングのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-24T14:52:38Z) - DiffHarmony: Latent Diffusion Model Meets Image Harmonization [11.500358677234939]
拡散モデルは画像から画像への翻訳タスクの迅速な開発を促進する。
スクラッチからの微調整事前学習潜伏拡散モデルは計算集約的である。
本稿では,事前学習した潜伏拡散モデルを画像調和タスクに適用し,調和性はあるが曖昧な初期画像を生成する。
論文 参考訳(メタデータ) (2024-04-09T09:05:23Z) - JoReS-Diff: Joint Retinex and Semantic Priors in Diffusion Model for Low-light Image Enhancement [69.6035373784027]
低照度画像強調(LLIE)は条件付き拡散モデルを用いて有望な性能を実現している。
従来手法は、タスク固有の条件戦略の十分な定式化の重要性を無視するものであった。
本稿では,Retinex および semantic-based pre-processing condition を付加した新しいアプローチである JoReS-Diff を提案する。
論文 参考訳(メタデータ) (2023-12-20T08:05:57Z) - CoDi: Conditional Diffusion Distillation for Higher-Fidelity and Faster
Image Generation [49.3016007471979]
大規模な生成拡散モデルは、テキスト・ツー・イメージ生成に革命をもたらし、条件付き生成タスクに大きな可能性を秘めている。
しかし、彼らの普及は高い計算コストによって妨げられ、リアルタイムの応用が制限される。
本稿では,事前学習した潜伏拡散モデルに付加的な画像条件入力を適応させるCoDiという新しい手法を提案する。
論文 参考訳(メタデータ) (2023-10-02T17:59:18Z) - Conditional Generation from Unconditional Diffusion Models using
Denoiser Representations [94.04631421741986]
本稿では,学習したデノイザネットワークの内部表現を用いて,事前学習した非条件拡散モデルを新しい条件に適用することを提案する。
提案手法により生成した合成画像を用いたTiny ImageNetトレーニングセットの強化により,ResNetベースラインの分類精度が最大8%向上することを示す。
論文 参考訳(メタデータ) (2023-06-02T20:09:57Z) - Generating images of rare concepts using pre-trained diffusion models [32.5337654536764]
テキスト・ツー・イメージ拡散モデルは高品質な画像を合成できるが、様々な制限がある。
これらの制限は、トレーニングデータの長い尾の性質に起因していることが示されています。
ノイズ空間内で適切な生成種を慎重に選択することで、稀な概念を正しく生成できることが示される。
論文 参考訳(メタデータ) (2023-04-27T20:55:38Z) - Person Image Synthesis via Denoising Diffusion Model [116.34633988927429]
本研究では,高忠実度人物画像合成に拡散モデルをいかに応用できるかを示す。
2つの大規模ベンチマークとユーザスタディの結果は、挑戦的なシナリオ下で提案したアプローチのフォトリアリズムを実証している。
論文 参考訳(メタデータ) (2022-11-22T18:59:50Z) - High-Resolution Image Synthesis with Latent Diffusion Models [14.786952412297808]
オートエンコーダ上での拡散モデルの訓練は、複雑性の低減と詳細保存の間のほぼ最適点に初めて到達することができる。
我々の潜伏拡散モデル(LDMs)は,様々なタスクにおける画像インペイントと高い競争性能の新たな技術を実現する。
論文 参考訳(メタデータ) (2021-12-20T18:55:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。