論文の概要: CoDi: Conditional Diffusion Distillation for Higher-Fidelity and Faster
Image Generation
- arxiv url: http://arxiv.org/abs/2310.01407v2
- Date: Sat, 17 Feb 2024 14:17:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 05:31:49.964950
- Title: CoDi: Conditional Diffusion Distillation for Higher-Fidelity and Faster
Image Generation
- Title(参考訳): CoDi:高忠実・高速画像生成のための条件拡散蒸留
- Authors: Kangfu Mei and Mauricio Delbracio and Hossein Talebi and Zhengzhong Tu
and Vishal M. Patel and Peyman Milanfar
- Abstract要約: 大規模な生成拡散モデルは、テキスト・ツー・イメージ生成に革命をもたらし、条件付き生成タスクに大きな可能性を秘めている。
しかし、彼らの普及は高い計算コストによって妨げられ、リアルタイムの応用が制限される。
本稿では,事前学習した潜伏拡散モデルに付加的な画像条件入力を適応させるCoDiという新しい手法を提案する。
- 参考スコア(独自算出の注目度): 49.3016007471979
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large generative diffusion models have revolutionized text-to-image
generation and offer immense potential for conditional generation tasks such as
image enhancement, restoration, editing, and compositing. However, their
widespread adoption is hindered by the high computational cost, which limits
their real-time application. To address this challenge, we introduce a novel
method dubbed CoDi, that adapts a pre-trained latent diffusion model to accept
additional image conditioning inputs while significantly reducing the sampling
steps required to achieve high-quality results. Our method can leverage
architectures such as ControlNet to incorporate conditioning inputs without
compromising the model's prior knowledge gained during large scale
pre-training. Additionally, a conditional consistency loss enforces consistent
predictions across diffusion steps, effectively compelling the model to
generate high-quality images with conditions in a few steps. Our
conditional-task learning and distillation approach outperforms previous
distillation methods, achieving a new state-of-the-art in producing
high-quality images with very few steps (e.g., 1-4) across multiple tasks,
including super-resolution, text-guided image editing, and depth-to-image
generation.
- Abstract(参考訳): 大規模な生成拡散モデルは、テキストから画像への生成に革命をもたらし、画像の強調、復元、編集、合成といった条件付き生成タスクに大きな可能性を秘めている。
しかし、彼らの普及は高い計算コストによって妨げられ、リアルタイムの応用が制限される。
そこで,本研究では,事前学習した潜在拡散モデルを用いて画像コンディショニング入力を受理し,高品質な結果を得るのに必要なサンプリングステップを大幅に削減する新しい手法codiを提案する。
本手法は, 大規模事前学習中に得られたモデルの事前知識を損なうことなく, コンディショニング入力を組み込むための controlnet などのアーキテクチャを活用できる。
さらに、条件整合性損失は拡散ステップ間の一貫した予測を強制し、数ステップで条件付き高品質な画像を生成することを効果的に促す。
条件付きタスク学習と蒸留のアプローチは,従来の蒸留法を上回っており,超解像,テキストガイド画像編集,奥行き対画像生成など,複数のタスクをまたいで,極めて少ないステップ(1-4など)で高品質な画像を生成するための新たな最先端技術を実現している。
関連論文リスト
- Active Generation for Image Classification [50.18107721267218]
本稿では,モデルのニーズと特徴に着目し,画像生成の効率性に対処することを提案する。
能動学習の中心的傾向として,ActGenという手法が,画像生成のトレーニング・アウェア・アプローチを取り入れている。
論文 参考訳(メタデータ) (2024-03-11T08:45:31Z) - Decoupled Data Consistency with Diffusion Purification for Image
Restoration [10.491534002121044]
本稿では,データ整合性ステップから逆処理を分離することで問題に対処する拡散型画像復元法を提案する。
我々の手法は多目的性を示し、潜在空間における効率的な問題解決に高い適応性を与える。
提案手法の有効性は,画像のデノイング,デブロアリング,インペイント,超解像など,画像修復作業における総合的な実験を通じて検証される。
論文 参考訳(メタデータ) (2024-03-10T00:47:05Z) - TCIG: Two-Stage Controlled Image Generation with Quality Enhancement
through Diffusion [0.0]
画像生成における制御性と高品質を両立させる2段階の手法を提案する。
制御性と高品質を分離することにより,優れた結果が得られる。
論文 参考訳(メタデータ) (2024-03-02T13:59:02Z) - Image Inpainting via Tractable Steering of Diffusion Models [54.13818673257381]
本稿では,トラクタブル確率モデル(TPM)の制約後部を正確に,かつ効率的に計算する能力を活用することを提案する。
具体的には、確率回路(PC)と呼ばれる表現型TPMのクラスを採用する。
提案手法は, 画像の全体的な品質とセマンティックコヒーレンスを, 計算オーバーヘッドを10%加えるだけで一貫的に改善できることを示す。
論文 参考訳(メタデータ) (2023-11-28T21:14:02Z) - Steered Diffusion: A Generalized Framework for Plug-and-Play Conditional
Image Synthesis [62.07413805483241]
Steered Diffusionは、無条件生成のために訓練された拡散モデルを用いたゼロショット条件画像生成のためのフレームワークである。
塗装,着色,テキスト誘導セマンティック編集,画像超解像などのタスクに対して,ステアリング拡散を用いた実験を行った。
論文 参考訳(メタデータ) (2023-09-30T02:03:22Z) - Conditional Generation from Unconditional Diffusion Models using
Denoiser Representations [94.04631421741986]
本稿では,学習したデノイザネットワークの内部表現を用いて,事前学習した非条件拡散モデルを新しい条件に適用することを提案する。
提案手法により生成した合成画像を用いたTiny ImageNetトレーニングセットの強化により,ResNetベースラインの分類精度が最大8%向上することを示す。
論文 参考訳(メタデータ) (2023-06-02T20:09:57Z) - Auto-regressive Image Synthesis with Integrated Quantization [55.51231796778219]
本稿では,条件付き画像生成のための多目的フレームワークを提案する。
CNNの帰納バイアスと自己回帰の強力なシーケンスモデリングが組み込まれている。
提案手法は,最先端技術と比較して,優れた多彩な画像生成性能を実現する。
論文 参考訳(メタデータ) (2022-07-21T22:19:17Z) - High-Resolution Image Synthesis with Latent Diffusion Models [14.786952412297808]
オートエンコーダ上での拡散モデルの訓練は、複雑性の低減と詳細保存の間のほぼ最適点に初めて到達することができる。
我々の潜伏拡散モデル(LDMs)は,様々なタスクにおける画像インペイントと高い競争性能の新たな技術を実現する。
論文 参考訳(メタデータ) (2021-12-20T18:55:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。