論文の概要: MirrorDiffusion: Stabilizing Diffusion Process in Zero-shot Image
Translation by Prompts Redescription and Beyond
- arxiv url: http://arxiv.org/abs/2401.03221v1
- Date: Sat, 6 Jan 2024 14:12:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-09 19:51:11.512542
- Title: MirrorDiffusion: Stabilizing Diffusion Process in Zero-shot Image
Translation by Prompts Redescription and Beyond
- Title(参考訳): ミラー拡散:プロンプトによるゼロショット画像翻訳における拡散過程の安定化
- Authors: Yupei Lin, Xiaoyu Xian, Yukai Shi, Liang Lin
- Abstract要約: 拡散モデル(MirrorDiffusion)における音源と再構成画像のミラー効果を実現するための素早い再記述手法を提案する。
MirrorDiffusionはゼロショット画像変換ベンチマークの最先端手法よりも優れた性能を実現する。
- 参考スコア(独自算出の注目度): 57.14128305383768
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, text-to-image diffusion models become a new paradigm in image
processing fields, including content generation, image restoration and
image-to-image translation. Given a target prompt, Denoising Diffusion
Probabilistic Models (DDPM) are able to generate realistic yet eligible images.
With this appealing property, the image translation task has the potential to
be free from target image samples for supervision. By using a target text
prompt for domain adaption, the diffusion model is able to implement zero-shot
image-to-image translation advantageously. However, the sampling and inversion
processes of DDPM are stochastic, and thus the inversion process often fail to
reconstruct the input content. Specifically, the displacement effect will
gradually accumulated during the diffusion and inversion processes, which led
to the reconstructed results deviating from the source domain. To make
reconstruction explicit, we propose a prompt redescription strategy to realize
a mirror effect between the source and reconstructed image in the diffusion
model (MirrorDiffusion). More specifically, a prompt redescription mechanism is
investigated to align the text prompts with latent code at each time step of
the Denoising Diffusion Implicit Models (DDIM) inversion to pursue a
structure-preserving reconstruction. With the revised DDIM inversion,
MirrorDiffusion is able to realize accurate zero-shot image translation by
editing optimized text prompts and latent code. Extensive experiments
demonstrate that MirrorDiffusion achieves superior performance over the
state-of-the-art methods on zero-shot image translation benchmarks by clear
margins and practical model stability.
- Abstract(参考訳): 近年,テキスト・画像拡散モデルが,コンテンツ生成や画像復元,画像・画像翻訳といった画像処理分野の新しいパラダイムとなっている。
目標プロンプトが与えられると、ノイズ拡散確率モデル(ddpm)は現実的かつ許容可能な画像を生成することができる。
この魅力的な特性により、画像翻訳タスクは、監視のために対象の画像サンプルから解放される可能性がある。
ドメイン適応のためにターゲットテキストプロンプトを使用することで、拡散モデルはゼロショット画像から画像への変換を有利に実装できる。
しかし、DDPMのサンプリングおよび反転過程は確率的であるため、インバージョンプロセスは入力内容の再構成に失敗することが多い。
具体的には, 拡散・反転過程の間, 変位効果は徐々に増大し, 震源領域から逸脱した再構成結果に繋がる。
そこで本研究では,拡散モデル(MirrorDiffusion)におけるソースと再構成画像間のミラー効果を実現するための,素早い再記述手法を提案する。
より具体的には、ディノージング拡散暗黙モデル(ddim)のインバージョンの各時間ステップでテキストプロンプトを潜在コードと整合させ、構造保存型再構成を追求するプロンプト再記述機構について検討する。
改良されたddimインバージョンにより、mirrordiffusionは最適化されたテキストプロンプトと潜在コード編集により、正確なゼロショット画像翻訳を実現することができる。
広範囲な実験により、mirrordiffusionはゼロショット画像翻訳ベンチマークにおける最先端の手法よりも、明確なマージンと実用的なモデル安定性により優れた性能を達成できることが示されている。
関連論文リスト
- Contrastive Denoising Score for Text-guided Latent Diffusion Image
Editing [63.89492742059184]
本稿では,LDM(Latent Image-to-image Translation Model)に対するCDS(Contrastive Denoising Score)の変更について述べる。
具体的には,フレームワーク内のCUT損失を用いて構造的整合性を制御するための簡単なアプローチを提案する。
提案手法は,ゼロショット画像から画像への変換とニューラルフィールド(NeRF)の編集を可能にする。
論文 参考訳(メタデータ) (2023-11-30T15:06:10Z) - Self-correcting LLM-controlled Diffusion Models [83.26605445217334]
自己補正LPM制御拡散(SLD)を導入する
SLDは、入力プロンプトから画像を生成し、プロンプトとアライメントを評価し、生成した画像の不正確性に対して自己補正を行うフレームワークである。
提案手法は, 生成数, 属性結合, 空間的関係において, 不正確な世代の大部分を補正することができる。
論文 参考訳(メタデータ) (2023-11-27T18:56:37Z) - Effective Real Image Editing with Accelerated Iterative Diffusion
Inversion [6.335245465042035]
現代の生成モデルで自然画像を編集し、操作することは依然として困難である。
逆安定性の問題に対処した既存のアプローチは、しばしば計算効率において大きなトレードオフをもたらす。
本稿では,空間および時間的複雑さの最小限のオーバーヘッドで再構成精度を大幅に向上させる,AIDIと呼ばれる高速化反復拡散インバージョン法を提案する。
論文 参考訳(メタデータ) (2023-09-10T01:23:05Z) - Improving Diffusion-based Image Translation using Asymmetric Gradient
Guidance [51.188396199083336]
非対称勾配法の適用により拡散サンプリングの逆過程を導出する手法を提案する。
我々のモデルの適応性は、画像融合モデルと潜時拡散モデルの両方で実装できる。
実験により,本手法は画像翻訳タスクにおいて,様々な最先端モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-06-07T12:56:56Z) - Unsupervised Representation Learning from Pre-trained Diffusion
Probabilistic Models [83.75414370493289]
拡散確率モデル(DPM)は高品質の画像サンプルを生成する強力な能力を示している。
Diff-AEは自動符号化による表現学習のためのDPMを探索するために提案されている。
我々は、既存のトレーニング済みDPMをデコーダに適応させるために、textbfPre-trained textbfAutotextbfEncoding (textbfPDAE)を提案する。
論文 参考訳(メタデータ) (2022-12-26T02:37:38Z) - EDICT: Exact Diffusion Inversion via Coupled Transformations [13.996171129586731]
拡散過程(反転と呼ばれる)に入力画像を生成する初期ノイズベクトルを見つけることは重要な問題である。
本稿では,アフィン結合層からインスピレーションを得るための逆変換法であるEDICT(Exact Diffusion Inversion)を提案する。
EDICTは、2つの結合ノイズベクトルを維持することにより、実画像とモデル生成画像の数学的に正確な逆変換を可能にする。
論文 参考訳(メタデータ) (2022-11-22T18:02:49Z) - Diffusion-based Image Translation using Disentangled Style and Content
Representation [51.188396199083336]
セマンティックテキストや単一のターゲット画像でガイドされた拡散ベースの画像変換により、柔軟なスタイル変換が可能になった。
逆拡散中、画像の原内容を維持することはしばしば困難である。
本稿では,不整合スタイルとコンテンツ表現を用いた新しい拡散に基づく教師なし画像翻訳手法を提案する。
提案手法は,テキスト誘導と画像誘導の両方の翻訳作業において,最先端のベースラインモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-09-30T06:44:37Z) - Lossy Image Compression with Conditional Diffusion Models [25.158390422252097]
本稿では,拡散生成モデルを用いた画像圧縮のエンドツーエンド最適化について概説する。
VAEベースのニューラル圧縮とは対照的に、(平均)デコーダは決定論的ニューラルネットワークであり、私たちのデコーダは条件付き拡散モデルである。
提案手法では,GANモデルよりもFIDスコアが強く,VAEモデルとの競合性能も高い。
論文 参考訳(メタデータ) (2022-09-14T21:53:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。