論文の概要: MirrorDiffusion: Stabilizing Diffusion Process in Zero-shot Image
Translation by Prompts Redescription and Beyond
- arxiv url: http://arxiv.org/abs/2401.03221v1
- Date: Sat, 6 Jan 2024 14:12:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-09 19:51:11.512542
- Title: MirrorDiffusion: Stabilizing Diffusion Process in Zero-shot Image
Translation by Prompts Redescription and Beyond
- Title(参考訳): ミラー拡散:プロンプトによるゼロショット画像翻訳における拡散過程の安定化
- Authors: Yupei Lin, Xiaoyu Xian, Yukai Shi, Liang Lin
- Abstract要約: 拡散モデル(MirrorDiffusion)における音源と再構成画像のミラー効果を実現するための素早い再記述手法を提案する。
MirrorDiffusionはゼロショット画像変換ベンチマークの最先端手法よりも優れた性能を実現する。
- 参考スコア(独自算出の注目度): 57.14128305383768
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, text-to-image diffusion models become a new paradigm in image
processing fields, including content generation, image restoration and
image-to-image translation. Given a target prompt, Denoising Diffusion
Probabilistic Models (DDPM) are able to generate realistic yet eligible images.
With this appealing property, the image translation task has the potential to
be free from target image samples for supervision. By using a target text
prompt for domain adaption, the diffusion model is able to implement zero-shot
image-to-image translation advantageously. However, the sampling and inversion
processes of DDPM are stochastic, and thus the inversion process often fail to
reconstruct the input content. Specifically, the displacement effect will
gradually accumulated during the diffusion and inversion processes, which led
to the reconstructed results deviating from the source domain. To make
reconstruction explicit, we propose a prompt redescription strategy to realize
a mirror effect between the source and reconstructed image in the diffusion
model (MirrorDiffusion). More specifically, a prompt redescription mechanism is
investigated to align the text prompts with latent code at each time step of
the Denoising Diffusion Implicit Models (DDIM) inversion to pursue a
structure-preserving reconstruction. With the revised DDIM inversion,
MirrorDiffusion is able to realize accurate zero-shot image translation by
editing optimized text prompts and latent code. Extensive experiments
demonstrate that MirrorDiffusion achieves superior performance over the
state-of-the-art methods on zero-shot image translation benchmarks by clear
margins and practical model stability.
- Abstract(参考訳): 近年,テキスト・画像拡散モデルが,コンテンツ生成や画像復元,画像・画像翻訳といった画像処理分野の新しいパラダイムとなっている。
目標プロンプトが与えられると、ノイズ拡散確率モデル(ddpm)は現実的かつ許容可能な画像を生成することができる。
この魅力的な特性により、画像翻訳タスクは、監視のために対象の画像サンプルから解放される可能性がある。
ドメイン適応のためにターゲットテキストプロンプトを使用することで、拡散モデルはゼロショット画像から画像への変換を有利に実装できる。
しかし、DDPMのサンプリングおよび反転過程は確率的であるため、インバージョンプロセスは入力内容の再構成に失敗することが多い。
具体的には, 拡散・反転過程の間, 変位効果は徐々に増大し, 震源領域から逸脱した再構成結果に繋がる。
そこで本研究では,拡散モデル(MirrorDiffusion)におけるソースと再構成画像間のミラー効果を実現するための,素早い再記述手法を提案する。
より具体的には、ディノージング拡散暗黙モデル(ddim)のインバージョンの各時間ステップでテキストプロンプトを潜在コードと整合させ、構造保存型再構成を追求するプロンプト再記述機構について検討する。
改良されたddimインバージョンにより、mirrordiffusionは最適化されたテキストプロンプトと潜在コード編集により、正確なゼロショット画像翻訳を実現することができる。
広範囲な実験により、mirrordiffusionはゼロショット画像翻訳ベンチマークにおける最先端の手法よりも、明確なマージンと実用的なモデル安定性により優れた性能を達成できることが示されている。
関連論文リスト
- ERDDCI: Exact Reversible Diffusion via Dual-Chain Inversion for High-Quality Image Editing [20.46262679357339]
拡散モデル(DM)は実画像編集に成功している。
近年のDMは、しばしば局所線形化の仮定に依存している。
ERDDCIは、新しいDual-Chain Inversion (DCI) を用いて関節推論を行い、正確な可逆拡散過程を導出する。
論文 参考訳(メタデータ) (2024-10-18T07:52:03Z) - Invertible Consistency Distillation for Text-Guided Image Editing in Around 7 Steps [24.372192691537897]
本研究の目的は, 蒸留されたテキストから画像への拡散モデルに, 実画像の潜在空間へのエンコードを効果的に行うことにある。
Invertible Consistency Distillation (iCD) は,高画質な画像合成と高精度な画像符号化を,わずか3~4ステップで実現する,汎用的な一貫性蒸留フレームワークである。
我々は、ダイナミックガイダンスを備えたiCDが、より高価な最先端の代替品と競合して、ゼロショットテキスト誘導画像編集の高効率ツールとして役立つことを実証した。
論文 参考訳(メタデータ) (2024-06-20T17:49:11Z) - ReNoise: Real Image Inversion Through Iterative Noising [62.96073631599749]
本研究では,操作数を増やすことなく,高い品質と操作率の逆転法を導入し,再現精度を向上する。
我々は,近年の高速化拡散モデルを含む様々なサンプリングアルゴリズムとモデルを用いて,Renoise手法の性能を評価する。
論文 参考訳(メタデータ) (2024-03-21T17:52:08Z) - Contrastive Denoising Score for Text-guided Latent Diffusion Image Editing [58.48890547818074]
潜在拡散モデル(LDM)に対するコントラストデノナイジングスコア(CUT)の強力な修正を提案する。
提案手法により,ゼロショット画像から画像への変換とニューラルフィールド(NeRF)の編集が可能となり,入力と出力の間の構造的対応が達成される。
論文 参考訳(メタデータ) (2023-11-30T15:06:10Z) - Self-correcting LLM-controlled Diffusion Models [83.26605445217334]
自己補正LPM制御拡散(SLD)を導入する
SLDは、入力プロンプトから画像を生成し、プロンプトとアライメントを評価し、生成した画像の不正確性に対して自己補正を行うフレームワークである。
提案手法は, 生成数, 属性結合, 空間的関係において, 不正確な世代の大部分を補正することができる。
論文 参考訳(メタデータ) (2023-11-27T18:56:37Z) - Resfusion: Denoising Diffusion Probabilistic Models for Image Restoration Based on Prior Residual Noise [34.65659277870287]
微分拡散モデルの研究は、画像復元の分野への応用を拡大した。
本稿では,残余項を拡散前進過程に組み込むフレームワークであるResfusionを提案する。
Resfusionは, ISTDデータセット, LOLデータセット, Raindropデータセットに対して, わずか5つのサンプリングステップで競合性能を示すことを示す。
論文 参考訳(メタデータ) (2023-11-25T02:09:38Z) - Effective Real Image Editing with Accelerated Iterative Diffusion
Inversion [6.335245465042035]
現代の生成モデルで自然画像を編集し、操作することは依然として困難である。
逆安定性の問題に対処した既存のアプローチは、しばしば計算効率において大きなトレードオフをもたらす。
本稿では,空間および時間的複雑さの最小限のオーバーヘッドで再構成精度を大幅に向上させる,AIDIと呼ばれる高速化反復拡散インバージョン法を提案する。
論文 参考訳(メタデータ) (2023-09-10T01:23:05Z) - Improving Diffusion-based Image Translation using Asymmetric Gradient
Guidance [51.188396199083336]
非対称勾配法の適用により拡散サンプリングの逆過程を導出する手法を提案する。
我々のモデルの適応性は、画像融合モデルと潜時拡散モデルの両方で実装できる。
実験により,本手法は画像翻訳タスクにおいて,様々な最先端モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-06-07T12:56:56Z) - EDICT: Exact Diffusion Inversion via Coupled Transformations [13.996171129586731]
拡散過程(反転と呼ばれる)に入力画像を生成する初期ノイズベクトルを見つけることは重要な問題である。
本稿では,アフィン結合層からインスピレーションを得るための逆変換法であるEDICT(Exact Diffusion Inversion)を提案する。
EDICTは、2つの結合ノイズベクトルを維持することにより、実画像とモデル生成画像の数学的に正確な逆変換を可能にする。
論文 参考訳(メタデータ) (2022-11-22T18:02:49Z) - Diffusion-based Image Translation using Disentangled Style and Content
Representation [51.188396199083336]
セマンティックテキストや単一のターゲット画像でガイドされた拡散ベースの画像変換により、柔軟なスタイル変換が可能になった。
逆拡散中、画像の原内容を維持することはしばしば困難である。
本稿では,不整合スタイルとコンテンツ表現を用いた新しい拡散に基づく教師なし画像翻訳手法を提案する。
提案手法は,テキスト誘導と画像誘導の両方の翻訳作業において,最先端のベースラインモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-09-30T06:44:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。