論文の概要: SimInversion: A Simple Framework for Inversion-Based Text-to-Image Editing
- arxiv url: http://arxiv.org/abs/2409.10476v1
- Date: Mon, 16 Sep 2024 17:10:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-17 14:48:31.366787
- Title: SimInversion: A Simple Framework for Inversion-Based Text-to-Image Editing
- Title(参考訳): SimInversion: インバージョンベースのテキスト-画像編集のためのシンプルなフレームワーク
- Authors: Qi Qian, Haiyang Xu, Ming Yan, Juhua Hu,
- Abstract要約: 本稿では、ソースとターゲットブランチのガイダンススケールをアンタングルして、元のフレームワークを維持しながらエラーを低減することを提案する。
PIE-Benchの実験により, DDIMインバージョンの性能は, 効率を犠牲にすることなく劇的に向上できることを示した。
- 参考スコア(独自算出の注目度): 27.81211305463269
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models demonstrate impressive image generation performance with text guidance. Inspired by the learning process of diffusion, existing images can be edited according to text by DDIM inversion. However, the vanilla DDIM inversion is not optimized for classifier-free guidance and the accumulated error will result in the undesired performance. While many algorithms are developed to improve the framework of DDIM inversion for editing, in this work, we investigate the approximation error in DDIM inversion and propose to disentangle the guidance scale for the source and target branches to reduce the error while keeping the original framework. Moreover, a better guidance scale (i.e., 0.5) than default settings can be derived theoretically. Experiments on PIE-Bench show that our proposal can improve the performance of DDIM inversion dramatically without sacrificing efficiency.
- Abstract(参考訳): 拡散モデルはテキスト誘導による印象的な画像生成性能を示す。
拡散の学習プロセスにインスパイアされた既存の画像は、DDIMインバージョンによってテキストに従って編集できる。
しかし、バニラDDIMのインバージョンは分類子なしのガイダンスに最適化されておらず、累積誤差は望ましくない性能をもたらす。
本研究では,DDIMの編集のためのフレームワークを改善するために多くのアルゴリズムが開発されているが,DDIMのインバージョンにおける近似誤差について検討し,元のフレームワークを維持しながら,ソースとターゲットブランチのガイダンススケールをアンタングルしてエラーを低減することを提案する。
さらに、デフォルト設定よりも優れたガイダンススケール(すなわち0.5)を理論的に導出することができる。
PIE-Benchの実験により, DDIMインバージョンの性能は, 効率を犠牲にすることなく劇的に向上できることを示した。
関連論文リスト
- Efficient Diffusion as Low Light Enhancer [63.789138528062225]
RATR(Reflectance-Aware Trajectory Refinement)は、イメージの反射成分を用いて教師の軌跡を洗練するための、シンプルで効果的なモジュールである。
textbfReDDiT (textbfDistilled textbfTrajectory) は低照度画像強調(LLIE)に適した効率的で柔軟な蒸留フレームワークである。
論文 参考訳(メタデータ) (2024-10-16T08:07:18Z) - Task-Oriented Diffusion Inversion for High-Fidelity Text-based Editing [60.730661748555214]
textbfTask-textbfOriented textbfDiffusion textbfInversion (textbfTODInv) は、特定の編集タスクに適した実際の画像を反転して編集する新しいフレームワークである。
ToDInvは相互最適化によってインバージョンと編集をシームレスに統合し、高い忠実さと正確な編集性を保証する。
論文 参考訳(メタデータ) (2024-08-23T22:16:34Z) - MirrorDiffusion: Stabilizing Diffusion Process in Zero-shot Image
Translation by Prompts Redescription and Beyond [57.14128305383768]
拡散モデル(MirrorDiffusion)における音源と再構成画像のミラー効果を実現するための素早い再記述手法を提案する。
MirrorDiffusionはゼロショット画像変換ベンチマークの最先端手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2024-01-06T14:12:16Z) - Tuning-Free Inversion-Enhanced Control for Consistent Image Editing [44.311286151669464]
我々は、チューニング不要なインバージョン強化制御(TIC)と呼ばれる新しいアプローチを提案する。
TICは、インバージョンプロセスとサンプリングプロセスの特徴を相関付け、DDIM再構成の不整合を軽減する。
また、インバージョンと単純なDDIM編集プロセスの両方の内容を組み合わせたマスク誘導型アテンション結合戦略を提案する。
論文 参考訳(メタデータ) (2023-12-22T11:13:22Z) - Contrastive Denoising Score for Text-guided Latent Diffusion Image Editing [58.48890547818074]
潜在拡散モデル(LDM)に対するコントラストデノナイジングスコア(CUT)の強力な修正を提案する。
提案手法により,ゼロショット画像から画像への変換とニューラルフィールド(NeRF)の編集が可能となり,入力と出力の間の構造的対応が達成される。
論文 参考訳(メタデータ) (2023-11-30T15:06:10Z) - Effective Real Image Editing with Accelerated Iterative Diffusion
Inversion [6.335245465042035]
現代の生成モデルで自然画像を編集し、操作することは依然として困難である。
逆安定性の問題に対処した既存のアプローチは、しばしば計算効率において大きなトレードオフをもたらす。
本稿では,空間および時間的複雑さの最小限のオーバーヘッドで再構成精度を大幅に向上させる,AIDIと呼ばれる高速化反復拡散インバージョン法を提案する。
論文 参考訳(メタデータ) (2023-09-10T01:23:05Z) - Enhancing Low-light Light Field Images with A Deep Compensation Unfolding Network [52.77569396659629]
本稿では,低光環境下で撮像した光場(LF)画像の復元に,DCUNet(Deep compensation network openfolding)を提案する。
このフレームワークは、中間拡張結果を使用して照明マップを推定し、展開プロセスで新しい拡張結果を生成する。
本稿では,LF画像の特徴を適切に活用するために,擬似明示的特徴相互作用モジュールを提案する。
論文 参考訳(メタデータ) (2023-08-10T07:53:06Z) - Improving Tuning-Free Real Image Editing with Proximal Guidance [21.070356480624397]
Null-text Inversion (NTI) はヌル埋め込みを最適化し、再構成とインバージョン軌道をより大きなCFGスケールと整合させる。
NPIは、NTIのトレーニング不要なクローズドフォームソリューションを提供するが、アーティファクトを導入し、DDIMの再構築品質に制約されている。
我々は、相互の自己注意制御を組み込むために概念を拡張し、編集プロセスにおける幾何学的・レイアウト的変更を可能にする。
論文 参考訳(メタデータ) (2023-06-08T17:57:18Z) - End-to-End Diffusion Latent Optimization Improves Classifier Guidance [81.27364542975235]
拡散潜水剤(DOODL)の直接最適化は,新しいガイダンス手法である。
拡散潜伏剤の最適化によるプラグアンドプレイ誘導を可能にする。
計算と人的評価の指標において、一段階の分類器ガイダンスよりも優れている。
論文 参考訳(メタデータ) (2023-03-23T22:43:52Z) - EDICT: Exact Diffusion Inversion via Coupled Transformations [13.996171129586731]
拡散過程(反転と呼ばれる)に入力画像を生成する初期ノイズベクトルを見つけることは重要な問題である。
本稿では,アフィン結合層からインスピレーションを得るための逆変換法であるEDICT(Exact Diffusion Inversion)を提案する。
EDICTは、2つの結合ノイズベクトルを維持することにより、実画像とモデル生成画像の数学的に正確な逆変換を可能にする。
論文 参考訳(メタデータ) (2022-11-22T18:02:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。