論文の概要: ResetEdit: Precise Text-guided Editing of Generated Image via Resettable Starting Latent
- arxiv url: http://arxiv.org/abs/2604.25128v1
- Date: Tue, 28 Apr 2026 02:05:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-29 16:49:17.659724
- Title: ResetEdit: Precise Text-guided Editing of Generated Image via Resettable Starting Latent
- Title(参考訳): ResetEdit: Resettable Start Latentによる生成画像の正確なテキストガイド編集
- Authors: Hanyi Wang, Han Fang, Zheng Wang, Shilin Wang, Ee-Chien Chang,
- Abstract要約: 近年の拡散モデルにより高品質の画像生成が可能となり, ポストジェネレーションの需要が高まっている。
再生可能な潜伏情報を直接生成プロセスに埋め込むプロアクティブな拡散編集フレームワークであるResetEditを提案する。
安定拡散に基づいて構築されたResetEditは、既存のチューニング不要な編集メソッドとシームレスに統合され、制御性と視覚的忠実性の両方において、最先端のベースラインを一貫して上回っている。
- 参考スコア(独自算出の注目度): 45.3757356193519
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in diffusion models have enabled high-quality image generation, leading to increasing demand for post-generation editing that modifies local regions while preserving global structure. Achieving such flexible and precise editing requires a high-quality starting point, a latent representation that provides both the freedom needed for diverse modifications and the precision required for fine-grained, region-specific control. However, existing inversion-based approaches such as DDIM inversion often yield unsatisfactory starting latents, resulting in degraded edit fidelity and structural inconsistency. Ideally, the most suitable editing anchor should be the original latent used during the generation process, as it inherently captures the scene's structure and semantics. Yet, storing this latent for every generated image is impractical due to massive storage and retrieval costs. To address this challenge, we propose ResetEdit, a proactive diffusion editing framework that embeds recoverable latent information directly into the generation process. By injecting the discrepancy between the clean and diffused latents into the diffusion trajectory and extracting it during inversion, ResetEdit reconstructs a resettable latent that closely approximates the true starting state. Additionally, a lightweight latent optimization module compensates for reconstruction bias caused by VAE asymmetry. Built upon Stable Diffusion, ResetEdit integrates seamlessly with existing tuning-free editing methods and consistently outperforms state-of-the-art baselines in both controllability and visual fidelity.
- Abstract(参考訳): 近年の拡散モデルの発展により、高品質な画像生成が可能となり、グローバルな構造を維持しながら局所的な編集を行うポストジェネレーションの需要が高まっている。
このような柔軟で正確な編集を実現するには、様々な修正に必要な自由と、きめ細かい領域固有の制御に必要な正確さの両方を提供する、高品質な開始点が必要である。
しかし、DDIMインバージョンのような既存のインバージョンベースのアプローチは、しばしば不満足な開始遅延を生じるため、編集精度の低下と構造的不整合が生じる。
理想的には、最も適切な編集アンカーは、シーンの構造とセマンティクスを本質的にキャプチャするため、生成プロセスで使用されるオリジナルの潜伏剤であるべきである。
しかし、生成したすべての画像にこの潜伏状態を保存することは、膨大なストレージと検索コストのために現実的ではない。
この課題に対処するために、再生可能な潜伏情報を生成プロセスに直接埋め込むプロアクティブな拡散編集フレームワークであるResetEditを提案する。
ResetEditは、清浄剤と散布剤の差分を拡散軌道に注入し、反転中に抽出することにより、真の開始状態を近似したリセット可能な潜水剤を再構成する。
さらに、軽量潜時最適化モジュールは、VAE非対称性に起因する再構成バイアスを補償する。
安定拡散に基づいて構築されたResetEditは、既存のチューニング不要な編集メソッドとシームレスに統合され、制御性と視覚的忠実性の両方において、最先端のベースラインを一貫して上回っている。
関連論文リスト
- OmniRefiner: Reinforcement-Guided Local Diffusion Refinement [10.329465965964571]
VAEベースの潜伏圧縮は微妙なテクスチャ情報を破棄し、アイデンティティと属性固有の手がかりが消滅する。
参照駆動補正の2段階を連続的に行う細部対応精細化フレームワークである ourMthd を紹介した。
実験により,我々のMthdは参照アライメントと細かなディテール保存を著しく改善することが示された。
論文 参考訳(メタデータ) (2025-11-25T06:57:49Z) - LatentEdit: Adaptive Latent Control for Consistent Semantic Editing [24.414252461549555]
LatentEditは、現在の潜伏コードとソースイメージから反転した参照潜伏コードを組み合わせた適応潜伏融合フレームワークである。
提案するLatentEditは,8~15ステップでも最先端の手法よりも高い精度で,忠実度と編集可能性の最適なバランスを実現する。
論文 参考訳(メタデータ) (2025-08-30T15:47:03Z) - DCI: Dual-Conditional Inversion for Boosting Diffusion-Based Image Editing [73.12011187146481]
Diffusionモデル内のインバージョンは、実または生成された画像の潜時雑音表現を復元することを目的としている。
ほとんどの反転アプローチは、復元精度と編集の柔軟性の間の本質的にのトレードオフに悩まされている。
本稿ではDCI(Dual-Conditional Inversion)について紹介する。
論文 参考訳(メタデータ) (2025-06-03T07:46:44Z) - Uniform Attention Maps: Boosting Image Fidelity in Reconstruction and Editing [66.48853049746123]
構造的視点から再構築を解析し、従来の横断的注意を一様注意マップに置き換える新しいアプローチを提案する。
本手法は,ノイズ予測時のテキスト条件の変化による歪みを効果的に抑制する。
実験結果から,本手法は高忠実度画像再構成に優れるだけでなく,実際の画像合成や編集のシナリオにも頑健に機能することが示された。
論文 参考訳(メタデータ) (2024-11-29T12:11:28Z) - Task-Oriented Diffusion Inversion for High-Fidelity Text-based Editing [60.730661748555214]
textbfTask-textbfOriented textbfDiffusion textbfInversion (textbfTODInv) は、特定の編集タスクに適した実際の画像を反転して編集する新しいフレームワークである。
ToDInvは相互最適化によってインバージョンと編集をシームレスに統合し、高い忠実さと正確な編集性を保証する。
論文 参考訳(メタデータ) (2024-08-23T22:16:34Z) - Tuning-Free Inversion-Enhanced Control for Consistent Image Editing [44.311286151669464]
我々は、チューニング不要なインバージョン強化制御(TIC)と呼ばれる新しいアプローチを提案する。
TICは、インバージョンプロセスとサンプリングプロセスの特徴を相関付け、DDIM再構成の不整合を軽減する。
また、インバージョンと単純なDDIM編集プロセスの両方の内容を組み合わせたマスク誘導型アテンション結合戦略を提案する。
論文 参考訳(メタデータ) (2023-12-22T11:13:22Z) - Editing Out-of-domain GAN Inversion via Differential Activations [56.62964029959131]
本稿では,構成分解パラダイムを用いて,ドメイン外反転問題に対処する新しいGAN事前編集フレームワークを提案する。
生成されたDiff-CAMマスクの助けを借りて、粗い再構成を直感的に元の画像と編集された画像で合成することができる。
また, 分解段階において, 粗い再構成から最終微編集画像を切り離すための, GAN 以前のデゴーストネットワークを提示する。
論文 参考訳(メタデータ) (2022-07-17T10:34:58Z) - High-Fidelity GAN Inversion for Image Attribute Editing [61.966946442222735]
本稿では,画像固有の詳細をよく保存した属性編集を可能にする,GAN(High-fidelity Generative Adversarial Network)インバージョンフレームワークを提案する。
低ビットレートの遅延符号では、再構成された画像や編集された画像の高忠実度の詳細を保存することは困難である。
高忠実度復元のための基準として歪みマップを用いる歪みコンサルテーション手法を提案する。
論文 参考訳(メタデータ) (2021-09-14T11:23:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。