論文の概要: LatentEdit: Adaptive Latent Control for Consistent Semantic Editing
- arxiv url: http://arxiv.org/abs/2509.00541v1
- Date: Sat, 30 Aug 2025 15:47:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.276772
- Title: LatentEdit: Adaptive Latent Control for Consistent Semantic Editing
- Title(参考訳): LatentEdit: Consistent Semantic EditingのためのAdaptive Latent Control
- Authors: Siyi Liu, Weiming Chen, Yushun Tang, Zhihai He,
- Abstract要約: LatentEditは、現在の潜伏コードとソースイメージから反転した参照潜伏コードを組み合わせた適応潜伏融合フレームワークである。
提案するLatentEditは,8~15ステップでも最先端の手法よりも高い精度で,忠実度と編集可能性の最適なバランスを実現する。
- 参考スコア(独自算出の注目度): 24.414252461549555
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Diffusion-based Image Editing has achieved significant success in recent years. However, it remains challenging to achieve high-quality image editing while maintaining the background similarity without sacrificing speed or memory efficiency. In this work, we introduce LatentEdit, an adaptive latent fusion framework that dynamically combines the current latent code with a reference latent code inverted from the source image. By selectively preserving source features in high-similarity, semantically important regions while generating target content in other regions guided by the target prompt, LatentEdit enables fine-grained, controllable editing. Critically, the method requires no internal model modifications or complex attention mechanisms, offering a lightweight, plug-and-play solution compatible with both UNet-based and DiT-based architectures. Extensive experiments on the PIE-Bench dataset demonstrate that our proposed LatentEdit achieves an optimal balance between fidelity and editability, outperforming the state-of-the-art method even in 8-15 steps. Additionally, its inversion-free variant further halves the number of neural function evaluations and eliminates the need for storing any intermediate variables, substantially enhancing real-time deployment efficiency.
- Abstract(参考訳): 拡散に基づく画像編集は近年大きな成功を収めている。
しかし、速度やメモリ効率を犠牲にすることなく、背景の類似性を保ちながら高品質な画像編集を実現することは依然として困難である。
本研究では、現在の潜伏コードとソースイメージから反転した参照潜伏コードとを動的に結合する適応潜伏融合フレームワークであるLatentEditを紹介する。
ターゲットプロンプトでガイドされた他の領域のターゲットコンテンツを生成しながら、高相似、意味的に重要な領域でソースの特徴を選択的に保存することにより、LatentEditはきめ細かな、制御可能な編集を可能にする。
重要な点として、この手法は内部モデルの変更や複雑な注意機構を必要とせず、UNetベースのアーキテクチャとDiTベースのアーキテクチャの両方と互換性のある軽量なプラグアンドプレイソリューションを提供する。
PIE-Benchデータセットの大規模な実験により、提案したLatentEditは、忠実度と編集可能性の最適なバランスを達成し、8~15ステップでも最先端の手法より優れていることが示された。
さらに、インバージョンフリーの亜種は、神経機能評価の数をさらに増加させ、任意の中間変数を保存する必要をなくし、リアルタイムのデプロイメント効率を大幅に向上させる。
関連論文リスト
- LORE: Latent Optimization for Precise Semantic Control in Rectified Flow-based Image Editing [0.276240219662896]
トレーニング不要で効率的な画像編集手法であるLOREを紹介する。
LOREは逆ノイズを直接最適化し、既存のアプローチの一般化と制御可能性の限界に対処する。
実験の結果,LOREはセマンティックアライメント,画像品質,背景忠実度において,強いベースラインを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2025-08-05T06:45:04Z) - Inverse-and-Edit: Effective and Fast Image Editing by Cycle Consistency Models [1.9389881806157316]
本研究では,一貫性モデルを用いた画像のインバージョンを改善する新しいフレームワークを提案する。
本手法では,再設計精度を大幅に向上するサイクル一貫性最適化手法を提案する。
さまざまな画像編集タスクやデータセットに対して,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-06-23T20:34:43Z) - AttentionDrag: Exploiting Latent Correlation Knowledge in Pre-trained Diffusion Models for Image Editing [33.74477787349966]
本研究では,AttentionDragという一段階のポイントベース画像編集手法を提案する。
このフレームワークは、大規模な再最適化や再トレーニングを必要とせずに、セマンティック一貫性と高品質な操作を可能にする。
以上の結果から,最先端の手法をはるかに高速に超越した性能を示す。
論文 参考訳(メタデータ) (2025-06-16T09:42:38Z) - Tuning-Free Image Editing with Fidelity and Editability via Unified Latent Diffusion Model [60.82962950960996]
拡散遅延最適化を行うチューニング不要なUnifyEditを導入する。
本研究では, 自己注意保持制約(SA)と相互注意アライメント制約(CA)の2つを開発し, テキストアライメントの強化を図る。
提案手法は,様々な編集作業における構造保存とテキストアライメントのバランスを保ち,他の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2025-04-08T01:02:50Z) - PostEdit: Posterior Sampling for Efficient Zero-Shot Image Editing [63.38854614997581]
拡散サンプリングプロセスを制御するために後続のスキームを組み込んだPostEditを導入する。
提案したPostEditは、未編集領域を正確に保存しながら、最先端の編集性能を実現する。
インバージョンもトレーニングも不要で、約1.5秒と18GBのGPUメモリを必要とするため、高品質な結果が得られる。
論文 参考訳(メタデータ) (2024-10-07T09:04:50Z) - Task-Oriented Diffusion Inversion for High-Fidelity Text-based Editing [60.730661748555214]
textbfTask-textbfOriented textbfDiffusion textbfInversion (textbfTODInv) は、特定の編集タスクに適した実際の画像を反転して編集する新しいフレームワークである。
ToDInvは相互最適化によってインバージョンと編集をシームレスに統合し、高い忠実さと正確な編集性を保証する。
論文 参考訳(メタデータ) (2024-08-23T22:16:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。