論文の概要: ConsistEdit: Highly Consistent and Precise Training-free Visual Editing
- arxiv url: http://arxiv.org/abs/2510.17803v1
- Date: Mon, 20 Oct 2025 17:59:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.557435
- Title: ConsistEdit: Highly Consistent and Precise Training-free Visual Editing
- Title(参考訳): ConsistEdit: 高度に一貫性があり、高精度なトレーニング不要なビジュアル編集
- Authors: Zixin Yin, Ling-Hao Chen, Lionel Ni, Xili Dai,
- Abstract要約: 本稿では,MM-DiTに適した新しいアテンション制御手法であるConsistEditを提案する。
視覚のみの注意制御、マスク誘導型事前注意融合、クエリ、キー、バリュートークンの操作を区別する。
構造整合性および構造整合性の両方のシナリオを含む、幅広い画像およびビデオ編集タスクにおける最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 17.162316662697965
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in training-free attention control methods have enabled flexible and efficient text-guided editing capabilities for existing generation models. However, current approaches struggle to simultaneously deliver strong editing strength while preserving consistency with the source. This limitation becomes particularly critical in multi-round and video editing, where visual errors can accumulate over time. Moreover, most existing methods enforce global consistency, which limits their ability to modify individual attributes such as texture while preserving others, thereby hindering fine-grained editing. Recently, the architectural shift from U-Net to MM-DiT has brought significant improvements in generative performance and introduced a novel mechanism for integrating text and vision modalities. These advancements pave the way for overcoming challenges that previous methods failed to resolve. Through an in-depth analysis of MM-DiT, we identify three key insights into its attention mechanisms. Building on these, we propose ConsistEdit, a novel attention control method specifically tailored for MM-DiT. ConsistEdit incorporates vision-only attention control, mask-guided pre-attention fusion, and differentiated manipulation of the query, key, and value tokens to produce consistent, prompt-aligned edits. Extensive experiments demonstrate that ConsistEdit achieves state-of-the-art performance across a wide range of image and video editing tasks, including both structure-consistent and structure-inconsistent scenarios. Unlike prior methods, it is the first approach to perform editing across all inference steps and attention layers without handcraft, significantly enhancing reliability and consistency, which enables robust multi-round and multi-region editing. Furthermore, it supports progressive adjustment of structural consistency, enabling finer control.
- Abstract(参考訳): 学習自由注意制御手法の最近の進歩により、既存の世代モデルに対する柔軟で効率的なテキスト誘導編集が可能になった。
しかし、現在のアプローチはソースとの整合性を維持しながら、強力な編集強度を同時に提供するのに苦労している。
この制限は、視覚的エラーが時間の経過とともに蓄積されるマルチラウンドおよびビデオ編集において特に重要となる。
さらに、既存のほとんどのメソッドは、グローバルな一貫性を強制し、テクスチャなどの個々の属性を保存しながら変更する能力を制限することで、きめ細かい編集を妨げている。
近年,U-NetからMM-DiTへのアーキテクチャシフトにより,生成性能が大幅に向上し,テキストと視覚のモダリティを統合する新たなメカニズムが導入された。
これらの進歩は、以前の方法が解決できなかった課題を克服する道を開いた。
MM-DiTの詳細な分析を通じて,その注意機構に関する3つの重要な知見を同定した。
そこで本研究では,MM-DiTに適した新しいアテンション制御手法であるConsistEditを提案する。
ConsistEditは、視覚のみの注意制御、マスクガイドによる事前注意統合、クエリ、キー、バリュートークンの操作を区別して、一貫性のある、プロンプトに整合した編集を生成する。
大規模な実験により、ConsistEditは、構造整合性および構造整合性の両方のシナリオを含む、幅広い画像およびビデオ編集タスクにおける最先端のパフォーマンスを達成している。
従来の手法とは異なり、手作業なしですべての推論ステップと注意層をまたいで編集を行う最初のアプローチであり、信頼性と一貫性を著しく向上し、堅牢なマルチラウンドおよびマルチリージョン編集を可能にする。
さらに、構造整合性の漸進的な調整をサポートし、より細かい制御を可能にする。
関連論文リスト
- O-DisCo-Edit: Object Distortion Control for Unified Realistic Video Editing [88.93410369258203]
O-DisCo-Editは、新しいオブジェクト歪み制御(O-DisCo)を組み込んだ統合フレームワークである
この信号はランダムノイズと適応ノイズに基づいて、単一の表現内に幅広い編集キューを柔軟にカプセル化する。
O-DisCo-Editは、効果的なトレーニングパラダイムによる効率的な高忠実な編集を可能にする。
論文 参考訳(メタデータ) (2025-09-01T16:29:39Z) - CoreEditor: Consistent 3D Editing via Correspondence-constrained Diffusion [24.144486805878596]
CoreEditorは、一貫したテキストから3D編集のための新しいフレームワークである。
本稿では,画素間の正確な相互作用を強制するアテンション制約付アテンション機構を提案する。
実験では、CoreEditorはよりシャープなディテールで高品質な3D一貫性のある編集を生成する。
論文 参考訳(メタデータ) (2025-08-15T17:13:11Z) - Image Editing As Programs with Diffusion Models [69.05164729625052]
本稿では,Diffusion Transformer (DiT) アーキテクチャ上に構築された統合画像編集フレームワークである IEAP (Image Editing As Programs) を紹介する。
IEAPは、複雑な編集命令を原子操作のシーケンスに分解して、リダミストレンズによる命令編集にアプローチする。
我々のフレームワークは、特に複雑なマルチステップ命令に対して、より優れた精度とセマンティック忠実度を提供する。
論文 参考訳(メタデータ) (2025-06-04T16:57:24Z) - Improving Editability in Image Generation with Layer-wise Memory [23.004027029130953]
現在の編集アプローチは、主に単一オブジェクトの修正用に設計されており、シーケンシャルな編集に苦労している。
新しい要素を自然に統合しながら、既存のコンテンツを保存する粗いマスク入力を実現することを提案する。
我々のフレームワークはレイヤワイドメモリによってこれを実現し、遅延表現を格納し、以前の編集からの埋め込みを促す。
論文 参考訳(メタデータ) (2025-05-02T07:36:49Z) - Tuning-Free Image Editing with Fidelity and Editability via Unified Latent Diffusion Model [60.82962950960996]
拡散遅延最適化を行うチューニング不要なUnifyEditを導入する。
本研究では, 自己注意保持制約(SA)と相互注意アライメント制約(CA)の2つを開発し, テキストアライメントの強化を図る。
提案手法は,様々な編集作業における構造保存とテキストアライメントのバランスを保ち,他の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2025-04-08T01:02:50Z) - MAKIMA: Tuning-free Multi-Attribute Open-domain Video Editing via Mask-Guided Attention Modulation [55.101611012677616]
拡散ベースのテキスト・トゥ・イメージ(T2I)モデルは,グローバルビデオ編集タスクにおいて顕著な結果を示した。
我々は、オープンドメインビデオ編集のための事前訓練されたT2Iモデル上に構築された、チューニング不要なMAEフレームワークであるMAKIMAを紹介する。
論文 参考訳(メタデータ) (2024-12-28T02:36:51Z) - Task-Oriented Diffusion Inversion for High-Fidelity Text-based Editing [60.730661748555214]
textbfTask-textbfOriented textbfDiffusion textbfInversion (textbfTODInv) は、特定の編集タスクに適した実際の画像を反転して編集する新しいフレームワークである。
ToDInvは相互最適化によってインバージョンと編集をシームレスに統合し、高い忠実さと正確な編集性を保証する。
論文 参考訳(メタデータ) (2024-08-23T22:16:34Z) - Consolidating Attention Features for Multi-view Image Editing [126.19731971010475]
本研究では,空間制御に基づく幾何学的操作に着目し,様々な視点にまたがって編集プロセスを統合する手法を提案する。
編集画像の内部クエリ機能に基づいて訓練されたニューラルラジアンス場QNeRFを紹介する。
拡散時間の経過とともにクエリをよりよく統合する、プログレッシブで反復的な手法により、プロセスを洗練します。
論文 参考訳(メタデータ) (2024-02-22T18:50:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。