論文の概要: ProEdit: Inversion-based Editing From Prompts Done Right
- arxiv url: http://arxiv.org/abs/2512.22118v1
- Date: Fri, 26 Dec 2025 18:59:14 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-29 12:01:33.456418
- Title: ProEdit: Inversion-based Editing From Prompts Done Right
- Title(参考訳): ProEdit: プロンプトからのインバージョンベースの編集を正しく行う
- Authors: Zhi Ouyang, Dian Zheng, Xiao-Ming Wu, Jian-Jian Jiang, Kun-Yu Lin, Jingke Meng, Wei-Shi Zheng,
- Abstract要約: インバージョンベースのビジュアル編集は、ユーザ指示に基づいて画像やビデオを編集するための効果的でトレーニングのない方法を提供する。
既存の方法は、通常、編集一貫性を維持するためにサンプリングプロセス中にソースイメージ情報を注入する。
注意点と潜伏点の両方においてこの問題に対処するProEditを提案する。
- 参考スコア(独自算出の注目度): 63.554692704101
- License:
- Abstract: Inversion-based visual editing provides an effective and training-free way to edit an image or a video based on user instructions. Existing methods typically inject source image information during the sampling process to maintain editing consistency. However, this sampling strategy overly relies on source information, which negatively affects the edits in the target image (e.g., failing to change the subject's atributes like pose, number, or color as instructed). In this work, we propose ProEdit to address this issue both in the attention and the latent aspects. In the attention aspect, we introduce KV-mix, which mixes KV features of the source and the target in the edited region, mitigating the influence of the source image on the editing region while maintaining background consistency. In the latent aspect, we propose Latents-Shift, which perturbs the edited region of the source latent, eliminating the influence of the inverted latent on the sampling. Extensive experiments on several image and video editing benchmarks demonstrate that our method achieves SOTA performance. In addition, our design is plug-and-play, which can be seamlessly integrated into existing inversion and editing methods, such as RF-Solver, FireFlow and UniEdit.
- Abstract(参考訳): インバージョンベースのビジュアル編集は、ユーザ指示に基づいて画像やビデオを編集するための効果的でトレーニングのない方法を提供する。
既存の方法は、通常、編集一貫性を維持するためにサンプリングプロセス中にソースイメージ情報を注入する。
しかし、このサンプリング戦略は、ターゲット画像の編集に悪影響を及ぼすソース情報に依存する(例えば、指示されたポーズ、番号、色などの被写体の属性を変更できない)。
本稿では,この問題に注意と潜伏の両面から対処するProEditを提案する。
注意点として、編集領域におけるソースとターゲットのKV特徴を混合するKV-mixを導入し、背景の一貫性を維持しながら、編集領域に対するソース画像の影響を緩和する。
潜伏的側面では、ソース潜伏者の編集領域を乱し、逆潜伏者がサンプリングに与える影響を排除した潜伏者シフト(Latents-Shift)を提案する。
いくつかの画像およびビデオの編集ベンチマークによる大規模な実験により,本手法がSOTAの性能向上を実証した。
RF-SolverやFireFlow,UniEditといった既存のインバージョンや編集メソッドにシームレスに統合することが可能です。
関連論文リスト
- Editable Noise Map Inversion: Encoding Target-image into Noise For High-Fidelity Image Manipulation [4.404496835736175]
効率的な画像編集の鍵となる戦略は、ソースイメージをターゲット画像に関連する編集可能なノイズマップに変換することである。
編集可能なノイズマップ・インバージョン(ENM Inversion)を提案する。これはコンテンツ保存性と編集性の両方を確保するために最適なノイズマップを探索する新しいインバージョン手法である。
また,ビデオ編集にも容易に適用でき,フレーム間の時間的一貫性とコンテンツ操作が可能となる。
論文 参考訳(メタデータ) (2025-09-30T04:44:53Z) - Edicho: Consistent Image Editing in the Wild [90.42395533938915]
エディコは拡散モデルに基づく訓練なしの解を踏む。
これは、明示的な画像対応を使って直接編集する基本的な設計原理を特徴としている。
論文 参考訳(メタデータ) (2024-12-30T16:56:44Z) - TurboEdit: Text-Based Image Editing Using Few-Step Diffusion Models [53.757752110493215]
テキストベースの一般的な編集フレームワーク – 編集フレンドリーなDDPM-noiseインバージョンアプローチ – に注目します。
高速サンプリング法への適用を解析し、その失敗を視覚的アーティファクトの出現と編集強度の不足という2つのクラスに分類する。
そこで我々は,新しいアーティファクトを導入することなく,効率よく編集の規模を拡大する疑似誘導手法を提案する。
論文 参考訳(メタデータ) (2024-08-01T17:27:28Z) - DiffEditor: Boosting Accuracy and Flexibility on Diffusion-based Image
Editing [66.43179841884098]
大規模テキスト・ツー・イメージ(T2I)拡散モデルは、ここ数年で画像生成に革命をもたらした。
既存の拡散型画像編集における2つの弱点を正すためにDiffEditorを提案する。
本手法は,様々な精細な画像編集タスクにおいて,最先端の性能を効率的に達成することができる。
論文 参考訳(メタデータ) (2024-02-04T18:50:29Z) - Direct Inversion: Boosting Diffusion-based Editing with 3 Lines of Code [19.988947272980848]
ダイレクト・インバージョン(Direct Inversion)は、たった3行のコードで両方のブランチの最適なパフォーマンスを実現する新技術である。
PIE-Benchは700の画像の編集ベンチマークで、様々なシーンや編集タイプを示す。
最先端の最適化に基づく逆変換技術と比較して、我々のソリューションは8つの編集方法にまたがる優れた性能を得るだけでなく、ほぼ1桁のスピードアップも達成する。
論文 参考訳(メタデータ) (2023-10-02T18:01:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。