論文の概要: Editable Noise Map Inversion: Encoding Target-image into Noise For High-Fidelity Image Manipulation
- arxiv url: http://arxiv.org/abs/2509.25776v1
- Date: Tue, 30 Sep 2025 04:44:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.431441
- Title: Editable Noise Map Inversion: Encoding Target-image into Noise For High-Fidelity Image Manipulation
- Title(参考訳): 編集可能なノイズマップインバージョン:高精細画像操作のためのターゲット画像のノイズへの符号化
- Authors: Mingyu Kang, Yong Suk Choi,
- Abstract要約: 効率的な画像編集の鍵となる戦略は、ソースイメージをターゲット画像に関連する編集可能なノイズマップに変換することである。
編集可能なノイズマップ・インバージョン(ENM Inversion)を提案する。これはコンテンツ保存性と編集性の両方を確保するために最適なノイズマップを探索する新しいインバージョン手法である。
また,ビデオ編集にも容易に適用でき,フレーム間の時間的一貫性とコンテンツ操作が可能となる。
- 参考スコア(独自算出の注目度): 4.404496835736175
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image diffusion models have achieved remarkable success in generating high-quality and diverse images. Building on these advancements, diffusion models have also demonstrated exceptional performance in text-guided image editing. A key strategy for effective image editing involves inverting the source image into editable noise maps associated with the target image. However, previous inversion methods face challenges in adhering closely to the target text prompt. The limitation arises because inverted noise maps, while enabling faithful reconstruction of the source image, restrict the flexibility needed for desired edits. To overcome this issue, we propose Editable Noise Map Inversion (ENM Inversion), a novel inversion technique that searches for optimal noise maps to ensure both content preservation and editability. We analyze the properties of noise maps for enhanced editability. Based on this analysis, our method introduces an editable noise refinement that aligns with the desired edits by minimizing the difference between the reconstructed and edited noise maps. Extensive experiments demonstrate that ENM Inversion outperforms existing approaches across a wide range of image editing tasks in both preservation and edit fidelity with target prompts. Our approach can also be easily applied to video editing, enabling temporal consistency and content manipulation across frames.
- Abstract(参考訳): テキストと画像の拡散モデルは、高品質で多様な画像を生成することに成功している。
これらの進歩に基づいて、拡散モデルもまたテキスト誘導画像編集において例外的な性能を示した。
効率的な画像編集のための重要な戦略は、ソースイメージをターゲット画像に関連する編集可能なノイズマップに変換することである。
しかし、従来の逆転法は、ターゲットのテキストプロンプトに密着する際の課題に直面している。
この制限は、逆ノイズマップがソースイメージの忠実な再構築を可能にする一方で、所望の編集に必要な柔軟性を制限するために生じる。
この問題を解決するために,編集可能ノイズマップインバージョン (ENM Inversion) を提案する。
編集性向上のためのノイズマップの特性を解析する。
この分析に基づいて,再構成されたノイズマップと編集されたノイズマップの差を最小限に抑えて,所望の編集と整合する編集可能なノイズリファインメントを導入する。
広範囲にわたる実験により、ENMインバージョンは、対象のプロンプトによる保存と編集の両面で、幅広い画像編集タスクにおいて、既存のアプローチよりも優れていることが示された。
また,ビデオ編集にも容易に適用でき,フレーム間の時間的一貫性とコンテンツ操作が可能となる。
関連論文リスト
- Tight Inversion: Image-Conditioned Inversion for Real Image Editing [47.445919355293896]
本稿では,入力画像自体の最も可能な条件を利用する変換手法であるTight Inversionを紹介する。
この厳密な条件は、モデルの出力の分布を狭め、再構築性と編集性の両方を高める。
論文 参考訳(メタデータ) (2025-02-27T18:51:16Z) - Lost in Edits? A $λ$-Compass for AIGC Provenance [119.95562081325552]
本稿では,実測出力と操作された出力を頑健に識別し,識別する新しい潜在空間属性法を提案する。
LambdaTracerは、InstructPix2Pixのようなテキスト誘導編集ツールによって自動化されるか、Adobe Photoshopのような編集ソフトウェアで手動で実行されるか、様々な反復編集プロセスで有効である。
論文 参考訳(メタデータ) (2025-02-05T06:24:25Z) - Schedule Your Edit: A Simple yet Effective Diffusion Noise Schedule for Image Editing [42.45138713525929]
効率的な編集では、ソースイメージを潜在空間に反転させる必要があり、このプロセスはDDIMの反転に固有の予測エラーによってしばしば妨げられる。
特異性を排除し、インバージョン安定性を改善し、画像編集のためのより良いノイズ空間を提供する新しいノイズスケジュールであるロジスティックスケジュールを導入する。
提案手法では追加のトレーニングは必要とせず,既存の編集手法と互換性がある。
論文 参考訳(メタデータ) (2024-10-24T14:07:02Z) - Vision-guided and Mask-enhanced Adaptive Denoising for Prompt-based Image Editing [28.904419606450876]
視覚誘導・マスク強調適応編集法(ViMAEdit)を提案する。
まず,画像の埋め込みを明示的なガイダンスとして活用し,従来のテキストのプロンプトに基づく記述プロセスを強化することを提案する。
第2に,自己注意型反復編集領域接地戦略を考案する。
論文 参考訳(メタデータ) (2024-10-14T13:41:37Z) - TurboEdit: Text-Based Image Editing Using Few-Step Diffusion Models [53.757752110493215]
テキストベースの一般的な編集フレームワーク – 編集フレンドリーなDDPM-noiseインバージョンアプローチ – に注目します。
高速サンプリング法への適用を解析し、その失敗を視覚的アーティファクトの出現と編集強度の不足という2つのクラスに分類する。
そこで我々は,新しいアーティファクトを導入することなく,効率よく編集の規模を拡大する疑似誘導手法を提案する。
論文 参考訳(メタデータ) (2024-08-01T17:27:28Z) - Noise Map Guidance: Inversion with Spatial Context for Real Image
Editing [23.513950664274997]
テキスト誘導拡散モデルは画像合成において一般的なツールとなり、高品質で多様な画像を生成することで知られている。
実際の画像の編集への応用は、復元品質を劣化させ、その後編集の忠実度に影響を及ぼすため、しばしばハードルに直面する。
実画像編集に適した空間文脈に富んだ逆解析手法であるノイズマップガイダンス(NMG)を提案する。
論文 参考訳(メタデータ) (2024-02-07T07:16:12Z) - Object-aware Inversion and Reassembly for Image Editing [61.19822563737121]
オブジェクトレベルのきめ細かい編集を可能にするために,オブジェクト認識型インバージョンと再アセンブリ(OIR)を提案する。
画像の編集時に各編集ペアに対して最適な反転ステップを見つけるために,検索基準を用いる。
本手法は,オブジェクトの形状,色,材料,カテゴリなどの編集において,特に多目的編集シナリオにおいて優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-10-18T17:59:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。