論文の概要: Improving Editability in Image Generation with Layer-wise Memory
- arxiv url: http://arxiv.org/abs/2505.01079v1
- Date: Fri, 02 May 2025 07:36:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-05 17:21:19.957368
- Title: Improving Editability in Image Generation with Layer-wise Memory
- Title(参考訳): レイヤワイズメモリによる画像生成における編集性の向上
- Authors: Daneul Kim, Jaeah Lee, Jaesik Park,
- Abstract要約: 現在の編集アプローチは、主に単一オブジェクトの修正用に設計されており、シーケンシャルな編集に苦労している。
新しい要素を自然に統合しながら、既存のコンテンツを保存する粗いマスク入力を実現することを提案する。
我々のフレームワークはレイヤワイドメモリによってこれを実現し、遅延表現を格納し、以前の編集からの埋め込みを促す。
- 参考スコア(独自算出の注目度): 23.004027029130953
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most real-world image editing tasks require multiple sequential edits to achieve desired results. Current editing approaches, primarily designed for single-object modifications, struggle with sequential editing: especially with maintaining previous edits along with adapting new objects naturally into the existing content. These limitations significantly hinder complex editing scenarios where multiple objects need to be modified while preserving their contextual relationships. We address this fundamental challenge through two key proposals: enabling rough mask inputs that preserve existing content while naturally integrating new elements and supporting consistent editing across multiple modifications. Our framework achieves this through layer-wise memory, which stores latent representations and prompt embeddings from previous edits. We propose Background Consistency Guidance that leverages memorized latents to maintain scene coherence and Multi-Query Disentanglement in cross-attention that ensures natural adaptation to existing content. To evaluate our method, we present a new benchmark dataset incorporating semantic alignment metrics and interactive editing scenarios. Through comprehensive experiments, we demonstrate superior performance in iterative image editing tasks with minimal user effort, requiring only rough masks while maintaining high-quality results throughout multiple editing steps.
- Abstract(参考訳): ほとんどの実世界の画像編集タスクは、望ましい結果を得るために複数のシーケンシャルな編集を必要とする。
現在の編集アプローチは、主に単一オブジェクトの修正のために設計されており、シーケンシャルな編集に苦慮している。
これらの制限は、コンテキスト関係を維持しながら複数のオブジェクトを変更する必要がある複雑な編集シナリオを著しく妨げます。
既存のコンテンツを保存しながら、新しい要素を自然に統合し、複数の修正をまたいで一貫した編集をサポートする、粗いマスク入力を可能にするという2つの重要な提案を通じて、この根本的な課題に対処する。
我々のフレームワークはレイヤワイドメモリによってこれを実現し、遅延表現を格納し、以前の編集からの埋め込みを促す。
我々は,暗記された潜伏者を利用した背景一貫性誘導法を提案し,既存のコンテンツへの自然な適応を保証するために,シーンコヒーレンスと複数クエリのアンタングルメントを横断的に維持する。
提案手法を評価するために,セマンティックアライメントの指標と対話的な編集シナリオを取り入れた新しいベンチマークデータセットを提案する。
総合的な実験を通じて,複数の編集ステップを通じて高品質な結果を維持しつつ,粗いマスクのみを必要とする,最小限の努力で反復的な画像編集タスクの性能を実証する。
関連論文リスト
- Task-Oriented Diffusion Inversion for High-Fidelity Text-based Editing [60.730661748555214]
textbfTask-textbfOriented textbfDiffusion textbfInversion (textbfTODInv) は、特定の編集タスクに適した実際の画像を反転して編集する新しいフレームワークである。
ToDInvは相互最適化によってインバージョンと編集をシームレスに統合し、高い忠実さと正確な編集性を保証する。
論文 参考訳(メタデータ) (2024-08-23T22:16:34Z) - An Item is Worth a Prompt: Versatile Image Editing with Disentangled Control [21.624984690721842]
D-Editは、包括的な画像-プロンプトインタラクションをいくつかのアイテム-プロンプトインタラクションに切り離すためのフレームワークである。
クロスアテンション層が歪んだ事前学習拡散モデルに基づいており、アイテム・プロンプト・アソシエーションを構築するために2段階の最適化を採用している。
画像ベース,テキストベース,マスクベースの編集,アイテム削除を含む4種類の編集作業において,最先端の結果を示す。
論文 参考訳(メタデータ) (2024-03-07T20:06:29Z) - LoMOE: Localized Multi-Object Editing via Multi-Diffusion [8.90467024388923]
本稿では,ゼロショットローカライズされたマルチオブジェクト編集のための新しいフレームワークを提案する。
提案手法は, 前景マスクとそれに対応する簡単なテキストプロンプトを利用して, 対象領域に局所的な影響を与える。
ラテント空間内のクロスアテンションとバックグラウンドロスの組み合わせにより、編集対象の特性が保存される。
論文 参考訳(メタデータ) (2024-03-01T10:46:47Z) - Optimisation-Based Multi-Modal Semantic Image Editing [58.496064583110694]
本稿では,複数の編集命令型に対応するために,推論時編集の最適化を提案する。
各損失関数の影響を調整することで、ユーザの好みに合わせてフレキシブルな編集ソリューションを構築することができる。
本手法は,テキスト,ポーズ,スクリブルといった編集条件を用いて評価し,複雑な編集を行う能力を強調した。
論文 参考訳(メタデータ) (2023-11-28T15:31:11Z) - Emu Edit: Precise Image Editing via Recognition and Generation Tasks [62.95717180730946]
本稿では,マルチタスク画像編集モデルであるEmu Editについて述べる。
我々は、地域ベースの編集、自由形式の編集、コンピュータビジョンタスクなど、前例のない範囲でマルチタスクに訓練する。
Emu Editは画像インペイント、超解像、編集タスクの構成といった新しいタスクに、ラベル付き例で一般化できることを示す。
論文 参考訳(メタデータ) (2023-11-16T18:55:58Z) - Object-aware Inversion and Reassembly for Image Editing [61.19822563737121]
オブジェクトレベルのきめ細かい編集を可能にするために,オブジェクト認識型インバージョンと再アセンブリ(OIR)を提案する。
画像の編集時に各編集ペアに対して最適な反転ステップを見つけるために,検索基準を用いる。
本手法は,オブジェクトの形状,色,材料,カテゴリなどの編集において,特に多目的編集シナリオにおいて優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-10-18T17:59:02Z) - EditGAN: High-Precision Semantic Image Editing [120.49401527771067]
EditGANは高品質で高精度なセマンティック画像編集のための新しい手法である。
EditGANは前例のない細部と自由度で画像を操作可能であることを示す。
また、複数の編集を組み合わせることも簡単で、EditGANのトレーニングデータ以外の編集も可能になります。
論文 参考訳(メタデータ) (2021-11-04T22:36:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。