論文の概要: Energy-Guided Optimization for Personalized Image Editing with Pretrained Text-to-Image Diffusion Models
- arxiv url: http://arxiv.org/abs/2503.04215v1
- Date: Thu, 06 Mar 2025 08:52:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-07 15:59:33.083786
- Title: Energy-Guided Optimization for Personalized Image Editing with Pretrained Text-to-Image Diffusion Models
- Title(参考訳): 予め訓練されたテキスト-画像拡散モデルを用いた個人化画像編集のためのエネルギー誘導最適化
- Authors: Rui Jiang, Xinghe Fu, Guangcong Zheng, Teng Li, Taiping Yao, Xi Li,
- Abstract要約: 本稿では,潜在空間における編集画像の最適化として,パーソナライズされたコンテンツ編集を定式化する学習自由フレームワークを提案する。
テキスト・エネルギ・ガイダンスを早期に活用し,対象クラスへの自然な移行を実現するための粗大な戦略を提案する。
ドメインギャップが大きくてもオブジェクト置換が優れている。
- 参考スコア(独自算出の注目度): 20.582222123619285
- License:
- Abstract: The rapid advancement of pretrained text-driven diffusion models has significantly enriched applications in image generation and editing. However, as the demand for personalized content editing increases, new challenges emerge especially when dealing with arbitrary objects and complex scenes. Existing methods usually mistakes mask as the object shape prior, which struggle to achieve a seamless integration result. The mostly used inversion noise initialization also hinders the identity consistency towards the target object. To address these challenges, we propose a novel training-free framework that formulates personalized content editing as the optimization of edited images in the latent space, using diffusion models as the energy function guidance conditioned by reference text-image pairs. A coarse-to-fine strategy is proposed that employs text energy guidance at the early stage to achieve a natural transition toward the target class and uses point-to-point feature-level image energy guidance to perform fine-grained appearance alignment with the target object. Additionally, we introduce the latent space content composition to enhance overall identity consistency with the target. Extensive experiments demonstrate that our method excels in object replacement even with a large domain gap, highlighting its potential for high-quality, personalized image editing.
- Abstract(参考訳): 事前訓練されたテキスト駆動拡散モデルの急速な進歩は、画像生成や編集に大きく応用された。
しかし、パーソナライズされたコンテンツ編集の需要が高まるにつれて、特に任意のオブジェクトや複雑なシーンを扱う場合、新たな課題が出現する。
既存のメソッドは通常、シームレスな統合結果を達成するのに苦労するオブジェクトの形状としてマスクを間違えます。
主に使用される逆ノイズ初期化は、ターゲットオブジェクトに対するアイデンティティの整合性を阻害する。
これらの課題に対処するために,参照テキストイメージペアによるエネルギー関数誘導として拡散モデルを用いて,個人化されたコンテンツ編集を潜在空間における編集画像の最適化として定式化する,新たなトレーニングフリーフレームワークを提案する。
テキスト・ツー・ファインメント・ストラテジーは,初期からテキスト・エネルギ・ガイダンスを用いて,ターゲット・クラスへの自然な移行を実現し,ポイント・ツー・ポイント特徴レベルの画像・エネルギ・ガイダンスを用いて,ターゲット・オブジェクトと微粒な外観アライメントを行う。
さらに、ターゲットとの全体的なアイデンティティの整合性を高めるために、潜在空間コンテンツ構成を導入する。
大規模な実験により,本手法は大きな領域ギャップがあってもオブジェクト置換に優れており,高品質でパーソナライズされた画像編集の可能性を強調している。
関連論文リスト
- PartEdit: Fine-Grained Image Editing using Pre-Trained Diffusion Models [80.98455219375862]
本稿では,事前学習した拡散モデルに基づくオブジェクト部品に対する最初のテキストベースの画像編集手法を提案する。
提案手法は, 利用者の77~90%に好まれる。
論文 参考訳(メタデータ) (2025-02-06T13:08:43Z) - Edicho: Consistent Image Editing in the Wild [90.42395533938915]
エディコは拡散モデルに基づく訓練なしの解を踏む。
これは、明示的な画像対応を使って直接編集する基本的な設計原理を特徴としている。
論文 参考訳(メタデータ) (2024-12-30T16:56:44Z) - TALE: Training-free Cross-domain Image Composition via Adaptive Latent Manipulation and Energy-guided Optimization [59.412236435627094]
TALEは、テキストから画像への拡散モデルの生成機能を利用する、トレーニング不要のフレームワークである。
TALEにはAdaptive Latent ManipulationとEnergy-Guided Latent Optimizationという2つのメカニズムが備わっている。
本実験は,TALEが従来のベースラインを超え,画像誘導合成における最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2024-08-07T08:52:21Z) - DiffUHaul: A Training-Free Method for Object Dragging in Images [78.93531472479202]
DiffUHaulと呼ばれるオブジェクトドラッグタスクのためのトレーニング不要な手法を提案する。
まず、各認知段階に注意マスキングを適用して、各生成を異なるオブジェクトにまたがってよりゆがみやすくする。
初期のデノナイジングステップでは、ソース画像とターゲット画像の注意特徴を補間して、新しいレイアウトを元の外観とスムーズに融合させる。
論文 参考訳(メタデータ) (2024-06-03T17:59:53Z) - Text Guided Image Editing with Automatic Concept Locating and Forgetting [27.70615803908037]
画像中の潜在的なターゲット概念を特定するために,Locate and Forget (LaF) と呼ばれる新しい手法を提案する。
本手法はベースラインと比較して,テキスト誘導画像編集作業において質的かつ定量的に優位性を示す。
論文 参考訳(メタデータ) (2024-05-30T05:36:32Z) - Training-Free Consistent Text-to-Image Generation [80.4814768762066]
テキスト・ツー・イメージ・モデルは様々なプロンプトで同じ主題を表現できる。
既存のアプローチは、特定のユーザが提供する主題を記述する新しい単語を教えるためにモデルを微調整する。
本研究では、事前学習モデルの内部アクティベーションを共有することによって、一貫した主題生成を可能にする、トレーニング不要なアプローチであるConsiStoryを提案する。
論文 参考訳(メタデータ) (2024-02-05T18:42:34Z) - AdapEdit: Spatio-Temporal Guided Adaptive Editing Algorithm for
Text-Based Continuity-Sensitive Image Editing [24.9487669818162]
本稿では,適応的な画像編集を実現するための時間的ガイド付き適応編集アルゴリズムAdapEditを提案する。
我々のアプローチは、モデルの事前保存において大きな利点があり、モデルトレーニング、微調整された追加データ、最適化を必要としない。
提案手法は,様々な原画像や編集命令を対象とし,競争性能を実証し,従来の手法よりも優れていたことを示す。
論文 参考訳(メタデータ) (2023-12-13T09:45:58Z) - Taming Encoder for Zero Fine-tuning Image Customization with
Text-to-Image Diffusion Models [55.04969603431266]
本稿では,ユーザが指定したカスタマイズされたオブジェクトの画像を生成する手法を提案する。
この手法は、従来のアプローチで要求される長大な最適化をバイパスする一般的なフレームワークに基づいている。
提案手法は, 出力品質, 外観の多様性, 被写体忠実度を考慮した画像合成が可能であることを示す。
論文 参考訳(メタデータ) (2023-04-05T17:59:32Z) - Highly Personalized Text Embedding for Image Manipulation by Stable
Diffusion [34.662798793560995]
高度にパーソナライズされた(PerHi)テキスト埋め込みを用いたパーソナライズ手法を提案する。
本手法では, モデル微調整や識別子を必要としないが, 背景, テクスチャ, 動きを1つの画像とターゲットテキストで操作できる。
論文 参考訳(メタデータ) (2023-03-15T17:07:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。