論文の概要: DreamSteerer: Enhancing Source Image Conditioned Editability using Personalized Diffusion Models
- arxiv url: http://arxiv.org/abs/2410.11208v2
- Date: Wed, 30 Oct 2024 01:16:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-31 14:24:21.872809
- Title: DreamSteerer: Enhancing Source Image Conditioned Editability using Personalized Diffusion Models
- Title(参考訳): DreamSteerer:パーソナライズされた拡散モデルによるソース条件付き編集性の向上
- Authors: Zhengyang Yu, Zhaoyuan Yang, Jing Zhang,
- Abstract要約: 近年のテキスト・ツー・イメージのパーソナライズ手法は,ユーザ特定概念の拡散モデルを教える上で大きな可能性を秘めている。
有望な拡張は、パーソナライズされた概念を使って画像を編集するパーソナライズされた編集である。
本稿では,既存のT2Iパーソナライズ手法を拡張するプラグインであるDreamSteerを提案する。
- 参考スコア(独自算出の注目度): 7.418186319496487
- License:
- Abstract: Recent text-to-image personalization methods have shown great promise in teaching a diffusion model user-specified concepts given a few images for reusing the acquired concepts in a novel context. With massive efforts being dedicated to personalized generation, a promising extension is personalized editing, namely to edit an image using personalized concepts, which can provide a more precise guidance signal than traditional textual guidance. To address this, a straightforward solution is to incorporate a personalized diffusion model with a text-driven editing framework. However, such a solution often shows unsatisfactory editability on the source image. To address this, we propose DreamSteerer, a plug-in method for augmenting existing T2I personalization methods. Specifically, we enhance the source image conditioned editability of a personalized diffusion model via a novel Editability Driven Score Distillation (EDSD) objective. Moreover, we identify a mode trapping issue with EDSD, and propose a mode shifting regularization with spatial feature guided sampling to avoid such an issue. We further employ two key modifications to the Delta Denoising Score framework that enable high-fidelity local editing with personalized concepts. Extensive experiments validate that DreamSteerer can significantly improve the editability of several T2I personalization baselines while being computationally efficient.
- Abstract(参考訳): 近年のテキスト・ツー・イメージのパーソナライズ手法は,獲得した概念を新しい文脈で再利用する上で,ユーザ特定概念の拡散モデルを教える上で大きな可能性を示している。
パーソナライズされた生成に多大な努力を払っている中で、将来有望な拡張はパーソナライズされた概念を使って画像を編集するパーソナライズされた編集である。
これを解決するための簡単な解決策は、パーソナライズされた拡散モデルにテキスト駆動編集フレームワークを組み込むことである。
しかし、そのような解決策は、しばしばソースイメージに満足のいく編集性を示す。
そこで本稿では,既存のT2Iパーソナライズ手法を付加するプラグインであるDreamSteerを提案する。
具体的には、新しいEDSD(Editability Driven Score Distillation)目標を用いて、パーソナライズされた拡散モデルのソースコード条件付き編集可能性を高める。
さらに,EDSDによるモードトラップ問題を特定し,空間特徴誘導サンプリングによるモードシフト正規化を提案し,そのような問題を回避する。
さらにDelta Denoising Scoreフレームワークに2つの重要な変更を加え、パーソナライズされた概念で高忠実なローカル編集を可能にする。
大規模な実験により、DreamSteerは計算効率を保ちながら、いくつかのT2Iパーソナライゼーションベースラインの編集性を大幅に向上させることができることが検証された。
関連論文リスト
- Powerful and Flexible: Personalized Text-to-Image Generation via Reinforcement Learning [40.06403155373455]
個人化されたテキスト・画像生成のための新しい強化学習フレームワークを提案する。
提案手法は、テキストアライメントを維持しながら、視覚的忠実度に大きな差で既存の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2024-07-09T08:11:53Z) - JeDi: Joint-Image Diffusion Models for Finetuning-Free Personalized Text-to-Image Generation [49.997839600988875]
既存のパーソナライズ手法は、ユーザのカスタムデータセット上でテキスト・ツー・イメージの基礎モデルを微調整することに依存している。
ファインタニングフリーのパーソナライズモデルを学ぶための効果的な手法として,ジョイントイメージ拡散(jedi)を提案する。
本モデルは,従来のファインタニングベースとファインタニングフリーのパーソナライゼーションベースの両方において,定量的かつ定性的に,高い品質を実現する。
論文 参考訳(メタデータ) (2024-07-08T17:59:02Z) - A Survey of Multimodal-Guided Image Editing with Text-to-Image Diffusion Models [117.77807994397784]
画像編集は、ユーザーが特定の要求を満たすために、与えられた合成画像または実際の画像を編集することを目的としている。
この分野での最近の顕著な進歩は、テキスト・ツー・イメージ(T2I)拡散モデルの開発に基づいている。
T2Iベースの画像編集手法は、編集性能を大幅に向上させ、マルチモーダル入力でガイドされたコンテンツを修正するためのユーザフレンドリーなインタフェースを提供する。
論文 参考訳(メタデータ) (2024-06-20T17:58:52Z) - Preserving Identity with Variational Score for General-purpose 3D Editing [48.314327790451856]
Pivaは拡散モデルに基づいて画像や3Dモデルを編集する新しい最適化手法である。
我々は2Dと3Dの編集の限界を指摘し、細かな損失と過飽和を引き起こす。
恒常保存を強制する追加のスコア蒸留項を提案する。
論文 参考訳(メタデータ) (2024-06-13T09:32:40Z) - Editing Massive Concepts in Text-to-Image Diffusion Models [58.620118104364174]
拡散モデル(EMCID)における大量概念を編集する2段階手法を提案する。
第1段階では、テキストアライメントの損失と拡散雑音予測の損失から2つの自己蒸留による各概念のメモリ最適化を行う。
第2段階では、多層クローズドフォームモデル編集による大規模な概念編集を行う。
論文 参考訳(メタデータ) (2024-03-20T17:59:57Z) - DreamDistribution: Prompt Distribution Learning for Text-to-Image
Diffusion Models [53.17454737232668]
本稿では,事前学習したT2I拡散モデルを用いて,ソフトプロンプトの集合を学習する解を提案する。
これらのプロンプトは、テキストガイドによる編集機能と、複数のディストリビューション間の変動と混合を制御する柔軟性を提供する。
また,テキスト・トゥ・3Dなどの他のタスクに対して,学習したプロンプト分布の適応性を示す。
論文 参考訳(メタデータ) (2023-12-21T12:11:00Z) - AdapEdit: Spatio-Temporal Guided Adaptive Editing Algorithm for
Text-Based Continuity-Sensitive Image Editing [24.9487669818162]
本稿では,適応的な画像編集を実現するための時間的ガイド付き適応編集アルゴリズムAdapEditを提案する。
我々のアプローチは、モデルの事前保存において大きな利点があり、モデルトレーニング、微調整された追加データ、最適化を必要としない。
提案手法は,様々な原画像や編集命令を対象とし,競争性能を実証し,従来の手法よりも優れていたことを示す。
論文 参考訳(メタデータ) (2023-12-13T09:45:58Z) - Custom-Edit: Text-Guided Image Editing with Customized Diffusion Models [26.92450293675906]
テキスト間拡散モデルでは、ユーザが提供するテキストプロンプトに基づいて、多種多様な高忠実な画像を生成することができる。
カスタム編集を提案し、(i)いくつかの参照画像で拡散モデルをカスタマイズし、(ii)テキスト誘導編集を行う。
論文 参考訳(メタデータ) (2023-05-25T06:46:28Z) - ReGeneration Learning of Diffusion Models with Rich Prompts for
Zero-Shot Image Translation [8.803251014279502]
大規模なテキスト・ツー・イメージモデルは、多彩で高忠実な画像を合成する素晴らしい能力を示した。
現在のモデルでは、編集プロセス中に元の画像の内容に大きな変更を加えることができる。
画像と画像の拡散モデル(ReDiffuser)における再生学習を提案する。
論文 参考訳(メタデータ) (2023-05-08T12:08:12Z) - Zero-shot Image-to-Image Translation [57.46189236379433]
手動のプロンプトを使わずに元の画像を保存できる画像から画像への変換法であるpix2pix-zeroを提案する。
本稿では,拡散過程全体を通して入力画像の相互注意マップを維持することを目的とした,相互注意誘導を提案する。
本手法では,これらの編集のための追加のトレーニングを必要とせず,既存のテキスト・画像拡散モデルを直接使用することができる。
論文 参考訳(メタデータ) (2023-02-06T18:59:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。