論文の概要: DreamSalon: A Staged Diffusion Framework for Preserving Identity-Context in Editable Face Generation
- arxiv url: http://arxiv.org/abs/2403.19235v1
- Date: Thu, 28 Mar 2024 08:47:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-29 16:53:18.916845
- Title: DreamSalon: A Staged Diffusion Framework for Preserving Identity-Context in Editable Face Generation
- Title(参考訳): DreamSalon: 編集可能な顔生成におけるアイデンティティコンテキストを保存するための段階的拡散フレームワーク
- Authors: Haonan Lin, Mengmeng Wang, Yan Chen, Wenbin An, Yuzhe Yao, Guang Dai, Qianying Wang, Yong Liu, Jingdong Wang,
- Abstract要約: 私たちはDreamSalonを紹介します。
詳細な画像操作とアイデンティティ・コンテキスト保存に重点を置いている。
実験では、ドリームサロンが人間の顔の細部を効率よく忠実に編集する能力を示している。
- 参考スコア(独自算出の注目度): 34.372331192321944
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While large-scale pre-trained text-to-image models can synthesize diverse and high-quality human-centered images, novel challenges arise with a nuanced task of "identity fine editing": precisely modifying specific features of a subject while maintaining its inherent identity and context. Existing personalization methods either require time-consuming optimization or learning additional encoders, adept in "identity re-contextualization". However, they often struggle with detailed and sensitive tasks like human face editing. To address these challenges, we introduce DreamSalon, a noise-guided, staged-editing framework, uniquely focusing on detailed image manipulations and identity-context preservation. By discerning editing and boosting stages via the frequency and gradient of predicted noises, DreamSalon first performs detailed manipulations on specific features in the editing stage, guided by high-frequency information, and then employs stochastic denoising in the boosting stage to improve image quality. For more precise editing, DreamSalon semantically mixes source and target textual prompts, guided by differences in their embedding covariances, to direct the model's focus on specific manipulation areas. Our experiments demonstrate DreamSalon's ability to efficiently and faithfully edit fine details on human faces, outperforming existing methods both qualitatively and quantitatively.
- Abstract(参考訳): 大規模な事前訓練されたテキスト・ツー・イメージモデルでは、多彩で高品質な人間中心の画像を合成することができるが、新しい課題は、その固有のアイデンティティとコンテキストを維持しながら、対象の特定の特徴を正確に修正する"アイデンティティ・ファイン・編集"というニュアンスなタスクによって生じる。
既存のパーソナライズ手法では、時間を要する最適化か、追加のエンコーダを学習する必要がある。
しかし、人間の顔編集のような細密で繊細なタスクに苦しむことが多い。
これらの課題に対処するため,我々はDreamSalonを紹介した。
予測されたノイズの周波数と勾配による編集およびブーストステージの識別により、DreamSalonはまず編集ステージの特定の特徴を詳細に操作し、高周波情報でガイドし、その後、ブーストステージで確率的デノイングを使用して画質を向上させる。
より正確な編集のために、DreamSalonはソースとターゲットのテキストのプロンプトをセマンティックに混ぜ、埋め込みの共分散の違いをガイドし、特定の操作領域にモデルを集中させる。
我々の実験は、DreamSalonが人間の顔の細部を効率よく忠実に編集し、定性的かつ定量的に既存の方法より優れていることを示した。
関連論文リスト
- Foundation Cures Personalization: Recovering Facial Personalized Models' Prompt Consistency [33.35678923549471]
FreeCureは、基礎モデル自体から固有の知識を活用して、パーソナライゼーションモデルの迅速な一貫性を改善する、トレーニング不要のフレームワークである。
パーソナライズモデルの出力における複数の属性を、新しいノイズブリーディング戦略と反転に基づくプロセスによって強化する。
論文 参考訳(メタデータ) (2024-11-22T15:21:38Z) - Learning Feature-Preserving Portrait Editing from Generated Pairs [11.122956539965761]
そこで本研究では,自動生成ペアデータを活用して,所望の編集を学習する学習手法を提案する。
本手法は,最先端の品質を定量的かつ質的に達成する。
論文 参考訳(メタデータ) (2024-07-29T23:19:42Z) - LIPE: Learning Personalized Identity Prior for Non-rigid Image Editing [20.861672583434718]
LIPEは、2段階のフレームワークであり、同じ主題の画像の限られたセットを利用して生成モデルをカスタマイズするように設計されている。
LIPEは、同じ対象の限られた画像集合を用いて生成モデルをカスタマイズする2段階のフレームワークであり、その後、非厳密な画像編集のために学習済みのモデルを用いる。
論文 参考訳(メタデータ) (2024-06-25T02:56:16Z) - Training-Free Consistent Text-to-Image Generation [80.4814768762066]
テキスト・ツー・イメージ・モデルは様々なプロンプトで同じ主題を表現できる。
既存のアプローチは、特定のユーザが提供する主題を記述する新しい単語を教えるためにモデルを微調整する。
本研究では、事前学習モデルの内部アクティベーションを共有することによって、一貫した主題生成を可能にする、トレーニング不要なアプローチであるConsiStoryを提案する。
論文 参考訳(メタデータ) (2024-02-05T18:42:34Z) - When StyleGAN Meets Stable Diffusion: a $\mathscr{W}_+$ Adapter for
Personalized Image Generation [60.305112612629465]
テキストと画像の拡散モデルは、多種多様で高品質でフォトリアリスティックな画像を生成するのに優れている。
本稿では,拡散モデルのための拡張されたアイデンティティ保存とアンタングル化を実現するために,StyleGAN 埋め込み空間 $mathcalW_+$ の新たな利用法を提案する。
提案手法は,即時記述に適合するだけでなく,一般的なスタイルGAN編集方向に対応可能なパーソナライズされたテキスト・ツー・イメージ出力を生成する。
論文 参考訳(メタデータ) (2023-11-29T09:05:14Z) - DreamIdentity: Improved Editability for Efficient Face-identity
Preserved Image Generation [69.16517915592063]
人間の顔の正確な表現を学習するための新しい顔識別エンコーダを提案する。
また、モデルの編集可能性を高めるために、自己拡張編集可能性学習を提案する。
我々の手法は、異なるシーン下でより高速にアイデンティティ保存された画像を生成することができる。
論文 参考訳(メタデータ) (2023-07-01T11:01:17Z) - Paste, Inpaint and Harmonize via Denoising: Subject-Driven Image Editing
with Pre-Trained Diffusion Model [22.975965453227477]
textitPaste, Inpaint, Harmonize と呼ばれる新しいフレームワークをDenoising (PhD) を通じて導入する。
本実験では,主観的画像編集作業にPhDを適用し,参照対象のテキスト駆動シーン生成を探索する。
論文 参考訳(メタデータ) (2023-06-13T07:43:10Z) - Cones 2: Customizable Image Synthesis with Multiple Subjects [50.54010141032032]
本研究では,特定の対象を効率的に表現する方法と,異なる対象を適切に構成する方法について検討する。
クロスアテンションマップ内のアクティベーションを修正することにより、レイアウトはイメージ内の異なる被写体の位置を指定して分離する。
論文 参考訳(メタデータ) (2023-05-30T18:00:06Z) - Zero-shot Image-to-Image Translation [57.46189236379433]
手動のプロンプトを使わずに元の画像を保存できる画像から画像への変換法であるpix2pix-zeroを提案する。
本稿では,拡散過程全体を通して入力画像の相互注意マップを維持することを目的とした,相互注意誘導を提案する。
本手法では,これらの編集のための追加のトレーニングを必要とせず,既存のテキスト・画像拡散モデルを直接使用することができる。
論文 参考訳(メタデータ) (2023-02-06T18:59:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。