論文の概要: When StyleGAN Meets Stable Diffusion: a $\mathscr{W}_+$ Adapter for
Personalized Image Generation
- arxiv url: http://arxiv.org/abs/2311.17461v1
- Date: Wed, 29 Nov 2023 09:05:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-30 22:07:57.569630
- Title: When StyleGAN Meets Stable Diffusion: a $\mathscr{W}_+$ Adapter for
Personalized Image Generation
- Title(参考訳): StyleGANが安定拡散に出会ったとき:パーソナライズされた画像生成のための$\mathscr{W}_+$アダプタ
- Authors: Xiaoming Li, Xinyu Hou, Chen Change Loy
- Abstract要約: テキストと画像の拡散モデルは、多種多様で高品質でフォトリアリスティックな画像を生成するのに優れている。
本稿では,拡散モデルのための拡張されたアイデンティティ保存とアンタングル化を実現するために,StyleGAN 埋め込み空間 $mathcalW_+$ の新たな利用法を提案する。
提案手法は,即時記述に適合するだけでなく,一般的なスタイルGAN編集方向に対応可能なパーソナライズされたテキスト・ツー・イメージ出力を生成する。
- 参考スコア(独自算出の注目度): 60.305112612629465
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image diffusion models have remarkably excelled in producing diverse,
high-quality, and photo-realistic images. This advancement has spurred a
growing interest in incorporating specific identities into generated content.
Most current methods employ an inversion approach to embed a target visual
concept into the text embedding space using a single reference image. However,
the newly synthesized faces either closely resemble the reference image in
terms of facial attributes, such as expression, or exhibit a reduced capacity
for identity preservation. Text descriptions intended to guide the facial
attributes of the synthesized face may fall short, owing to the intricate
entanglement of identity information with identity-irrelevant facial attributes
derived from the reference image. To address these issues, we present the novel
use of the extended StyleGAN embedding space $\mathcal{W}_+$, to achieve
enhanced identity preservation and disentanglement for diffusion models. By
aligning this semantically meaningful human face latent space with
text-to-image diffusion models, we succeed in maintaining high fidelity in
identity preservation, coupled with the capacity for semantic editing.
Additionally, we propose new training objectives to balance the influences of
both prompt and identity conditions, ensuring that the identity-irrelevant
background remains unaffected during facial attribute modifications. Extensive
experiments reveal that our method adeptly generates personalized text-to-image
outputs that are not only compatible with prompt descriptions but also amenable
to common StyleGAN editing directions in diverse settings. Our source code will
be available at \url{https://github.com/csxmli2016/w-plus-adapter}.
- Abstract(参考訳): テキストと画像の拡散モデルは、多種多様で高品質でフォトリアリスティックな画像を生成するのに著しく優れている。
この進歩により、特定のアイデンティティを生成コンテンツに組み込むことへの関心が高まっている。
現在のほとんどの手法では、単一の参照画像を用いてターゲットの視覚概念をテキスト埋め込み空間に埋め込む逆アプローチを採用している。
しかし、新たに合成された顔は、表情などの顔の特徴の観点からは参照画像によく似ているか、アイデンティティ保存能力の低下を示す。
合成顔の表情属性を導くためのテキスト記述は、参照画像から派生した同一性に無関係な顔属性によるアイデンティティ情報の複雑な絡み合いのため、不足する可能性がある。
これらの問題に対処するために、拡散モデルのための拡張されたアイデンティティ保存と非絡み合いを実現するために、拡張されたStyleGAN埋め込み空間 $\mathcal{W}_+$ を用いる。
この意味的に意味のある人間の顔潜在空間をテキストから画像への拡散モデルと整合させることにより、私たちは、意味編集能力とともに、アイデンティティ保存における高い忠実性を維持することに成功します。
さらに,プロンプト条件とアイデンティティ条件の両方の影響をバランスさせ,顔の属性変更時に身元不明な背景が影響を受けないようにするための新しいトレーニング目標を提案する。
提案手法は,プロンプト記述と互換性のあるパーソナライズされたテキストから画像への出力を生成するだけでなく,多彩な設定で一般的なスタイルガン編集指示に適応できることを示す。
ソースコードは \url{https://github.com/csxmli2016/w-plus-adapter} で利用可能です。
関連論文リスト
- SeFi-IDE: Semantic-Fidelity Identity Embedding for Personalized
Diffusion-Based Generation [23.748654463945567]
我々は、パーソナライズされた生成のための安定拡散モデルに埋め込まれた正確でセマンティックなIDに焦点を当てる。
具体的には、対象画像全体ではなく、顔領域に適合する顔の注意損失を提案する。
このトリックは、他の既存の概念とIDの精度と対話的な生成能力を大幅に向上させる。
論文 参考訳(メタデータ) (2024-01-31T11:52:33Z) - StableIdentity: Inserting Anybody into Anywhere at First Sight [57.99693188913382]
一つの顔画像で同一性に一貫性のある再テクスチャ化を可能にするStableIdentityを提案する。
私たちは、1つの画像から学んだアイデンティティを直接、微調整なしでビデオ/3D生成に注入する最初の人です。
論文 参考訳(メタデータ) (2024-01-29T09:06:15Z) - Personalized Face Inpainting with Diffusion Models by Parallel Visual
Attention [55.33017432880408]
本稿では,パラレル視覚注意(PVA, Parallel Visual Attention, PVA)と拡散モデルとの併用による塗装結果の改善を提案する。
我々はCelebAHQ-IDIで注目モジュールとIDエンコーダをトレーニングする。
実験により, PVAは顔の塗り絵と顔の塗り絵の両面において, 言語指導タスクと相容れない同一性を持つことが示された。
論文 参考訳(メタデータ) (2023-12-06T15:39:03Z) - DreamIdentity: Improved Editability for Efficient Face-identity
Preserved Image Generation [69.16517915592063]
人間の顔の正確な表現を学習するための新しい顔識別エンコーダを提案する。
また、モデルの編集可能性を高めるために、自己拡張編集可能性学習を提案する。
我々の手法は、異なるシーン下でより高速にアイデンティティ保存された画像を生成することができる。
論文 参考訳(メタデータ) (2023-07-01T11:01:17Z) - DisenBooth: Identity-Preserving Disentangled Tuning for Subject-Driven
Text-to-Image Generation [50.39533637201273]
主観駆動型テキスト・ツー・イメージ生成のためのID保存型アンタングル型チューニングフレームワークであるDisenBoothを提案する。
DisenBoothは、ID保存の埋め込みとアイデンティティ関連の埋め込みを組み合わせることで、より世代的柔軟性と制御性を示す。
論文 参考訳(メタデータ) (2023-05-05T09:08:25Z) - StyO: Stylize Your Face in Only One-Shot [8.253458555695767]
本稿では,1つの芸術的対象を持つ顔のスタイリングに焦点を当てた。
このタスクの既存の作業は、ジオメトリの変化を達成しながら、ソース内容の保持に失敗することが多い。
上記の問題を解決するために,新しいStyOモデル,すなわち1ショットで顔をスタイリングする。
論文 参考訳(メタデータ) (2023-03-06T15:48:33Z) - Learning Disentangled Representation for One-shot Progressive Face
Swapping [65.98684203654908]
ジェネレーティブ・アドバーサリアル・ネットワークに基づくワンショット・フェイススワップのためのシンプルで効率的なFaceSwapperを提案する。
提案手法は,不整合表現モジュールと意味誘導融合モジュールから構成される。
その結果,本手法は,トレーニングサンプルの少ないベンチマークで最先端の結果が得られることがわかった。
論文 参考訳(メタデータ) (2022-03-24T11:19:04Z) - Semantic Text-to-Face GAN -ST^2FG [0.7919810878571298]
セマンティックテキスト記述から顔画像を生成する新しい手法を提案する。
セキュリティと犯罪の特定のためには、スケッチアーティストのように機能するGANベースのシステムを提供する能力は、信じられないほど有用だろう。
論文 参考訳(メタデータ) (2021-07-22T15:42:25Z) - VAE/WGAN-Based Image Representation Learning For Pose-Preserving
Seamless Identity Replacement In Facial Images [15.855376604558977]
We present a novel variational generative adversarial network (VGAN) based on Wasserstein loss。
我々のネットワークは、ポーズ保存されたアイデンティティ・モーフィングとアイデンティティ保存されたポーズ・モーフィングの実行に利用できることを示す。
論文 参考訳(メタデータ) (2020-03-02T03:35:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。