論文の概要: SeFi-IDE: Semantic-Fidelity Identity Embedding for Personalized
Diffusion-Based Generation
- arxiv url: http://arxiv.org/abs/2402.00631v1
- Date: Wed, 31 Jan 2024 11:52:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-02 14:58:45.171184
- Title: SeFi-IDE: Semantic-Fidelity Identity Embedding for Personalized
Diffusion-Based Generation
- Title(参考訳): SeFi-IDE:パーソナライズされた拡散生成のためのセマンティック・フィデリティ・アイデンティティ・埋め込み
- Authors: Yang Li, Songlin Yang, Wei Wang, Jing Dong
- Abstract要約: 我々は、パーソナライズされた生成のための安定拡散モデルに埋め込まれた正確でセマンティックなIDに焦点を当てる。
具体的には、対象画像全体ではなく、顔領域に適合する顔の注意損失を提案する。
このトリックは、他の既存の概念とIDの精度と対話的な生成能力を大幅に向上させる。
- 参考スコア(独自算出の注目度): 23.748654463945567
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Advanced diffusion-based Text-to-Image (T2I) models, such as the Stable
Diffusion Model, have made significant progress in generating diverse and
high-quality images using text prompts alone. However, T2I models are unable to
accurately map identities (IDs) when non-famous users require personalized
image generation. The main problem is that existing T2I models do not learn the
ID-image alignments of new users. The previous methods either failed to
accurately fit the face region or lost the interactive generative ability with
other existing concepts in T2I models (i.e., unable to generate other concepts
described in given prompts such as scenes, actions, and facial attributes). In
this paper, we focus on accurate and semantic-fidelity ID embedding into the
Stable Diffusion Model for personalized generation. We address this challenge
from two perspectives: face-wise region fitting, and semantic-fidelity token
optimization. Specifically, we first visualize the attention overfit problem,
and propose a face-wise attention loss to fit the face region instead of the
whole target image. This key trick significantly enhances the ID accuracy and
interactive generative ability with other existing concepts. Then, we optimize
one ID representation as multiple per-stage tokens where each token contains
two disentangled features. This expansion of the textual conditioning space
enhances semantic-fidelity control. Extensive experiments validate that our
results exhibit superior ID accuracy and manipulation ability compared to
previous methods.
- Abstract(参考訳): 安定拡散モデルのような高度な拡散ベースのテキスト・ツー・イメージ(T2I)モデルは、テキストプロンプトだけで多彩で高品質な画像を生成することに大きく進歩した。
しかし、t2iモデルは、有名でないユーザーがパーソナライズされた画像生成を必要とする場合に正確なidをマッピングできない。
主な問題は、既存のT2Iモデルが新規ユーザのIDイメージアライメントを学習していないことである。
以前の手法は、顔領域に正確に適合しなかったり、他のT2Iモデル(シーン、アクション、顔属性など、与えられたプロンプトで記述された他の概念を生成できなかった)にインタラクティブな生成能力を失ったりした。
本稿では,パーソナライズされた生成のための安定拡散モデルに埋め込まれた正確かつセマンティックなIDに焦点を当てる。
本稿では,この課題を2つの視点から解決する。
具体的には,まず注意過剰問題の可視化を行い,対象画像全体ではなく顔領域に適合する顔方向注意損失を提案する。
この鍵となるトリックは、他の既存の概念とIDの精度と対話的な生成能力を大幅に向上させる。
次に、1つのid表現をステージ毎の複数のトークンとして最適化する。
このテキスト条件空間の拡張はセマンティック・フィデリティ制御を強化する。
広範な実験により,従来の手法よりも優れたid精度と操作能力が得られた。
関連論文リスト
- Face2Diffusion for Fast and Editable Face Personalization [33.65484538815936]
顔のパーソナライズのためのFace2Diffusion(F2D)を提案する。
F2Dの背後にある中核的な考え方は、トレーニングパイプラインからアイデンティティ非関連情報を削除することで、オーバーフィッティングの問題を防ぐことである。
F2Dは以下の3つの新しい構成要素から構成される。
論文 参考訳(メタデータ) (2024-03-08T06:46:01Z) - Discriminative Probing and Tuning for Text-to-Image Generation [129.39674951747412]
テキスト・ツー・イメージ生成(T2I)は、しばしば、生成された画像における関係の混乱のようなテキスト・イメージの誤調整問題に直面している。
本稿では,T2Iモデルの識別能力を向上し,より正確なテキストと画像のアライメントを実現することを提案する。
本稿では,T2Iモデル上に構築された識別アダプターを用いて,2つの代表課題における識別能力を探索し,テキスト画像のアライメントを改善するために識別微調整を利用する。
論文 参考訳(メタデータ) (2024-03-07T08:37:33Z) - StableIdentity: Inserting Anybody into Anywhere at First Sight [57.99693188913382]
一つの顔画像で同一性に一貫性のある再テクスチャ化を可能にするStableIdentityを提案する。
私たちは、1つの画像から学んだアイデンティティを直接、微調整なしでビデオ/3D生成に注入する最初の人です。
論文 参考訳(メタデータ) (2024-01-29T09:06:15Z) - InstantID: Zero-shot Identity-Preserving Generation in Seconds [21.04236321562671]
我々はID埋め込みのための強力な拡散モデルに基づくソリューションであるInstantIDを紹介する。
我々のプラグイン・アンド・プレイ・モジュールは、1つの顔画像だけで様々なスタイルで画像のパーソナライズ処理を行う。
私たちの仕事はSD1.5やSDXLのような、トレーニング済みのテキストと画像の拡散モデルとシームレスに統合されます。
論文 参考訳(メタデータ) (2024-01-15T07:50:18Z) - Personalized Face Inpainting with Diffusion Models by Parallel Visual
Attention [55.33017432880408]
本稿では,パラレル視覚注意(PVA, Parallel Visual Attention, PVA)と拡散モデルとの併用による塗装結果の改善を提案する。
我々はCelebAHQ-IDIで注目モジュールとIDエンコーダをトレーニングする。
実験により, PVAは顔の塗り絵と顔の塗り絵の両面において, 言語指導タスクと相容れない同一性を持つことが示された。
論文 参考訳(メタデータ) (2023-12-06T15:39:03Z) - When StyleGAN Meets Stable Diffusion: a $\mathscr{W}_+$ Adapter for
Personalized Image Generation [60.305112612629465]
テキストと画像の拡散モデルは、多種多様で高品質でフォトリアリスティックな画像を生成するのに優れている。
本稿では,拡散モデルのための拡張されたアイデンティティ保存とアンタングル化を実現するために,StyleGAN 埋め込み空間 $mathcalW_+$ の新たな利用法を提案する。
提案手法は,即時記述に適合するだけでなく,一般的なスタイルGAN編集方向に対応可能なパーソナライズされたテキスト・ツー・イメージ出力を生成する。
論文 参考訳(メタデータ) (2023-11-29T09:05:14Z) - Attribute-preserving Face Dataset Anonymization via Latent Code
Optimization [64.4569739006591]
本稿では,事前学習したGANの潜時空間における画像の潜時表現を直接最適化するタスク非依存匿名化手法を提案する。
我々は一連の実験を通して、我々の手法が画像の同一性を匿名化できる一方で、顔の属性をより保存できることを実証した。
論文 参考訳(メタデータ) (2023-03-20T17:34:05Z) - T-Person-GAN: Text-to-Person Image Generation with Identity-Consistency
and Manifold Mix-Up [16.165889084870116]
テキストのみに条件付けされた高解像度の人物画像を生成するためのエンドツーエンドアプローチを提案する。
2つの新しいメカニズムで人物画像を生成するための効果的な生成モデルを開発する。
論文 参考訳(メタデータ) (2022-08-18T07:41:02Z) - Dynamic Prototype Mask for Occluded Person Re-Identification [88.7782299372656]
既存の手法では、目に見える部分を識別するために、余分なネットワークによって提供される身体の手がかりを利用することで、この問題に対処している。
2つの自己明快な事前知識に基づく新しい動的プロトタイプマスク(DPM)を提案する。
この条件下では、隠蔽された表現は、選択された部分空間において自然にうまく整列することができる。
論文 参考訳(メタデータ) (2022-07-19T03:31:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。