論文の概要: Personalized Face Inpainting with Diffusion Models by Parallel Visual
Attention
- arxiv url: http://arxiv.org/abs/2312.03556v1
- Date: Wed, 6 Dec 2023 15:39:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-07 14:38:01.519059
- Title: Personalized Face Inpainting with Diffusion Models by Parallel Visual
Attention
- Title(参考訳): 並列視覚注意による拡散モデルによる顔のパーソナライズ
- Authors: Jianjin Xu, Saman Motamed, Praneetha Vaddamanu, Chen Henry Wu,
Christian Haene, Jean-Charles Bazin, Fernando de la Torre
- Abstract要約: 本稿では,パラレル視覚注意(PVA, Parallel Visual Attention, PVA)と拡散モデルとの併用による塗装結果の改善を提案する。
我々はCelebAHQ-IDIで注目モジュールとIDエンコーダをトレーニングする。
実験により, PVAは顔の塗り絵と顔の塗り絵の両面において, 言語指導タスクと相容れない同一性を持つことが示された。
- 参考スコア(独自算出の注目度): 55.33017432880408
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Face inpainting is important in various applications, such as photo
restoration, image editing, and virtual reality. Despite the significant
advances in face generative models, ensuring that a person's unique facial
identity is maintained during the inpainting process is still an elusive goal.
Current state-of-the-art techniques, exemplified by MyStyle, necessitate
resource-intensive fine-tuning and a substantial number of images for each new
identity. Furthermore, existing methods often fall short in accommodating
user-specified semantic attributes, such as beard or expression. To improve
inpainting results, and reduce the computational complexity during inference,
this paper proposes the use of Parallel Visual Attention (PVA) in conjunction
with diffusion models. Specifically, we insert parallel attention matrices to
each cross-attention module in the denoising network, which attends to features
extracted from reference images by an identity encoder. We train the added
attention modules and identity encoder on CelebAHQ-IDI, a dataset proposed for
identity-preserving face inpainting. Experiments demonstrate that PVA attains
unparalleled identity resemblance in both face inpainting and face inpainting
with language guidance tasks, in comparison to various benchmarks, including
MyStyle, Paint by Example, and Custom Diffusion. Our findings reveal that PVA
ensures good identity preservation while offering effective
language-controllability. Additionally, in contrast to Custom Diffusion, PVA
requires just 40 fine-tuning steps for each new identity, which translates to a
significant speed increase of over 20 times.
- Abstract(参考訳): 顔のインペインティングは、写真復元、画像編集、仮想現実など、さまざまなアプリケーションで重要である。
顔生成モデルが大幅に進歩したにもかかわらず、塗布プロセス中に人の独特の顔のアイデンティティが維持されることは、いまだ明白な目標である。
MyStyleによって実証された現在の最先端技術は、リソース集約的な微調整と、新しいアイデンティティごとにかなりの数の画像を必要とする。
さらに、既存のメソッドは、ひげや表現などのユーザ固有のセマンティック属性の調整に不足することが多い。
そこで本研究では, パラレル視覚意図(PVA)を拡散モデルと組み合わせることで, 塗装結果の改善と, 推論中の計算複雑性の低減を図る。
具体的には、識別エンコーダにより参照画像から抽出された特徴に付随する認知ネットワーク内の各クロスアテンションモジュールに並列アテンション行列を挿入する。
我々はCelebAHQ-IDIで注目モジュールとIDエンコーダをトレーニングする。
実験により、PVAは、MyStyle、Paint by Example、Custom Diffusionなど、さまざまなベンチマークと比較して、顔の塗り絵と顔の塗り絵と言語指導タスクの両方で非並列のアイデンティティ類似性が得られることが示された。
以上の結果から,PVAは効果的な言語制御性を提供しながら,良好なアイデンティティ保護を実現していることが明らかとなった。
さらに、Custom Diffusionとは対照的に、新しいアイデンティティごとに40ステップの微調整が必要であり、これは20倍以上の大幅なスピードアップを意味する。
関連論文リスト
- SeFi-IDE: Semantic-Fidelity Identity Embedding for Personalized
Diffusion-Based Generation [23.748654463945567]
我々は、パーソナライズされた生成のための安定拡散モデルに埋め込まれた正確でセマンティックなIDに焦点を当てる。
具体的には、対象画像全体ではなく、顔領域に適合する顔の注意損失を提案する。
このトリックは、他の既存の概念とIDの精度と対話的な生成能力を大幅に向上させる。
論文 参考訳(メタデータ) (2024-01-31T11:52:33Z) - Privacy-Preserving Face Recognition in Hybrid Frequency-Color Domain [16.05230409730324]
顔画像は、各ユーザのアイデンティティ情報に関連付けられた、敏感なバイオメトリック属性である。
本稿では,顔認識の入力次元を低減するために,ハイブリッド周波数-カラー融合法を提案する。
1:Nの検証シナリオの最先端よりも約2.6%から4.2%高い精度を持つ。
論文 参考訳(メタデータ) (2024-01-24T11:27:32Z) - PortraitBooth: A Versatile Portrait Model for Fast Identity-preserved
Personalization [92.90392834835751]
PortraitBoothは高効率、堅牢なID保存、表現編集可能な画像生成のために設計されている。
PortraitBoothは計算オーバーヘッドを排除し、アイデンティティの歪みを軽減する。
生成した画像の多様な表情に対する感情認識のクロスアテンション制御が組み込まれている。
論文 参考訳(メタデータ) (2023-12-11T13:03:29Z) - When StyleGAN Meets Stable Diffusion: a $\mathscr{W}_+$ Adapter for
Personalized Image Generation [60.305112612629465]
テキストと画像の拡散モデルは、多種多様で高品質でフォトリアリスティックな画像を生成するのに優れている。
本稿では,拡散モデルのための拡張されたアイデンティティ保存とアンタングル化を実現するために,StyleGAN 埋め込み空間 $mathcalW_+$ の新たな利用法を提案する。
提案手法は,即時記述に適合するだけでなく,一般的なスタイルGAN編集方向に対応可能なパーソナライズされたテキスト・ツー・イメージ出力を生成する。
論文 参考訳(メタデータ) (2023-11-29T09:05:14Z) - PATMAT: Person Aware Tuning of Mask-Aware Transformer for Face
Inpainting [80.0999542077728]
顔の塗り絵の現在の生成モデルは、細かい顔の詳細や人物の身元を保存できないことが多い。
提案手法であるPATMATは、被験者の参照画像と、顔に訓練されたMATアーキテクチャを微調整することにより、アイデンティティを効果的に保存する。
PATMATは、画像の品質、個人固有の詳細の保存、主題の同一性の観点から、最先端モデルよりも優れていることを実証する。
論文 参考訳(メタデータ) (2023-04-12T18:46:37Z) - Disentangling Identity and Pose for Facial Expression Recognition [54.50747989860957]
より識別的な特徴表現を学習するために,識別モデルを提案し,不整形表情認識(IPD-FER)モデルを提案する。
アイデンティティエンコーダでは、訓練中に訓練済みの顔認識モデルを利用して固定し、特定の表情訓練データに対する制限を軽減する。
合成された中性画像と同一個体の表情画像との差を比較することにより、表現成分はアイデンティティやポーズからさらに切り離される。
論文 参考訳(メタデータ) (2022-08-17T06:48:13Z) - Learning Disentangled Representation for One-shot Progressive Face
Swapping [65.98684203654908]
ジェネレーティブ・アドバーサリアル・ネットワークに基づくワンショット・フェイススワップのためのシンプルで効率的なFaceSwapperを提案する。
提案手法は,不整合表現モジュールと意味誘導融合モジュールから構成される。
その結果,本手法は,トレーニングサンプルの少ないベンチマークで最先端の結果が得られることがわかった。
論文 参考訳(メタデータ) (2022-03-24T11:19:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。