論文の概要: Personalized Face Inpainting with Diffusion Models by Parallel Visual
Attention
- arxiv url: http://arxiv.org/abs/2312.03556v1
- Date: Wed, 6 Dec 2023 15:39:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-07 14:38:01.519059
- Title: Personalized Face Inpainting with Diffusion Models by Parallel Visual
Attention
- Title(参考訳): 並列視覚注意による拡散モデルによる顔のパーソナライズ
- Authors: Jianjin Xu, Saman Motamed, Praneetha Vaddamanu, Chen Henry Wu,
Christian Haene, Jean-Charles Bazin, Fernando de la Torre
- Abstract要約: 本稿では,パラレル視覚注意(PVA, Parallel Visual Attention, PVA)と拡散モデルとの併用による塗装結果の改善を提案する。
我々はCelebAHQ-IDIで注目モジュールとIDエンコーダをトレーニングする。
実験により, PVAは顔の塗り絵と顔の塗り絵の両面において, 言語指導タスクと相容れない同一性を持つことが示された。
- 参考スコア(独自算出の注目度): 55.33017432880408
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Face inpainting is important in various applications, such as photo
restoration, image editing, and virtual reality. Despite the significant
advances in face generative models, ensuring that a person's unique facial
identity is maintained during the inpainting process is still an elusive goal.
Current state-of-the-art techniques, exemplified by MyStyle, necessitate
resource-intensive fine-tuning and a substantial number of images for each new
identity. Furthermore, existing methods often fall short in accommodating
user-specified semantic attributes, such as beard or expression. To improve
inpainting results, and reduce the computational complexity during inference,
this paper proposes the use of Parallel Visual Attention (PVA) in conjunction
with diffusion models. Specifically, we insert parallel attention matrices to
each cross-attention module in the denoising network, which attends to features
extracted from reference images by an identity encoder. We train the added
attention modules and identity encoder on CelebAHQ-IDI, a dataset proposed for
identity-preserving face inpainting. Experiments demonstrate that PVA attains
unparalleled identity resemblance in both face inpainting and face inpainting
with language guidance tasks, in comparison to various benchmarks, including
MyStyle, Paint by Example, and Custom Diffusion. Our findings reveal that PVA
ensures good identity preservation while offering effective
language-controllability. Additionally, in contrast to Custom Diffusion, PVA
requires just 40 fine-tuning steps for each new identity, which translates to a
significant speed increase of over 20 times.
- Abstract(参考訳): 顔のインペインティングは、写真復元、画像編集、仮想現実など、さまざまなアプリケーションで重要である。
顔生成モデルが大幅に進歩したにもかかわらず、塗布プロセス中に人の独特の顔のアイデンティティが維持されることは、いまだ明白な目標である。
MyStyleによって実証された現在の最先端技術は、リソース集約的な微調整と、新しいアイデンティティごとにかなりの数の画像を必要とする。
さらに、既存のメソッドは、ひげや表現などのユーザ固有のセマンティック属性の調整に不足することが多い。
そこで本研究では, パラレル視覚意図(PVA)を拡散モデルと組み合わせることで, 塗装結果の改善と, 推論中の計算複雑性の低減を図る。
具体的には、識別エンコーダにより参照画像から抽出された特徴に付随する認知ネットワーク内の各クロスアテンションモジュールに並列アテンション行列を挿入する。
我々はCelebAHQ-IDIで注目モジュールとIDエンコーダをトレーニングする。
実験により、PVAは、MyStyle、Paint by Example、Custom Diffusionなど、さまざまなベンチマークと比較して、顔の塗り絵と顔の塗り絵と言語指導タスクの両方で非並列のアイデンティティ類似性が得られることが示された。
以上の結果から,PVAは効果的な言語制御性を提供しながら,良好なアイデンティティ保護を実現していることが明らかとなった。
さらに、Custom Diffusionとは対照的に、新しいアイデンティティごとに40ステップの微調整が必要であり、これは20倍以上の大幅なスピードアップを意味する。
関連論文リスト
- OSDFace: One-Step Diffusion Model for Face Restoration [72.5045389847792]
拡散モデルは、顔の修復において顕著な性能を示した。
顔復元のための新しいワンステップ拡散モデルOSDFaceを提案する。
その結果,OSDFaceは現状のSOTA(State-of-the-art)手法を視覚的品質と定量的指標の両方で上回っていることがわかった。
論文 参考訳(メタデータ) (2024-11-26T07:07:48Z) - Realistic and Efficient Face Swapping: A Unified Approach with Diffusion Models [69.50286698375386]
フェース・スワッピングのための拡散モデルを改善する新しい手法を提案する。
インペイントトレーニング中にマスクシャッフル技術を導入し、スワップのためのいわゆるユニバーサルモデルを作成することができる。
私たちのアプローチは比較的統一されたアプローチなので、他のオフザシェルフモデルのエラーに対して耐性があります。
論文 参考訳(メタデータ) (2024-09-11T13:43:53Z) - Infinite-ID: Identity-preserved Personalization via ID-semantics Decoupling Paradigm [31.06269858216316]
アイデンティティ保存型パーソナライゼーションのためのID-セマンティックデカップリングパラダイムであるInfinite-IDを提案する。
我々は、十分なID情報を取得するために、追加のイメージクロスアテンションモジュールを組み込んだアイデンティティ強化トレーニングを導入する。
また、2つのストリームをシームレスにマージするために、混合アテンションモジュールとAdaIN平均演算を組み合わせた機能相互作用機構を導入する。
論文 参考訳(メタデータ) (2024-03-18T13:39:53Z) - PortraitBooth: A Versatile Portrait Model for Fast Identity-preserved
Personalization [92.90392834835751]
PortraitBoothは高効率、堅牢なID保存、表現編集可能な画像生成のために設計されている。
PortraitBoothは計算オーバーヘッドを排除し、アイデンティティの歪みを軽減する。
生成した画像の多様な表情に対する感情認識のクロスアテンション制御が組み込まれている。
論文 参考訳(メタデータ) (2023-12-11T13:03:29Z) - When StyleGAN Meets Stable Diffusion: a $\mathscr{W}_+$ Adapter for
Personalized Image Generation [60.305112612629465]
テキストと画像の拡散モデルは、多種多様で高品質でフォトリアリスティックな画像を生成するのに優れている。
本稿では,拡散モデルのための拡張されたアイデンティティ保存とアンタングル化を実現するために,StyleGAN 埋め込み空間 $mathcalW_+$ の新たな利用法を提案する。
提案手法は,即時記述に適合するだけでなく,一般的なスタイルGAN編集方向に対応可能なパーソナライズされたテキスト・ツー・イメージ出力を生成する。
論文 参考訳(メタデータ) (2023-11-29T09:05:14Z) - Disentangling Identity and Pose for Facial Expression Recognition [54.50747989860957]
より識別的な特徴表現を学習するために,識別モデルを提案し,不整形表情認識(IPD-FER)モデルを提案する。
アイデンティティエンコーダでは、訓練中に訓練済みの顔認識モデルを利用して固定し、特定の表情訓練データに対する制限を軽減する。
合成された中性画像と同一個体の表情画像との差を比較することにより、表現成分はアイデンティティやポーズからさらに切り離される。
論文 参考訳(メタデータ) (2022-08-17T06:48:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。