論文の概要: PATMAT: Person Aware Tuning of Mask-Aware Transformer for Face
Inpainting
- arxiv url: http://arxiv.org/abs/2304.06107v1
- Date: Wed, 12 Apr 2023 18:46:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-14 16:26:57.629411
- Title: PATMAT: Person Aware Tuning of Mask-Aware Transformer for Face
Inpainting
- Title(参考訳): PATMAT: 顔ペンキ用マスク対応変圧器のチューニングを意識した人
- Authors: Saman Motamed and Jianjin Xu and Chen Henry Wu and Fernando De la
Torre
- Abstract要約: 顔の塗り絵の現在の生成モデルは、細かい顔の詳細や人物の身元を保存できないことが多い。
提案手法であるPATMATは、被験者の参照画像と、顔に訓練されたMATアーキテクチャを微調整することにより、アイデンティティを効果的に保存する。
PATMATは、画像の品質、個人固有の詳細の保存、主題の同一性の観点から、最先端モデルよりも優れていることを実証する。
- 参考スコア(独自算出の注目度): 80.0999542077728
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative models such as StyleGAN2 and Stable Diffusion have achieved
state-of-the-art performance in computer vision tasks such as image synthesis,
inpainting, and de-noising. However, current generative models for face
inpainting often fail to preserve fine facial details and the identity of the
person, despite creating aesthetically convincing image structures and
textures. In this work, we propose Person Aware Tuning (PAT) of Mask-Aware
Transformer (MAT) for face inpainting, which addresses this issue. Our proposed
method, PATMAT, effectively preserves identity by incorporating reference
images of a subject and fine-tuning a MAT architecture trained on faces. By
using ~40 reference images, PATMAT creates anchor points in MAT's style module,
and tunes the model using the fixed anchors to adapt the model to a new face
identity. Moreover, PATMAT's use of multiple images per anchor during training
allows the model to use fewer reference images than competing methods. We
demonstrate that PATMAT outperforms state-of-the-art models in terms of image
quality, the preservation of person-specific details, and the identity of the
subject. Our results suggest that PATMAT can be a promising approach for
improving the quality of personalized face inpainting.
- Abstract(参考訳): StyleGAN2やStable Diffusionのような生成モデルは、画像合成、塗装、ノイズ除去といったコンピュータビジョンタスクにおいて最先端のパフォーマンスを達成した。
しかし、現在の顔の塗り絵の生成モデルは、美的説得力のあるイメージ構造やテクスチャを作り出すにもかかわらず、顔の詳細や人物のアイデンティティを保存できないことが多い。
本研究では,マスク・アウェア・トランスフォーマー (MAT) のPerson Aware Tuning (PAT) を提案する。
提案手法であるPATMATは、被験者の参照画像と、顔に訓練されたMATアーキテクチャを微調整することにより、アイデンティティを効果的に保存する。
約40の参照画像を使用することで、PATMATはMATスタイルモジュールのアンカーポイントを生成し、固定アンカーを使用してモデルを新しい顔認証に適応させる。
さらに、トレーニング中にPATMATは複数のイメージをアンカーに使用することで、競合するメソッドよりも少ない参照イメージを使用することができる。
そこで本研究では,patmatが画像品質,人固有の詳細の保存,被写体のアイデンティティといった面で最先端モデルを上回ることを実証する。
以上の結果から, PATMATはパーソナライズされた顔の塗り絵の質向上に有効である可能性が示唆された。
関連論文リスト
- OSDFace: One-Step Diffusion Model for Face Restoration [72.5045389847792]
拡散モデルは、顔の修復において顕著な性能を示した。
顔復元のための新しいワンステップ拡散モデルOSDFaceを提案する。
その結果,OSDFaceは現状のSOTA(State-of-the-art)手法を視覚的品質と定量的指標の両方で上回っていることがわかった。
論文 参考訳(メタデータ) (2024-11-26T07:07:48Z) - Optimal-Landmark-Guided Image Blending for Face Morphing Attacks [8.024953195407502]
本稿では,最適なランドマーク誘導画像ブレンディングを用いた顔形態形成攻撃を行うための新しい手法を提案する。
提案手法は, ランドマークの最適化とグラフ畳み込みネットワーク(GCN)によるランドマークと外観特徴の組み合わせにより, 従来のアプローチの限界を克服する。
論文 参考訳(メタデータ) (2024-01-30T03:45:06Z) - Personalized Face Inpainting with Diffusion Models by Parallel Visual
Attention [55.33017432880408]
本稿では,パラレル視覚注意(PVA, Parallel Visual Attention, PVA)と拡散モデルとの併用による塗装結果の改善を提案する。
我々はCelebAHQ-IDIで注目モジュールとIDエンコーダをトレーニングする。
実験により, PVAは顔の塗り絵と顔の塗り絵の両面において, 言語指導タスクと相容れない同一性を持つことが示された。
論文 参考訳(メタデータ) (2023-12-06T15:39:03Z) - Stare at What You See: Masked Image Modeling without Reconstruction [154.74533119863864]
Masked Autoencoders (MAE) は、大規模な視覚表現事前学習のパラダイムとして広く普及している。
近年の手法では, 画像特徴を再構成対象として抽出するために, セマンティック・リッチな教師モデルが適用されており, 性能が向上している。
強力な教師モデルによって抽出された特徴は、画像中の領域間のリッチなセマンティックな相関を既にエンコードしていると論じる。
論文 参考訳(メタデータ) (2022-11-16T12:48:52Z) - Semantics-Guided Object Removal for Facial Images: with Broad
Applicability and Robust Style Preservation [29.162655333387452]
顔画像における物体の除去と画像の塗布は、顔画像を妨げる物体を特に標的にし、除去し、適切に再構成された顔画像に置き換えるタスクである。
U-netと変調ジェネレータを利用する2つの異なるアプローチは、それぞれに固有の利点があるが、それぞれの手法の固有の欠点にもかかわらず、このタスクに対して広く支持されている。
本稿では,SGIN(Semantics-Guided Inpainting Network)を提案する。
論文 参考訳(メタデータ) (2022-09-29T00:09:12Z) - MAT: Mask-Aware Transformer for Large Hole Image Inpainting [79.67039090195527]
本稿では, 変圧器と畳み込みの利点を統一する, 大穴塗装の新しいモデルを提案する。
実験では、複数のベンチマークデータセット上で、新しいモデルの最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-29T06:36:17Z) - GMFIM: A Generative Mask-guided Facial Image Manipulation Model for
Privacy Preservation [0.7734726150561088]
入力顔画像に知覚不可能な編集を適用するために,GANをベースとしたマスク誘導顔画像マニピュレーションモデルを提案する。
我々のモデルは、最先端の手法と比較して、自動顔認識システムに対してより良い性能を実現することができる。
論文 参考訳(メタデータ) (2022-01-10T14:09:14Z) - Learning to Aggregate and Personalize 3D Face from In-the-Wild Photo
Collection [65.92058628082322]
非パラメトリックフェースモデリングは形状仮定なしで画像からのみ3次元フェースを再構成することを目的としている。
本稿では,教師なしのロバストな3次元顔モデリングのための学習・アグリゲート・パーソナライズ・フレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-15T03:10:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。