論文の概要: SARGAN: Spatial Attention-based Residuals for Facial Expression
Manipulation
- arxiv url: http://arxiv.org/abs/2303.17212v1
- Date: Thu, 30 Mar 2023 08:15:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-31 14:07:56.196799
- Title: SARGAN: Spatial Attention-based Residuals for Facial Expression
Manipulation
- Title(参考訳): SARGAN:表情操作のための空間的注意に基づく残像
- Authors: Arbish Akram and Nazar Khan
- Abstract要約: 本稿では,3つの視点から制限に対処するSARGANという新しい手法を提案する。
我々は対称エンコーダ・デコーダネットワークを利用して顔の特徴に複数スケールで対応した。
提案手法は最先端手法よりも優れた性能を示す。
- 参考スコア(独自算出の注目度): 1.7056768055368383
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Encoder-decoder based architecture has been widely used in the generator of
generative adversarial networks for facial manipulation. However, we observe
that the current architecture fails to recover the input image color, rich
facial details such as skin color or texture and introduces artifacts as well.
In this paper, we present a novel method named SARGAN that addresses the
above-mentioned limitations from three perspectives. First, we employed spatial
attention-based residual block instead of vanilla residual blocks to properly
capture the expression-related features to be changed while keeping the other
features unchanged. Second, we exploited a symmetric encoder-decoder network to
attend facial features at multiple scales. Third, we proposed to train the
complete network with a residual connection which relieves the generator of
pressure to generate the input face image thereby producing the desired
expression by directly feeding the input image towards the end of the
generator. Both qualitative and quantitative experimental results show that our
proposed model performs significantly better than state-of-the-art methods. In
addition, existing models require much larger datasets for training but their
performance degrades on out-of-distribution images. In contrast, SARGAN can be
trained on smaller facial expressions datasets, which generalizes well on
out-of-distribution images including human photographs, portraits, avatars and
statues.
- Abstract(参考訳): エンコーダデコーダベースのアーキテクチャは、顔操作のための生成的逆ネットワークの生成に広く使われている。
しかし,現在のアーキテクチャでは,入力画像の色,肌の色やテクスチャといった顔の細部を復元できず,アーティファクトも導入されている。
本稿では,3つの視点から,上記の制約に対処するSARGANという新しい手法を提案する。
まず,空間的注意に基づく残差ブロックをバニラ残差ブロックの代わりに使用し,他の特徴を変更せずに変更すべき表現関連特徴を適切に捉えた。
次に,対称エンコーダデコーダネットワークを用いて顔の特徴を複数スケールで確認した。
第3に,入力面画像を生成するために圧力発生器を解放し,入力画像を直接生成器の端に向けて供給することで,所望の表現を生成する残差接続による完全ネットワークのトレーニングを提案する。
定性的および定量的な実験結果から,提案手法は最先端手法よりも優れた性能を示した。
さらに、既存のモデルはトレーニングのためにはるかに大きなデータセットを必要とするが、そのパフォーマンスは分散イメージで劣化する。
対照的に、SARGANは、人間の写真、肖像画、アバター、彫像などの配布外画像に対して、より小さな表情データセットでトレーニングすることができる。
関連論文リスト
- OSDFace: One-Step Diffusion Model for Face Restoration [72.5045389847792]
拡散モデルは、顔の修復において顕著な性能を示した。
顔復元のための新しいワンステップ拡散モデルOSDFaceを提案する。
その結果,OSDFaceは現状のSOTA(State-of-the-art)手法を視覚的品質と定量的指標の両方で上回っていることがわかった。
論文 参考訳(メタデータ) (2024-11-26T07:07:48Z) - G2Face: High-Fidelity Reversible Face Anonymization via Generative and Geometric Priors [71.69161292330504]
可逆顔匿名化(Reversible face anonymization)は、顔画像の繊細なアイデンティティ情報を、合成された代替品に置き換えようとしている。
本稿では,Gtextsuperscript2Faceを提案する。
提案手法は,高データの有効性を保ちながら,顔の匿名化と回復において既存の最先端技術よりも優れる。
論文 参考訳(メタデータ) (2024-08-18T12:36:47Z) - 3D Facial Expressions through Analysis-by-Neural-Synthesis [30.2749903946587]
SMIRK(Spatial Modeling for Image-based Reconstruction of Kinesics)は、画像から表現力のある3次元顔を忠実に再構築する。
既存の手法では,自己指導型トレーニングの定式化における欠点と,訓練画像における表現の多様性の欠如の2つの重要な限界を識別する。
我々の質的,定量的,特に知覚的評価は、SMIRKが正確な表現再構成における新しい最先端技術を実現することを証明している。
論文 参考訳(メタデータ) (2024-04-05T14:00:07Z) - CLR-Face: Conditional Latent Refinement for Blind Face Restoration Using
Score-Based Diffusion Models [57.9771859175664]
最近の生成優先法は、有望なブラインドフェイス修復性能を示している。
入力に忠実なきめ細かい顔の詳細を生成することは、依然として難しい問題である。
本稿では,VQGANアーキテクチャの内部に拡散型プライマーを導入し,非破壊な潜伏埋め込みにおける分布の学習に重点を置いている。
論文 参考訳(メタデータ) (2024-02-08T23:51:49Z) - FaceTuneGAN: Face Autoencoder for Convolutional Expression Transfer
Using Neural Generative Adversarial Networks [0.7043489166804575]
顔の識別と表情を分離して符号化する新しい3次元顔モデル表現であるFaceTuneGANを提案する。
本稿では,2次元領域で使用されている画像と画像の変換ネットワークを3次元顔形状に適応させる手法を提案する。
論文 参考訳(メタデータ) (2021-12-01T14:42:03Z) - Inverting Generative Adversarial Renderer for Face Reconstruction [58.45125455811038]
本稿では,GAR(Generative Adversa Renderer)について紹介する。
GARは、グラフィックルールに頼るのではなく、複雑な現実世界のイメージをモデル化することを学ぶ。
本手法は,複数顔再構成における最先端性能を実現する。
論文 参考訳(メタデータ) (2021-05-06T04:16:06Z) - High Resolution Face Editing with Masked GAN Latent Code Optimization [0.0]
顔の編集はコンピュータビジョンコミュニティで人気のある研究トピックである。
最近の提案手法は、条件付きエンコーダデコーダであるGAN(Generative Adversarial Network)をエンドツーエンドでトレーニングするか、事前に訓練されたバニラGANジェネレータモデルの潜時空間での動作を定義するかのいずれかである。
空間的および意味的制約を伴ったGAN組み込み最適化手順を提案する。
論文 参考訳(メタデータ) (2021-03-20T08:39:41Z) - OSTeC: One-Shot Texture Completion [86.23018402732748]
ワンショット3D顔テクスチャ補完のための教師なしアプローチを提案する。
提案手法では,2次元フェースジェネレータで回転画像を再構成することにより,入力画像を3次元で回転させ,見えない領域を埋め込む。
完成したテクスチャーをジェネレーターに投影することで、ターゲットイメージを先取りします。
論文 参考訳(メタデータ) (2020-12-30T23:53:26Z) - Pose-Guided High-Resolution Appearance Transfer via Progressive Training [65.92031716146865]
前例のない画像解像度で、所定の参照外観をターゲットポーズに転送するためのポーズ誘導型外観伝達ネットワークを提案する。
我々のネットワークは、局所的な知覚喪失や局所的な識別など、密集した局所記述子を用いて詳細を精査する。
我々のモデルは高品質な画像を生成し、人間の衣服の移動などの有用な応用にさらに活用することができる。
論文 参考訳(メタデータ) (2020-08-27T03:18:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。