論文の概要: WEM-GAN: Wavelet transform based facial expression manipulation
- arxiv url: http://arxiv.org/abs/2412.02530v1
- Date: Tue, 03 Dec 2024 16:23:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:47:59.483599
- Title: WEM-GAN: Wavelet transform based facial expression manipulation
- Title(参考訳): WEM-GAN:ウェーブレット変換に基づく表情操作
- Authors: Dongya Sun, Yunfei Hu, Xianzhe Zhang, Yingsong Hu,
- Abstract要約: We propose WEM-GAN, in short for wavelet-based expression operation GAN。
我々はウェーブレット変換技術を利用して、生成器とU-netオートエンコーダのバックボーンを結合する。
我々のモデルは、AffectNetデータセット上でのアイデンティティ機能、編集機能、画像生成品質の保存に優れています。
- 参考スコア(独自算出の注目度): 2.0918868193463207
- License:
- Abstract: Facial expression manipulation aims to change human facial expressions without affecting face recognition. In order to transform the facial expressions to target expressions, previous methods relied on expression labels to guide the manipulation process. However, these methods failed to preserve the details of facial features, which causes the weakening or the loss of identity information in the output image. In our work, we propose WEM-GAN, in short for wavelet-based expression manipulation GAN, which puts more efforts on preserving the details of the original image in the editing process. Firstly, we take advantage of the wavelet transform technique and combine it with our generator with a U-net autoencoder backbone, in order to improve the generator's ability to preserve more details of facial features. Secondly, we also implement the high-frequency component discriminator, and use high-frequency domain adversarial loss to further constrain the optimization of our model, providing the generated face image with more abundant details. Additionally, in order to narrow the gap between generated facial expressions and target expressions, we use residual connections between encoder and decoder, while also using relative action units (AUs) several times. Extensive qualitative and quantitative experiments have demonstrated that our model performs better in preserving identity features, editing capability, and image generation quality on the AffectNet dataset. It also shows superior performance in metrics such as Average Content Distance (ACD) and Expression Distance (ED).
- Abstract(参考訳): 表情操作は、顔認識に影響を与えることなく、人間の表情を変えることを目的としている。
表情をターゲット表現に変換するために、従来の手法は操作プロセスのガイドとして表現ラベルに頼っていた。
しかし、これらの手法は顔の特徴の詳細を保存できず、出力画像における識別情報の弱体化や喪失を引き起こした。
本稿では,WEM-GAN をウェーブレットに基づく表現操作 GAN の略として提案する。
まず、このウェーブレット変換技術を利用して、生成元とU-netオートエンコーダのバックボーンを組み合わせ、顔の特徴をより詳細に保存する能力を向上させる。
第二に、我々は高周波成分判別器を実装し、高周波数領域の逆数損失を用いてモデルの最適化をさらに制限し、より豊富な詳細を生成した顔画像を提供する。
さらに、生成した表情とターゲット表現のギャップを狭めるために、エンコーダとデコーダの残差接続を複数回使用し、相対的なアクションユニット(AU)を複数回使用した。
大規模定性的および定量的実験により,AffectNetデータセット上での識別機能,編集機能,画像生成品質の保存性能が向上することが実証された。
また、ACD(Average Content Distance)やED(Expression Distance)といったメトリクスでも優れたパフォーマンスを示している。
関連論文リスト
- OSDFace: One-Step Diffusion Model for Face Restoration [72.5045389847792]
拡散モデルは、顔の修復において顕著な性能を示した。
顔復元のための新しいワンステップ拡散モデルOSDFaceを提案する。
その結果,OSDFaceは現状のSOTA(State-of-the-art)手法を視覚的品質と定量的指標の両方で上回っていることがわかった。
論文 参考訳(メタデータ) (2024-11-26T07:07:48Z) - G2Face: High-Fidelity Reversible Face Anonymization via Generative and Geometric Priors [71.69161292330504]
可逆顔匿名化(Reversible face anonymization)は、顔画像の繊細なアイデンティティ情報を、合成された代替品に置き換えようとしている。
本稿では,Gtextsuperscript2Faceを提案する。
提案手法は,高データの有効性を保ちながら,顔の匿名化と回復において既存の最先端技術よりも優れる。
論文 参考訳(メタデータ) (2024-08-18T12:36:47Z) - GaFET: Learning Geometry-aware Facial Expression Translation from
In-The-Wild Images [55.431697263581626]
本稿では,パラメトリックな3次元顔表現をベースとした新しい顔表情翻訳フレームワークを提案する。
我々は、最先端の手法と比較して、高品質で正確な表情伝達結果を実現し、様々なポーズや複雑なテクスチャの適用性を実証する。
論文 参考訳(メタデータ) (2023-08-07T09:03:35Z) - SARGAN: Spatial Attention-based Residuals for Facial Expression
Manipulation [1.7056768055368383]
本稿では,3つの視点から制限に対処するSARGANという新しい手法を提案する。
我々は対称エンコーダ・デコーダネットワークを利用して顔の特徴に複数スケールで対応した。
提案手法は最先端手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-03-30T08:15:18Z) - More comprehensive facial inversion for more effective expression
recognition [8.102564078640274]
IFER(Inversion FER)と呼ばれるFERタスクの画像反転機構に基づく新しい生成手法を提案する。
ASITは、分布アライメント損失に制約された、ソースと生成された画像間のセマンティック特徴のコサイン類似度を測定する画像反転判別器を備えている。
FFHQやCelebA-HQなどの顔データセット上でASITを広範囲に評価し,現状の顔インバージョン性能を実現する方法を示した。
論文 参考訳(メタデータ) (2022-11-24T12:31:46Z) - Learning Disentangled Representation for One-shot Progressive Face Swapping [92.09538942684539]
ジェネレーティブ・アドバーサリアル・ネットワークに基づくワンショット・フェイススワップのためのシンプルで効率的なFaceSwapperを提案する。
提案手法は,不整合表現モジュールと意味誘導融合モジュールから構成される。
本手法は,トレーニングサンプルの少ないベンチマークデータセットに対して,最先端の結果を得る。
論文 参考訳(メタデータ) (2022-03-24T11:19:04Z) - Unsupervised Learning Facial Parameter Regressor for Action Unit
Intensity Estimation via Differentiable Renderer [51.926868759681014]
骨駆動型顔モデル(BDFM)に基づいて,異なる視点で顔パラメータを予測する枠組みを提案する。
提案するフレームワークは,特徴抽出器,ジェネレータ,顔パラメータ回帰器から構成される。
論文 参考訳(メタデータ) (2020-08-20T09:49:13Z) - An Efficient Integration of Disentangled Attended Expression and
Identity FeaturesFor Facial Expression Transfer andSynthesis [6.383596973102899]
本稿では,AIP-GAN(Attention-based Identity Preserving Generative Adversarial Network)を提案する。
私たちのキーとなる洞察は、アイデンティティ保存ネットワークは、効率的な表情の転送と合成のために、形状、外観、表現情報を分離して構成できるべきであるということです。
論文 参考訳(メタデータ) (2020-05-01T17:14:53Z) - Fine-grained Image-to-Image Transformation towards Visual Recognition [102.51124181873101]
我々は,入力画像の同一性を保った画像を生成するために,微細なカテゴリで画像を変換することを目的としている。
我々は、画像のアイデンティティと非関連要因をアンハングルするために、生成的敵ネットワークに基づくモデルを採用する。
CompCarsとMulti-PIEデータセットの実験では、我々のモデルが生成した画像のアイデンティティを、最先端の画像-画像変換モデルよりもはるかによく保存していることが示された。
論文 参考訳(メタデータ) (2020-01-12T05:26:47Z) - Deep Feature Consistent Variational Autoencoder [46.25741696270528]
本稿では,変分オートエンコーダ(VAE)構築のための新しい手法を提案する。
ピクセル・バイ・ピクセル・ロスを使用する代わりに、入力とVAEの出力の深い特徴一貫性を強制する。
また,本手法は,顔表現の意味情報をキャプチャする潜在ベクトルを生成できることを示す。
論文 参考訳(メタデータ) (2016-10-02T15:48:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。