論文の概要: eMotion-GAN: A Motion-based GAN for Photorealistic and Facial Expression Preserving Frontal View Synthesis
- arxiv url: http://arxiv.org/abs/2404.09940v1
- Date: Mon, 15 Apr 2024 17:08:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-17 21:27:57.960771
- Title: eMotion-GAN: A Motion-based GAN for Photorealistic and Facial Expression Preserving Frontal View Synthesis
- Title(参考訳): eMotion-GAN:フロントビューの合成を保存したフォトリアリスティックおよび顔表現のためのモーションベースGAN
- Authors: Omar Ikne, Benjamin Allaert, Ioan Marius Bilasco, Hazem Wannous,
- Abstract要約: 正面視合成のための新しい深層学習手法であるeMotion-GANを提案する。
頭部変動による動きをノイズとして,表情による動きを関連情報として考慮し,ノイズを除去する訓練を行った。
そして、フィルタされた動きを中性前頭面にマッピングして、対応する表現性前頭面を生成する。
- 参考スコア(独自算出の注目度): 3.2498796510544636
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many existing facial expression recognition (FER) systems encounter substantial performance degradation when faced with variations in head pose. Numerous frontalization methods have been proposed to enhance these systems' performance under such conditions. However, they often introduce undesirable deformations, rendering them less suitable for precise facial expression analysis. In this paper, we present eMotion-GAN, a novel deep learning approach designed for frontal view synthesis while preserving facial expressions within the motion domain. Considering the motion induced by head variation as noise and the motion induced by facial expression as the relevant information, our model is trained to filter out the noisy motion in order to retain only the motion related to facial expression. The filtered motion is then mapped onto a neutral frontal face to generate the corresponding expressive frontal face. We conducted extensive evaluations using several widely recognized dynamic FER datasets, which encompass sequences exhibiting various degrees of head pose variations in both intensity and orientation. Our results demonstrate the effectiveness of our approach in significantly reducing the FER performance gap between frontal and non-frontal faces. Specifically, we achieved a FER improvement of up to +5\% for small pose variations and up to +20\% improvement for larger pose variations. Code available at \url{https://github.com/o-ikne/eMotion-GAN.git}.
- Abstract(参考訳): 多くの既存の顔表情認識(FER)システムは、頭部ポーズの変化に直面すると、かなり性能が低下する。
このような条件下で、これらのシステムの性能を高めるために、多くのフロンダリゼーション手法が提案されている。
しかし、それらはしばしば望ましくない変形を導入し、正確な表情解析には適さない。
本稿では,動き領域内の表情を保存しながら,正面視合成のための新しい深層学習手法であるeMotion-GANを提案する。
頭の変化による動きをノイズとして、表情によって誘発される動きを関連情報として考慮し、このモデルを用いて、表情に関連する動きのみを保持するために雑音運動を除去する訓練を行った。
そして、フィルタされた動きを中性前頭面にマッピングして、対応する表現性前頭面を生成する。
本研究は,複数の動的FERデータセットを用いて広範囲な評価を行った。
本研究は,正面面と非正面面のFER性能ギャップを著しく低減する手法の有効性を示すものである。
具体的には,小ポーズ変量では最大+5\%,大ポーズ変量では最大+20\%の改善が達成された。
コードは \url{https://github.com/o-ikne/eMotion-GAN.git} で公開されている。
関連論文リスト
- GaussianHeads: End-to-End Learning of Drivable Gaussian Head Avatars from Coarse-to-fine Representations [54.94362657501809]
マルチビュー画像から高ダイナミックで変形可能な人間の頭部アバターをリアルタイムで生成する手法を提案する。
本手法のコアとなるのは,顔表情と頭部運動の複雑なダイナミクスを捉えることができる頭部モデルの階層的表現である。
我々は、この粗い顔アバターモデルを、エンドツーエンドのフレームワークで学習可能なパラメータとして頭部ポーズとともに訓練する。
論文 参考訳(メタデータ) (2024-09-18T13:05:43Z) - Realistic and Efficient Face Swapping: A Unified Approach with Diffusion Models [69.50286698375386]
フェース・スワッピングのための拡散モデルを改善する新しい手法を提案する。
インペイントトレーニング中にマスクシャッフル技術を導入し、スワップのためのいわゆるユニバーサルモデルを作成することができる。
私たちのアプローチは比較的統一されたアプローチなので、他のオフザシェルフモデルのエラーに対して耐性があります。
論文 参考訳(メタデータ) (2024-09-11T13:43:53Z) - TalkingGaussian: Structure-Persistent 3D Talking Head Synthesis via Gaussian Splatting [21.474938045227702]
本研究では,高忠実度音声ヘッド合成のための変形型放射場フレームワークであるTalkingGaussianを紹介する。
提案手法は, 従来の方法と比較して, 顔の忠実度と効率性を向上し, 高品質な唇同期音声ヘッドビデオを生成する。
論文 参考訳(メタデータ) (2024-04-23T17:55:07Z) - From Static to Dynamic: Adapting Landmark-Aware Image Models for Facial Expression Recognition in Videos [88.08209394979178]
野生における動的表情認識(DFER)は、データ制限によって依然として妨げられている。
抽出された顔のランドマーク認識機能に暗黙的に符号化された既存のSFER知識と動的情報を活用する新しい静的・動的モデル(S2D)を提案する。
論文 参考訳(メタデータ) (2023-12-09T03:16:09Z) - GaFET: Learning Geometry-aware Facial Expression Translation from
In-The-Wild Images [55.431697263581626]
本稿では,パラメトリックな3次元顔表現をベースとした新しい顔表情翻訳フレームワークを提案する。
我々は、最先端の手法と比較して、高品質で正確な表情伝達結果を実現し、様々なポーズや複雑なテクスチャの適用性を実証する。
論文 参考訳(メタデータ) (2023-08-07T09:03:35Z) - One-Shot High-Fidelity Talking-Head Synthesis with Deformable Neural
Radiance Field [81.07651217942679]
トーキングヘッド生成は、ソース画像の識別情報を保持し、駆動画像の動作を模倣する顔を生成することを目的としている。
我々は高忠実かつ自由視点の対話ヘッド合成を実現するHiDe-NeRFを提案する。
論文 参考訳(メタデータ) (2023-04-11T09:47:35Z) - Expression-preserving face frontalization improves visually assisted
speech processing [35.647888055229956]
本論文の主な貢献は,非剛性顔の変形を保存したフロンダル化手法である。
深層学習パイプラインに組み込むと、音声認識と音声の不信度スコアがかなりの差で向上することを示す。
論文 参考訳(メタデータ) (2022-04-06T13:22:24Z) - PoseFace: Pose-Invariant Features and Pose-Adaptive Loss for Face
Recognition [42.62320574369969]
本稿では,顔のランドマークを利用してポーズ不変の特徴を解消し,不均衡問題に適応的に対処するためにポーズ適応的損失を利用する,効率的なPoseFaceフレームワークを提案する。
論文 参考訳(メタデータ) (2021-07-25T03:50:47Z) - A NIR-to-VIS face recognition via part adaptive and relation attention
module [4.822208985805956]
顔認識アプリケーションでは、夜間に近赤外線(NIR)監視カメラで撮影するなど、様々な状況下で撮影された顔画像を処理する必要がある。
NIRと可視光(VIS)の照度の違いは、顔画像の領域差を引き起こし、ポーズや感情の変化も顔のマッチングを難しくする。
本稿では,セマンティックマスクを用いて得られた顔の部位を抽出し,それぞれの特徴を用いた関係モデリングを行う部分関係アテンションモジュールを提案する。
論文 参考訳(メタデータ) (2021-02-01T08:13:39Z) - InterFaceGAN: Interpreting the Disentangled Face Representation Learned
by GANs [73.27299786083424]
我々は、最先端のGANモデルによって学習された不整合顔表現を解釈するInterFaceGANというフレームワークを提案する。
まず、GANは潜在空間の線型部分空間で様々な意味学を学ぶ。
次に、異なる意味論間の相関関係について詳細な研究を行い、部分空間射影を通してそれらをよりよく解離させる。
論文 参考訳(メタデータ) (2020-05-18T18:01:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。