論文の概要: FSRT: Facial Scene Representation Transformer for Face Reenactment from Factorized Appearance, Head-pose, and Facial Expression Features
- arxiv url: http://arxiv.org/abs/2404.09736v2
- Date: Mon, 10 Jun 2024 09:06:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-12 00:24:28.965541
- Title: FSRT: Facial Scene Representation Transformer for Face Reenactment from Factorized Appearance, Head-pose, and Facial Expression Features
- Title(参考訳): FSRT:顔再現のための顔表情変換器
- Authors: Andre Rochow, Max Schwarz, Sven Behnke,
- Abstract要約: 顔再現の課題は、頭部の動きと表情を駆動ビデオからソース画像の外観に転送することである。
既存の手法の多くはCNNベースであり、ソース画像から現在の駆動フレームへの光の流れを推定する。
本稿では,ソースコードのセットラテント表現を演算するためのトランスフォーマーベースのエンコーダを提案する。
- 参考スコア(独自算出の注目度): 17.531847357428454
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The task of face reenactment is to transfer the head motion and facial expressions from a driving video to the appearance of a source image, which may be of a different person (cross-reenactment). Most existing methods are CNN-based and estimate optical flow from the source image to the current driving frame, which is then inpainted and refined to produce the output animation. We propose a transformer-based encoder for computing a set-latent representation of the source image(s). We then predict the output color of a query pixel using a transformer-based decoder, which is conditioned with keypoints and a facial expression vector extracted from the driving frame. Latent representations of the source person are learned in a self-supervised manner that factorize their appearance, head pose, and facial expressions. Thus, they are perfectly suited for cross-reenactment. In contrast to most related work, our method naturally extends to multiple source images and can thus adapt to person-specific facial dynamics. We also propose data augmentation and regularization schemes that are necessary to prevent overfitting and support generalizability of the learned representations. We evaluated our approach in a randomized user study. The results indicate superior performance compared to the state-of-the-art in terms of motion transfer quality and temporal consistency.
- Abstract(参考訳): 顔再現の課題は、頭部の動きと表情を駆動ビデオから、異なる人物(クロス再現)であるかもしれないソース画像の外観に転送することである。
既存のほとんどの手法はCNNベースで、ソース画像から現在の駆動フレームへの光の流れを推定し、出力アニメーションを生成する。
本稿では,ソース画像のセットラテント表現を演算するためのトランスフォーマーベースのエンコーダを提案する。
次に、キーポイントを条件とした変換器ベースのデコーダと、駆動フレームから抽出した表情ベクトルを用いて、問合せ画素の出力色を予測する。
ソース人物の潜在表現は、外観、頭部ポーズ、表情を分解する自己指導的な方法で学習される。
そのため、クロス再現に完全に適している。
多くの関連する研究とは対照的に、本手法は自然に複数のソース画像に拡張し、人固有の顔力学に適応することができる。
また、学習した表現の過度な適合を防止し、一般化を支援するために必要なデータ拡張および正規化スキームを提案する。
ランダム化ユーザスタディにおいて,我々のアプローチを評価した。
その結果, 運動伝達品質と時間的一貫性の両面において, 最先端技術と比較して優れた性能を示した。
関連論文リスト
- OSDFace: One-Step Diffusion Model for Face Restoration [72.5045389847792]
拡散モデルは、顔の修復において顕著な性能を示した。
顔復元のための新しいワンステップ拡散モデルOSDFaceを提案する。
その結果,OSDFaceは現状のSOTA(State-of-the-art)手法を視覚的品質と定量的指標の両方で上回っていることがわかった。
論文 参考訳(メタデータ) (2024-11-26T07:07:48Z) - GaussianHeads: End-to-End Learning of Drivable Gaussian Head Avatars from Coarse-to-fine Representations [54.94362657501809]
マルチビュー画像から高ダイナミックで変形可能な人間の頭部アバターをリアルタイムで生成する手法を提案する。
本手法のコアとなるのは,顔表情と頭部運動の複雑なダイナミクスを捉えることができる頭部モデルの階層的表現である。
我々は、この粗い顔アバターモデルを、エンドツーエンドのフレームワークで学習可能なパラメータとして頭部ポーズとともに訓練する。
論文 参考訳(メタデータ) (2024-09-18T13:05:43Z) - Knowledge-Enhanced Facial Expression Recognition with Emotional-to-Neutral Transformation [66.53435569574135]
既存の表情認識法は、通常、個別のラベルを使って訓練済みのビジュアルエンコーダを微調整する。
視覚言語モデルによって生成されるテキスト埋め込みの豊富な知識は、識別的表情表現を学ぶための有望な代替手段である。
感情-中性変換を用いた知識強化FER法を提案する。
論文 参考訳(メタデータ) (2024-09-13T07:28:57Z) - Learning Online Scale Transformation for Talking Head Video Generation [14.102629579320572]
ワンショット音声ヘッドビデオ生成は、ソースイメージと駆動ビデオを使用して、ソース人の顔の動きが駆動ビデオの動作を模倣する合成ビデオを作成する。
既存の方法では、ソース画像と最適に整合するドライビングビデオ内のフレームを見つけようとするが、不正確なアライメントは、最適以下の結果をもたらす。
本稿では,原画像のスケールに合わせて駆動画像のスケールを自動的に調整できるスケール変換モジュールを提案する。
論文 参考訳(メタデータ) (2024-07-13T18:08:46Z) - Controllable Talking Face Generation by Implicit Facial Keypoints Editing [6.036277153327655]
本稿では,音声による表情の変形を制御するための音声合成手法であるControlTalkを提案する。
提案手法は,HDTFやMEADなど,広く使用されているベンチマークにおいて,最先端の性能よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-06-05T02:54:46Z) - DiffusionAct: Controllable Diffusion Autoencoder for One-shot Face Reenactment [34.821255203019554]
ビデオ駆動型ニューラルフェイスの再現は、元の顔のアイデンティティと外観をうまく保存する現実的な顔画像を合成することを目的としている。
拡散確率モデル(DPM)の最近の進歩は、高品質な現実画像の生成を可能にする。
本稿では,拡散モデルのフォトリアリスティック画像生成を利用して,ニューラルフェイスの再現を行う新しい手法であるDiffusionを提案する。
論文 参考訳(メタデータ) (2024-03-25T21:46:53Z) - Identity-Preserving Talking Face Generation with Landmark and Appearance
Priors [106.79923577700345]
既存の人物生成法は、現実的でリップ同期のビデオを生成するのに困難である。
本稿では,ランドマーク生成とランドマーク・ツー・ビデオレンダリングによる2段階のフレームワークを提案する。
提案手法は,既存の対人顔生成法よりも現実的で,リップシンクで,アイデンティティを保ったビデオを生成することができる。
論文 参考訳(メタデータ) (2023-05-15T01:31:32Z) - SARGAN: Spatial Attention-based Residuals for Facial Expression
Manipulation [1.7056768055368383]
本稿では,3つの視点から制限に対処するSARGANという新しい手法を提案する。
我々は対称エンコーダ・デコーダネットワークを利用して顔の特徴に複数スケールで対応した。
提案手法は最先端手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-03-30T08:15:18Z) - Semantic-aware One-shot Face Re-enactment with Dense Correspondence
Estimation [100.60938767993088]
ワンショットの顔の再現は、ソースと駆動する顔の同一性ミスマッチのため、難しい作業である。
本稿では,3次元形態素モデル(3DMM)を明示的な顔のセマンティックな分解とアイデンティティの絡み合いに利用することを提案する。
論文 参考訳(メタデータ) (2022-11-23T03:02:34Z) - Emotion Separation and Recognition from a Facial Expression by Generating the Poker Face with Vision Transformers [57.1091606948826]
我々はこれらの課題に対処するため,ポーカー・フェイス・ビジョン・トランスフォーマー (PF-ViT) と呼ばれる新しいFERモデルを提案する。
PF-ViTは、対応するポーカーフェースを生成して、乱れを認識できない感情を静的な顔画像から分離し、認識することを目的としている。
PF-ViTはバニラビジョントランスフォーマーを使用し、そのコンポーネントは大規模な表情データセット上でMasked Autoencodeerとして事前トレーニングされている。
論文 参考訳(メタデータ) (2022-07-22T13:39:06Z) - Mesh Guided One-shot Face Reenactment using Graph Convolutional Networks [31.083072922977568]
本稿では,再構成した3Dメッシュを用いて顔合成に必要な光の流れを学習するワンショット顔再現法を提案する。
非対称なオートエンコーダである顔の動きを学習する動きネットを提案する。
提案手法は, 質的, 定量的な比較において, 高品質な結果を生成し, 最先端の手法より優れる。
論文 参考訳(メタデータ) (2020-08-18T07:41:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。