論文の概要: Realistic Face Reenactment via Self-Supervised Disentangling of Identity
and Pose
- arxiv url: http://arxiv.org/abs/2003.12957v1
- Date: Sun, 29 Mar 2020 06:45:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-18 13:40:09.560057
- Title: Realistic Face Reenactment via Self-Supervised Disentangling of Identity
and Pose
- Title(参考訳): アイデンティティとポーズの自己管理によるリアルな顔再現
- Authors: Xianfang Zeng, Yusu Pan, Mengmeng Wang, Jiangning Zhang, Yong Liu
- Abstract要約: 本研究では,大量の未収録映像を自然に再現する自己教師型ハイブリッドモデル(DAE-GAN)を提案する。
提案手法は,2つのデフォーミングオートエンコーダと条件生成の最新の進歩を組み合わせたものである。
実験の結果,再現された画像の良好な品質と,同一性間での顔の動きの伝達の柔軟性が示された。
- 参考スコア(独自算出の注目度): 23.211318473026243
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent works have shown how realistic talking face images can be obtained
under the supervision of geometry guidance, e.g., facial landmark or boundary.
To alleviate the demand for manual annotations, in this paper, we propose a
novel self-supervised hybrid model (DAE-GAN) that learns how to reenact face
naturally given large amounts of unlabeled videos. Our approach combines two
deforming autoencoders with the latest advances in the conditional generation.
On the one hand, we adopt the deforming autoencoder to disentangle identity and
pose representations. A strong prior in talking face videos is that each frame
can be encoded as two parts: one for video-specific identity and the other for
various poses. Inspired by that, we utilize a multi-frame deforming autoencoder
to learn a pose-invariant embedded face for each video. Meanwhile, a
multi-scale deforming autoencoder is proposed to extract pose-related
information for each frame. On the other hand, the conditional generator allows
for enhancing fine details and overall reality. It leverages the disentangled
features to generate photo-realistic and pose-alike face images. We evaluate
our model on VoxCeleb1 and RaFD dataset. Experiment results demonstrate the
superior quality of reenacted images and the flexibility of transferring facial
movements between identities.
- Abstract(参考訳): 最近の研究は、例えば、顔のランドマークや境界線といった幾何学的ガイダンスの監督の下で、いかに現実的な顔画像が得られるかを示している。
本稿では,手動アノテーションの需要を軽減するために,大量の未表示映像を自然に再現する方法を学習する自己教師型ハイブリッドモデル(DAE-GAN)を提案する。
提案手法は,2つのデフォーミングオートエンコーダと条件生成の最新の進歩を組み合わせたものである。
一方,変形するオートエンコーダを用い,アイデンティティとポーズ表現を分離する。
会話の顔ビデオの強い先行は、それぞれのフレームを2つの部分、すなわちビデオ固有のアイデンティティと、さまざまなポーズにエンコードできることである。
これに触発されて,マルチフレームデフォーミングオートエンコーダを用いて,各ビデオに対するポーズ不変組込み顔の学習を行う。
また,各フレームのポーズ関連情報を抽出するために,マルチスケールデフォーミングオートエンコーダを提案する。
一方、条件付きジェネレータは、詳細と全体的な現実性を高めることができる。
歪んだ特徴を活用して、写真リアリスティックでポーズのような顔画像を生成する。
我々はVoxCeleb1とRaFDデータセットを用いてモデルを評価する。
実験の結果,再現画像のクオリティが向上し,顔の動きを同一人物間で伝達する柔軟性が示された。
関連論文リスト
- GaussianHeads: End-to-End Learning of Drivable Gaussian Head Avatars from Coarse-to-fine Representations [54.94362657501809]
マルチビュー画像から高ダイナミックで変形可能な人間の頭部アバターをリアルタイムで生成する手法を提案する。
本手法のコアとなるのは,顔表情と頭部運動の複雑なダイナミクスを捉えることができる頭部モデルの階層的表現である。
我々は、この粗い顔アバターモデルを、エンドツーエンドのフレームワークで学習可能なパラメータとして頭部ポーズとともに訓練する。
論文 参考訳(メタデータ) (2024-09-18T13:05:43Z) - VividPose: Advancing Stable Video Diffusion for Realistic Human Image Animation [79.99551055245071]
時間的安定性を向上するエンドツーエンドパイプラインであるVividPoseを提案する。
識別対応外見制御器は、他の外見の詳細を損なうことなく、追加の顔情報を統合する。
SMPL-Xからの高密度レンダリングマップとスパーススケルトンマップの両方を利用する幾何対応のポーズコントローラ。
VividPoseは、提案したWildデータセットに優れた一般化能力を示す。
論文 参考訳(メタデータ) (2024-05-28T13:18:32Z) - Arc2Face: A Foundation Model for ID-Consistent Human Faces [95.00331107591859]
Arc2Faceは、ID条件のフェイスファンデーションモデルである。
既存のモデルと無矛盾の顔類似度で、多様なフォトリアリスティック画像を生成することができる。
論文 参考訳(メタデータ) (2024-03-18T10:32:51Z) - StableIdentity: Inserting Anybody into Anywhere at First Sight [57.99693188913382]
一つの顔画像で同一性に一貫性のある再テクスチャ化を可能にするStableIdentityを提案する。
私たちは、1つの画像から学んだアイデンティティを直接、微調整なしでビデオ/3D生成に注入する最初の人です。
論文 参考訳(メタデータ) (2024-01-29T09:06:15Z) - FAAC: Facial Animation Generation with Anchor Frame and Conditional
Control for Superior Fidelity and Editability [14.896554342627551]
顔のアイデンティティと編集能力を両立させる顔アニメーション生成手法を提案する。
このアプローチは、オリジナルのテキスト・ツー・イメージモデルにおける生成能力の劣化に対処するためのアンカーフレームの概念を取り入れている。
提案手法の有効性をDreamBoothモデルとLoRAモデルで検証した。
論文 参考訳(メタデータ) (2023-12-06T02:55:35Z) - FaceChain: A Playground for Human-centric Artificial Intelligence
Generated Content [36.48960592782015]
FaceChainは、パーソナライズされたポートレート生成フレームワークで、一連のカスタマイズされた画像生成モデルと、顔に関連する知覚理解モデルの豊富なセットを組み合わせる。
我々は、複数のSOTAフェイスモデルを生成手順に注入し、従来のソリューションと比較して、より効率的なラベルタグ付け、データ処理、モデル後処理を実現する。
FaceChainをベースとして、仮想トライオンや2Dトーキングヘッドなど、その価値をよりよく示すための、より広いグラウンドを構築するためのいくつかのアプリケーションも開発しています。
論文 参考訳(メタデータ) (2023-08-28T02:20:44Z) - DAE-Talker: High Fidelity Speech-Driven Talking Face Generation with
Diffusion Autoencoder [20.814063371439904]
そこで本研究では,DAE-Talkerを用いて全映像フレームを合成し,音声の内容に合わせて自然な頭部の動きを生成する。
また、ポーズ制御性のための音声2latentのポーズモデリングも導入する。
実験の結果,DAE-Talkerはリップシンク,ビデオの忠実さ,自然さなどの既存の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-03-30T17:18:31Z) - Image-to-Video Generation via 3D Facial Dynamics [78.01476554323179]
静止画像から様々な映像を生成するために多目的モデルであるFaceAnimeを提案する。
私たちのモデルは、顔ビデオや顔ビデオの予測など、さまざまなAR/VRやエンターテイメントアプリケーションに汎用的です。
論文 参考訳(メタデータ) (2021-05-31T02:30:11Z) - Pose-Controllable Talking Face Generation by Implicitly Modularized
Audio-Visual Representation [96.66010515343106]
ポーズ制御可能な発話顔を生成するためのクリーンで効果的なフレームワークを提案する。
我々は1枚の写真のみを識別基準として生の顔画像を操作する。
私達のモデルに極度な視野の堅牢性および話す表面前部化を含む複数の高度の機能があります。
論文 参考訳(メタデータ) (2021-04-22T15:10:26Z) - VariTex: Variational Neural Face Textures [0.0]
VariTexは、ニューラルフェイステクスチャの変動潜在特徴空間を学習する手法である。
頭部の完全な画像を生成するために,毛髪などの正確な詳細情報を生成する付加デコーダを提案する。
その結果、顔のポーズ、顔の形状、表情の微粒度を制御できる新しいアイデンティティの幾何学的に一貫性のある画像を生成することができる。
論文 参考訳(メタデータ) (2021-04-13T07:47:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。