論文の概要: Depth-Aware Generative Adversarial Network for Talking Head Video
Generation
- arxiv url: http://arxiv.org/abs/2203.06605v1
- Date: Sun, 13 Mar 2022 09:32:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-15 16:07:12.429554
- Title: Depth-Aware Generative Adversarial Network for Talking Head Video
Generation
- Title(参考訳): ヘッドビデオ生成のための奥行き認識型生成アドバイザラルネットワーク
- Authors: Fa-Ting Hong, Longhao Zhang, Li Shen, and Dan Xu
- Abstract要約: トーキングヘッドビデオ生成は、所定のソース画像と駆動ビデオからそれぞれ識別情報とポーズ情報を含む合成人間の顔ビデオを作成することを目的としている。
このタスクの既存の作業は、入力画像から学んだ2次元表現(外観や動きなど)に大きく依存している。
本稿では,顔画像から高密度な3次元形状(深度)を自動的に復元する自己教師付き幾何学学習手法を提案する。
- 参考スコア(独自算出の注目度): 15.43672834991479
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Talking head video generation aims to produce a synthetic human face video
that contains the identity and pose information respectively from a given
source image and a driving video.Existing works for this task heavily rely on
2D representations (e.g. appearance and motion) learned from the input images.
However, dense 3D facial geometry (e.g. pixel-wise depth) is extremely
important for this task as it is particularly beneficial for us to essentially
generate accurate 3D face structures and distinguish noisy information from the
possibly cluttered background. Nevertheless, dense 3D geometry annotations are
prohibitively costly for videos and are typically not available for this video
generation task. In this paper, we first introduce a self-supervised geometry
learning method to automatically recover the dense 3D geometry (i.e.depth) from
the face videos without the requirement of any expensive 3D annotation data.
Based on the learned dense depth maps, we further propose to leverage them to
estimate sparse facial keypoints that capture the critical movement of the
human head. In a more dense way, the depth is also utilized to learn 3D-aware
cross-modal (i.e. appearance and depth) attention to guide the generation of
motion fields for warping source image representations. All these contributions
compose a novel depth-aware generative adversarial network (DaGAN) for talking
head generation. Extensive experiments conducted demonstrate that our proposed
method can generate highly realistic faces, and achieve significant results on
the unseen human faces.
- Abstract(参考訳): トーキングヘッドビデオ生成は、入力画像から学習した2次元表現(外観や動きなど)に重きを置き、与えられた音源画像と駆動映像から識別情報とポーズ情報とをそれぞれ含む合成ヒューマンフェイスビデオを作成することを目的としている。
しかし,高密度な3次元顔形状(例えば画素幅の深さ)は,特に正確な3次元顔構造を生成し,ノイズのある情報を散らばった背景と区別することが有用であるため,この作業にとって極めて重要である。
それでも、密集した3dジオメトリのアノテーションはビデオには高価であり、通常このビデオ生成タスクには使用できない。
本稿では,まず,高価な3dアノテーションデータを必要とせずに,顔映像から密集した3次元形状(すなわち奥行き)を自動的に復元する自己教師付き幾何学習手法を提案する。
さらに,学習した深度マップに基づいて,人間の頭部の臨界運動を捉えた粗い顔のキーポイントを推定する手法を提案する。
より密集した方法では、深度を利用して3D対応のクロスモーダル(外観と深さ)の注意を学習し、ソース画像表現を歪ませるための運動場の生成を導く。
これらすべての貢献は、トーキングヘッド生成のための新しい深さ認識生成逆ネットワーク(dagan)を構成する。
大規模な実験により,提案手法は極めて現実的な顔を生成し,目に見えない人間の顔に対して有意な結果が得られた。
関連論文リスト
- FaceGPT: Self-supervised Learning to Chat about 3D Human Faces [69.4651241319356]
我々は、画像やテキストから3次元の人間の顔を推論するために、VLM(Large Vision-Language Models)のための自己教師型学習フレームワークFaceGPTを紹介した。
FaceGPTは、VLMのトークン空間に3Dフォーマブルフェイスモデルのパラメータ(3DMM)を埋め込むことで、この制限を克服する。
我々は,FaceGPTが高品質な3次元顔再構成を実現し,汎用的な視覚指導の能力を維持していることを示す。
論文 参考訳(メタデータ) (2024-06-11T11:13:29Z) - ID-to-3D: Expressive ID-guided 3D Heads via Score Distillation Sampling [96.87575334960258]
ID-to-3D(ID-to-3D)は、不整合表現を用いたIDとテキスト誘導型3次元頭部を生成する方法である。
前例のないアイデンティティ一貫性と高品質なテクスチャと幾何生成を実現する。
論文 参考訳(メタデータ) (2024-05-26T13:36:45Z) - DaGAN++: Depth-Aware Generative Adversarial Network for Talking Head
Video Generation [18.511092587156657]
顔画像から高密度な3次元顔形状を学習するための新しい自己教師手法を提案する。
また,画素レベルの不確実性を学習し,幾何学習のためのより信頼性の高い剛体移動画素を知覚する戦略を提案する。
我々は,3D対応のクロスモーダル(e,外見,深度)アテンション機構を開発し,粗い方法で顔のジオメトリーを捉える。
論文 参考訳(メタデータ) (2023-05-10T14:58:33Z) - Graphics Capsule: Learning Hierarchical 3D Face Representations from 2D
Images [82.5266467869448]
Inverse Graphics Capsule Network (IGC-Net) を提案する。
IGC-Netはまずオブジェクトをセマンティック一貫性のある部分レベルの記述の集合に分解し、それらをオブジェクトレベルの記述に組み立てて階層を構築する。
論文 参考訳(メタデータ) (2023-03-20T06:32:55Z) - Copy Motion From One to Another: Fake Motion Video Generation [53.676020148034034]
人工知能の魅力的な応用は、任意の所望の動作を行う対象者のビデオを生成することである。
現在の手法では、通常、生成されたビデオの信頼性を評価するために、L2損失のGANを用いる。
本稿では,ポーズから前景画像へのマッピングの学習を容易にする理論的動機付け型Gromov-Wasserstein損失を提案する。
本手法は,人物の複雑な動きを忠実にコピーすることで,現実的な人物映像を生成できる。
論文 参考訳(メタデータ) (2022-05-03T08:45:22Z) - Image-to-Video Generation via 3D Facial Dynamics [78.01476554323179]
静止画像から様々な映像を生成するために多目的モデルであるFaceAnimeを提案する。
私たちのモデルは、顔ビデオや顔ビデオの予測など、さまざまなAR/VRやエンターテイメントアプリケーションに汎用的です。
論文 参考訳(メタデータ) (2021-05-31T02:30:11Z) - Multi-channel Deep 3D Face Recognition [4.726009758066045]
2次元顔認証の精度は、ポーズ、照明、メイクアップ、表情の変化によって依然として疑問視されている。
本稿では,3次元顔データに基づく顔認識のためのマルチチャネルディープ3次元顔ネットワークを提案する。
マルチチャネル深部3次元顔ネットワークの顔認識精度は98.6。
論文 参考訳(メタデータ) (2020-09-30T15:29:05Z) - 3D Facial Geometry Recovery from a Depth View with Attention Guided
Generative Adversarial Network [27.773904952734547]
Atention Guided Generative Adversarial Networks (AGGAN) の提案により, 単一深度から完全な3次元顔形状を復元する。
具体的には、AGGANは、ボクセル空間内の3次元顔形状を符号化し、注意誘導型GANを用いて2.5次元深度3Dマッピングをモデル化する。
定性的かつ定量的な比較は、AGGANが従来の方法よりも広い視野角を処理し、ノイズに抵抗する能力を持ち、より完全で滑らかな3D顔形状を復元することを示している。
論文 参考訳(メタデータ) (2020-09-02T10:35:26Z) - DeepFaceFlow: In-the-wild Dense 3D Facial Motion Estimation [56.56575063461169]
DeepFaceFlowは、3D非剛体顔の流れを推定するための堅牢で高速で高精度なフレームワークである。
私たちのフレームワークは、2つの非常に大規模な顔ビデオデータセットでトレーニングされ、テストされました。
登録された画像に対して,60fpsで3次元フローマップを生成する。
論文 参考訳(メタデータ) (2020-05-14T23:56:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。