論文の概要: DaGAN++: Depth-Aware Generative Adversarial Network for Talking Head
Video Generation
- arxiv url: http://arxiv.org/abs/2305.06225v2
- Date: Sun, 10 Dec 2023 05:20:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 22:41:07.764179
- Title: DaGAN++: Depth-Aware Generative Adversarial Network for Talking Head
Video Generation
- Title(参考訳): DaGAN++: ヘッドビデオ生成のための奥行き対応ネットワーク
- Authors: Fa-Ting Hong, Li Shen, and Dan Xu
- Abstract要約: 顔画像から高密度な3次元顔形状を学習するための新しい自己教師手法を提案する。
また,画素レベルの不確実性を学習し,幾何学習のためのより信頼性の高い剛体移動画素を知覚する戦略を提案する。
我々は,3D対応のクロスモーダル(e,外見,深度)アテンション機構を開発し,粗い方法で顔のジオメトリーを捉える。
- 参考スコア(独自算出の注目度): 18.511092587156657
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Predominant techniques on talking head generation largely depend on 2D
information, including facial appearances and motions from input face images.
Nevertheless, dense 3D facial geometry, such as pixel-wise depth, plays a
critical role in constructing accurate 3D facial structures and suppressing
complex background noises for generation. However, dense 3D annotations for
facial videos is prohibitively costly to obtain. In this work, firstly, we
present a novel self-supervised method for learning dense 3D facial geometry
(ie, depth) from face videos, without requiring camera parameters and 3D
geometry annotations in training. We further propose a strategy to learn
pixel-level uncertainties to perceive more reliable rigid-motion pixels for
geometry learning. Secondly, we design an effective geometry-guided facial
keypoint estimation module, providing accurate keypoints for generating motion
fields. Lastly, we develop a 3D-aware cross-modal (ie, appearance and depth)
attention mechanism, which can be applied to each generation layer, to capture
facial geometries in a coarse-to-fine manner. Extensive experiments are
conducted on three challenging benchmarks (ie, VoxCeleb1, VoxCeleb2, and HDTF).
The results demonstrate that our proposed framework can generate highly
realistic-looking reenacted talking videos, with new state-of-the-art
performances established on these benchmarks. The codes and trained models are
publicly available on the GitHub project page at
https://github.com/harlanhong/CVPR2022-DaGAN
- Abstract(参考訳): 音声頭部生成の手法は、入力された顔画像からの表情や動きを含む2次元情報に大きく依存する。
それでも、画素の深さのような高密度な3次元顔形状は、正確な3次元顔構造の構築と、生成のための複雑な背景雑音の抑制に重要な役割を果たしている。
しかし、顔の動画に対する密集した3dアノテーションは、非常にコストがかかる。
本稿では,まず,カメラパラメータや3次元形状アノテーションを必要とせず,顔映像から密集した3次元顔形状(ie,深度)を学習する新しい自己教師あり手法を提案する。
さらに,幾何学習のためのより信頼性の高い剛体移動画素を知覚するために,画素レベルの不確実性を学習する戦略を提案する。
第2に,移動場を生成するための正確なキーポイントを提供する,効果的な幾何学誘導型顔キーポイント推定モジュールを設計する。
最後に,各生成層に適用可能な3d対応のクロスモーダル(ie,外観,奥行き)注意機構を開発し,顔の形状を粗度から細度まで把握する。
大規模な実験は3つの挑戦的なベンチマーク(VoxCeleb1、VoxCeleb2、HDTF)で実施される。
その結果,提案フレームワークは,これらのベンチマークで新たな最先端性能が確立され,高度にリアルに再現されたトーキングビデオを生成することができることがわかった。
コードとトレーニングされたモデルはgithubプロジェクトのhttps://github.com/harlanhong/cvpr2022-daganで公開されている。
関連論文リスト
- Invisible Stitch: Generating Smooth 3D Scenes with Depth Inpainting [75.7154104065613]
本稿では,3次元融合過程を学習するために,教師の蒸留と自己学習によって訓練された新しい深度補完モデルを提案する。
また,地上の真理幾何に基づくシーン生成手法のベンチマーク手法も導入した。
論文 参考訳(メタデータ) (2024-04-30T17:59:40Z) - 3D Face Tracking from 2D Video through Iterative Dense UV to Image Flow [15.479024531161476]
本稿では,頂点ごとの高密度アライメントのための2次元アライメントネットワークを革新的に導入する新しいフェイストラッカーであるFlowFaceを提案する。
以前の作業とは異なり、FlowFaceは、弱い監視や合成データではなく、高品質な3Dスキャンアノテーションでトレーニングされている。
本手法は,カスタムベンチマークと公開ベンチマークの両方において,優れた性能を示す。
論文 参考訳(メタデータ) (2024-04-15T14:20:07Z) - 4D Facial Expression Diffusion Model [3.507793603897647]
本稿では,3次元表情系列を生成するための生成フレームワークを提案する。
これは、一連の3Dランドマークシーケンスでトレーニングされた生成モデルを学ぶことと、生成されたランドマークシーケンスによって駆動される入力された顔メッシュの3Dメッシュシーケンスを生成することの2つのタスクで構成されている。
実験により,本モデルは比較的小さなデータセットからのみ,現実的で質の高い表現を生成することができ,最先端の手法よりも改善されていることがわかった。
論文 参考訳(メタデータ) (2023-03-29T11:50:21Z) - Self-Supervised Geometry-Aware Encoder for Style-Based 3D GAN Inversion [115.82306502822412]
StyleGANは、画像インバージョンと潜時編集による2次元顔再構成とセマンティック編集において大きな進歩を遂げている。
対応する汎用的な3D GANインバージョンフレームワークがまだ欠けており、3D顔再構成とセマンティック編集の応用が制限されている。
本研究では,その3次元形状と詳細なテクスチャを忠実に復元するために,単一の顔画像から潜伏コードを予測する3D GAN逆変換の課題について検討する。
論文 参考訳(メタデータ) (2022-12-14T18:49:50Z) - MvDeCor: Multi-view Dense Correspondence Learning for Fine-grained 3D
Segmentation [91.6658845016214]
そこで本研究では,2次元領域における自己教師型手法を,微細な3次元形状分割作業に活用することを提案する。
複数のビューから3次元形状を描画し、コントラスト学習フレームワーク内に密接な対応学習タスクを設置する。
その結果、学習された2次元表現はビュー不変であり、幾何学的に一貫性がある。
論文 参考訳(メタデータ) (2022-08-18T00:48:15Z) - PointMCD: Boosting Deep Point Cloud Encoders via Multi-view Cross-modal
Distillation for 3D Shape Recognition [55.38462937452363]
本稿では,教師として事前訓練されたディープイメージエンコーダ,学生としてディープポイントエンコーダを含む多視点クロスモーダル蒸留アーキテクチャを提案する。
複数ビューの視覚的および幾何学的記述子をペアワイズにアライメントすることで、より強力なディープポイントエンコーダを、疲労や複雑なネットワーク修正を伴わずに得ることができる。
論文 参考訳(メタデータ) (2022-07-07T07:23:20Z) - Copy Motion From One to Another: Fake Motion Video Generation [53.676020148034034]
人工知能の魅力的な応用は、任意の所望の動作を行う対象者のビデオを生成することである。
現在の手法では、通常、生成されたビデオの信頼性を評価するために、L2損失のGANを用いる。
本稿では,ポーズから前景画像へのマッピングの学習を容易にする理論的動機付け型Gromov-Wasserstein損失を提案する。
本手法は,人物の複雑な動きを忠実にコピーすることで,現実的な人物映像を生成できる。
論文 参考訳(メタデータ) (2022-05-03T08:45:22Z) - Depth-Aware Generative Adversarial Network for Talking Head Video
Generation [15.43672834991479]
トーキングヘッドビデオ生成は、所定のソース画像と駆動ビデオからそれぞれ識別情報とポーズ情報を含む合成人間の顔ビデオを作成することを目的としている。
このタスクの既存の作業は、入力画像から学んだ2次元表現(外観や動きなど)に大きく依存している。
本稿では,顔画像から高密度な3次元形状(深度)を自動的に復元する自己教師付き幾何学学習手法を提案する。
論文 参考訳(メタデータ) (2022-03-13T09:32:22Z) - 3D Facial Geometry Recovery from a Depth View with Attention Guided
Generative Adversarial Network [27.773904952734547]
Atention Guided Generative Adversarial Networks (AGGAN) の提案により, 単一深度から完全な3次元顔形状を復元する。
具体的には、AGGANは、ボクセル空間内の3次元顔形状を符号化し、注意誘導型GANを用いて2.5次元深度3Dマッピングをモデル化する。
定性的かつ定量的な比較は、AGGANが従来の方法よりも広い視野角を処理し、ノイズに抵抗する能力を持ち、より完全で滑らかな3D顔形状を復元することを示している。
論文 参考訳(メタデータ) (2020-09-02T10:35:26Z) - DeepFaceFlow: In-the-wild Dense 3D Facial Motion Estimation [56.56575063461169]
DeepFaceFlowは、3D非剛体顔の流れを推定するための堅牢で高速で高精度なフレームワークである。
私たちのフレームワークは、2つの非常に大規模な顔ビデオデータセットでトレーニングされ、テストされました。
登録された画像に対して,60fpsで3次元フローマップを生成する。
論文 参考訳(メタデータ) (2020-05-14T23:56:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。