論文の概要: 3D-Aware Talking-Head Video Motion Transfer
- arxiv url: http://arxiv.org/abs/2311.02549v1
- Date: Sun, 5 Nov 2023 02:50:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-07 17:05:23.922674
- Title: 3D-Aware Talking-Head Video Motion Transfer
- Title(参考訳): 3D-Aware Talking-Head Video Motion Transfer
- Authors: Haomiao Ni, Jiachen Liu, Yuan Xue, Sharon X. Huang
- Abstract要約: 本稿では3D対応の対話型ビデオモーション転送ネットワークであるHead3Dを提案する。
Head3Dは、2Dの被写体フレームから視覚的に解釈可能な3Dカノニカルヘッドを生成することにより、被写体外観情報を利用する。
Head3Dは2Dと3Dの先行技術より優れています。
- 参考スコア(独自算出の注目度): 20.135083791297603
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Motion transfer of talking-head videos involves generating a new video with
the appearance of a subject video and the motion pattern of a driving video.
Current methodologies primarily depend on a limited number of subject images
and 2D representations, thereby neglecting to fully utilize the multi-view
appearance features inherent in the subject video. In this paper, we propose a
novel 3D-aware talking-head video motion transfer network, Head3D, which fully
exploits the subject appearance information by generating a
visually-interpretable 3D canonical head from the 2D subject frames with a
recurrent network. A key component of our approach is a self-supervised 3D head
geometry learning module, designed to predict head poses and depth maps from 2D
subject video frames. This module facilitates the estimation of a 3D head in
canonical space, which can then be transformed to align with driving video
frames. Additionally, we employ an attention-based fusion network to combine
the background and other details from subject frames with the 3D subject head
to produce the synthetic target video. Our extensive experiments on two public
talking-head video datasets demonstrate that Head3D outperforms both 2D and 3D
prior arts in the practical cross-identity setting, with evidence showing it
can be readily adapted to the pose-controllable novel view synthesis task.
- Abstract(参考訳): 対話型ビデオの移動移動には、被写体ビデオの出現と駆動ビデオの動作パターンを伴う新しいビデオを生成することが含まれる。
現在の方法論は、主に限られた数の主題画像と2d表現に依存するため、主題ビデオに固有のマルチビューの外観特徴を十分に活用することを無視している。
本稿では,2次元の被写体フレームから視覚的に解釈可能な3Dカノニカルヘッドをリカレントネットワークで生成することにより,被験者の外観情報を完全に活用する3D対応ビデオモーション転送ネットワークであるHead3Dを提案する。
提案手法の重要な構成要素は,2次元映像フレームからの頭部ポーズと深度マップの予測を目的とした,自己教師付き3次元頭部形状学習モジュールである。
このモジュールは3Dヘッドを標準空間で推定しやすくし、動画フレームの駆動に合わせて変換することができる。
また,被写体フレームの背景と他の詳細を3d被写体ヘッドと組み合わせ,合成対象映像を作成するために注意に基づく融合ネットワークを用いる。
2つのトーキングヘッドビデオデータセットに関する広範囲な実験により,ヘッド3dが2dと3dの先行技術に勝ることを示し,ポーズ制御可能な新規視点合成タスクに容易に適応できることを示す。
関連論文リスト
- Chat-Edit-3D: Interactive 3D Scene Editing via Text Prompts [76.73043724587679]
CE3Dと呼ばれる対話型3Dシーン編集手法を提案する。
Hash-Atlasは3Dシーンビューを表し、3Dシーンの編集を2Dアトラスイメージに転送する。
その結果、CE3Dは複数の視覚モデルを効果的に統合し、多様な視覚効果が得られることを示した。
論文 参考訳(メタデータ) (2024-07-09T13:24:42Z) - Real3D-Portrait: One-shot Realistic 3D Talking Portrait Synthesis [88.17520303867099]
ワンショットの3Dトーキングポートレート生成は、目に見えない画像から3Dアバターを再構成し、参照ビデオやオーディオでアニメーション化する。
本稿では,大規模な画像-平面モデルを用いて,ワンショット3D再構成能力を向上させるフレームワークであるReal3D-Potraitを提案する。
実験の結果、Real3D-Portraitは目に見えない人物を一般化し、よりリアルなトーキング・ポートレート・ビデオを生成することがわかった。
論文 参考訳(メタデータ) (2024-01-16T17:04:30Z) - AutoDecoding Latent 3D Diffusion Models [95.7279510847827]
本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対して,新しいアプローチを提案する。
3D Autodecoderフレームワークは、ターゲットデータセットから学んだプロパティを潜時空間に埋め込む。
次に、適切な中間体積潜在空間を特定し、ロバストな正規化と非正規化演算を導入する。
論文 参考訳(メタデータ) (2023-07-07T17:59:14Z) - Audio-Driven 3D Facial Animation from In-the-Wild Videos [16.76533748243908]
任意のオーディオクリップが与えられたとき、オーディオ駆動の3D顔アニメーションは、ライフスタイルの唇の動きと3Dヘッドのための表情を生成することを目的としている。
既存の方法は、通常、限られた数のオーディオ3Dスキャンペアを含む限られたパブリックな3Dデータセットを使用してモデルをトレーニングすることに依存する。
そこで本研究では,3次元顔アニメーションモデルをトレーニングするために,この2次元対話ヘッドビデオを利用する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-06-20T13:53:05Z) - DaGAN++: Depth-Aware Generative Adversarial Network for Talking Head
Video Generation [18.511092587156657]
顔画像から高密度な3次元顔形状を学習するための新しい自己教師手法を提案する。
また,画素レベルの不確実性を学習し,幾何学習のためのより信頼性の高い剛体移動画素を知覚する戦略を提案する。
我々は,3D対応のクロスモーダル(e,外見,深度)アテンション機構を開発し,粗い方法で顔のジオメトリーを捉える。
論文 参考訳(メタデータ) (2023-05-10T14:58:33Z) - Text-To-4D Dynamic Scene Generation [111.89517759596345]
テキスト記述から3次元動的シーンを生成するMAV3D(Make-A-Video3D)を提案する。
提案手法では, シーンの外観, 密度, 動きの整合性に最適化された4次元動的ニューラルラジアンス場(NeRF)を用いる。
提供されるテキストから出力されるダイナミックビデオは、任意のカメラの位置と角度から見ることができ、任意の3D環境に合成することができる。
論文 参考訳(メタデータ) (2023-01-26T18:14:32Z) - 3D-Aware Video Generation [149.5230191060692]
本研究では, 3D 対応ビデオの生成を学習する 4 次元生成敵ネットワーク (GAN) について検討する。
神経暗黙表現と時間認識判別器を組み合わせることで,モノクラービデオのみを教師する3D映像を合成するGANフレームワークを開発した。
論文 参考訳(メタデータ) (2022-06-29T17:56:03Z) - Learning Ego 3D Representation as Ray Tracing [42.400505280851114]
我々は、制約のないカメラビューからエゴ3D表現学習のための新しいエンドツーエンドアーキテクチャを提案する。
レイトレーシングの原理にインスパイアされた我々は、学習可能なエゴ3D表現として「虚視」の偏極格子を設計する。
我々のモデルはすべての最先端の代替品を著しく上回ります。
論文 参考訳(メタデータ) (2022-06-08T17:55:50Z) - Video Autoencoder: self-supervised disentanglement of static 3D
structure and motion [60.58836145375273]
ビデオから3次元構造とカメラポーズの遠心分離表現を学習するために,ビデオオートエンコーダを提案する。
この表現は、新しいビュー合成、カメラポーズ推定、動きの追従によるビデオ生成など、様々なタスクに適用することができる。
論文 参考訳(メタデータ) (2021-10-06T17:57:42Z) - Unsupervised object-centric video generation and decomposition in 3D [36.08064849807464]
本研究では,複数の3Dオブジェクトと3D背景を持つシーンを移動しながら映像を映像としてモデル化することを提案する。
我々のモデルは、監督なしに単眼ビデオから訓練されるが、複数の動く物体を含むコヒーレントな3Dシーンを生成することを学ぶ。
論文 参考訳(メタデータ) (2020-07-07T18:01:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。