論文の概要: Portrait4D-v2: Pseudo Multi-View Data Creates Better 4D Head Synthesizer
- arxiv url: http://arxiv.org/abs/2403.13570v2
- Date: Thu, 11 Jul 2024 07:59:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-12 22:57:45.300436
- Title: Portrait4D-v2: Pseudo Multi-View Data Creates Better 4D Head Synthesizer
- Title(参考訳): Portrait4D-v2: Pseudo Multi-View Dataが4Dヘッドシンセサイザーを改良
- Authors: Yu Deng, Duomin Wang, Baoyuan Wang,
- Abstract要約: フィードフォワードワンショット4Dヘッドアバター合成のための新しい学習手法を提案する。
データ駆動方式で4Dヘッドシンセサイザーを学習するために擬似多視点ビデオを用いる。
- 参考スコア(独自算出の注目度): 13.969883154405995
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a novel learning approach for feed-forward one-shot 4D head avatar synthesis. Different from existing methods that often learn from reconstructing monocular videos guided by 3DMM, we employ pseudo multi-view videos to learn a 4D head synthesizer in a data-driven manner, avoiding reliance on inaccurate 3DMM reconstruction that could be detrimental to the synthesis performance. The key idea is to first learn a 3D head synthesizer using synthetic multi-view images to convert monocular real videos into multi-view ones, and then utilize the pseudo multi-view videos to learn a 4D head synthesizer via cross-view self-reenactment. By leveraging a simple vision transformer backbone with motion-aware cross-attentions, our method exhibits superior performance compared to previous methods in terms of reconstruction fidelity, geometry consistency, and motion control accuracy. We hope our method offers novel insights into integrating 3D priors with 2D supervisions for improved 4D head avatar creation.
- Abstract(参考訳): 本稿では,フィードフォワードワンショット4Dヘッドアバター合成のための新しい学習手法を提案する。
3DMMでガイドされた単眼ビデオの再構成からしばしば学習する既存の方法とは異なり、擬似多眼ビデオを用いてデータ駆動方式で4Dヘッドシンセサイザーを学習し、合成性能に悪影響を及ぼす不正確な3DMM再構成への依存を避ける。
鍵となるアイデアは、まず合成多視点画像を用いて3Dヘッドシンセサイザーを学習し、モノクラー・リアルビデオをマルチビューに変換し、続いて擬似多視点ビデオを使用して4Dヘッドシンセサイザーをクロスビュー自己再現により学習することである。
本手法は、単純な視覚変換器のバックボーンとモーション対応のクロスアテンションを活用することで、従来の手法と比較して、再現率、幾何整合性、動き制御精度において優れた性能を示す。
提案手法は,4次元頭部アバターの創出を改善するために,3次元前駆体と2次元監督体を一体化するための新たな知見を提供する。
関連論文リスト
- FaceLift: Single Image to 3D Head with View Generation and GS-LRM [54.24070918942727]
FaceLiftは、1枚の画像から高速で高品質な360度頭部再構築のためのフィードフォワード方式である。
FaceLiftは3次元頭部再構成において最先端の手法よりも優れており、実世界の画像に対する実用性とロバストな性能を強調している。
論文 参考訳(メタデータ) (2024-12-23T18:59:49Z) - CAT4D: Create Anything in 4D with Multi-View Video Diffusion Models [98.03734318657848]
本研究では,モノクロ映像から4次元(ダイナミックな3D)シーンを生成するCAT4Dを提案する。
我々は、多様なデータセットの組み合わせに基づいて訓練された多視点ビデオ拡散モデルを活用して、新しいビュー合成を実現する。
新規なビュー合成と動的シーン再構成ベンチマークにおける競合性能を実証する。
論文 参考訳(メタデータ) (2024-11-27T18:57:16Z) - Trans4D: Realistic Geometry-Aware Transition for Compositional Text-to-4D Synthesis [60.853577108780414]
既存の4D生成方法は、ユーザフレンドリーな条件に基づいて高品質な4Dオブジェクトやシーンを生成することができる。
現実的な複雑なシーン遷移を可能にする新しいテキストから4D合成フレームワークであるTrans4Dを提案する。
実験では、Trans4Dは、4Dシーンを正確かつ高品質な遷移で生成する既存の最先端の手法を一貫して上回っている。
論文 参考訳(メタデータ) (2024-10-09T17:56:03Z) - Coherent 3D Portrait Video Reconstruction via Triplane Fusion [21.381482393260406]
フレームごとの3D再構成は時間的不整合を示し、ユーザの外観を忘れる。
フレーム単位の情報に先立ってパーソナライズされた3D被写体を融合する新しいフュージョンベース手法を提案する。
提案手法は,最新の3次元再構成精度と時間的整合性の両方を,インスタディオおよびインザミルドデータセット上で達成する。
論文 参考訳(メタデータ) (2024-05-01T18:08:51Z) - The More You See in 2D, the More You Perceive in 3D [32.578628729549145]
SAP3Dは、任意の数の未提示画像から3D再構成と新しいビュー合成を行うシステムである。
入力画像の数が増えるにつれて,提案手法の性能が向上することを示す。
論文 参考訳(メタデータ) (2024-04-04T17:59:40Z) - Real3D-Portrait: One-shot Realistic 3D Talking Portrait Synthesis [88.17520303867099]
ワンショットの3Dトーキングポートレート生成は、目に見えない画像から3Dアバターを再構成し、参照ビデオやオーディオでアニメーション化する。
本稿では,大規模な画像-平面モデルを用いて,ワンショット3D再構成能力を向上させるフレームワークであるReal3D-Potraitを提案する。
実験の結果、Real3D-Portraitは目に見えない人物を一般化し、よりリアルなトーキング・ポートレート・ビデオを生成することがわかった。
論文 参考訳(メタデータ) (2024-01-16T17:04:30Z) - Portrait4D: Learning One-Shot 4D Head Avatar Synthesis using Synthetic Data [27.109881339132258]
大規模合成データを用いてワンショット4Dヘッド合成を学習する手法を提案する。
3次元再構成と再現の学習プロセスを切り離して、実画像への一般化性を高めるために、新しい学習戦略が実施される。
論文 参考訳(メタデータ) (2023-11-30T17:26:33Z) - 3D-Aware Video Generation [149.5230191060692]
本研究では, 3D 対応ビデオの生成を学習する 4 次元生成敵ネットワーク (GAN) について検討する。
神経暗黙表現と時間認識判別器を組み合わせることで,モノクラービデオのみを教師する3D映像を合成するGANフレームワークを開発した。
論文 参考訳(メタデータ) (2022-06-29T17:56:03Z) - Learning Compositional Representation for 4D Captures with Neural ODE [72.56606274691033]
本稿では, 形状, 初期状態, 動きを区別する4次元キャプチャの合成表現法を提案する。
運動をモデル化するために、学習した動作コードに基づいて条件付けられた初期状態を更新するために、神経常微分方程式(ode)を訓練する。
デコーダはシェイプコードと更新されたポーズコードを取り、スタンプごとに4Dキャプチャを再構築する。
論文 参考訳(メタデータ) (2021-03-15T10:55:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。