論文の概要: Portrait4D-v2: Pseudo Multi-View Data Creates Better 4D Head Synthesizer
- arxiv url: http://arxiv.org/abs/2403.13570v2
- Date: Thu, 11 Jul 2024 07:59:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-12 22:57:45.300436
- Title: Portrait4D-v2: Pseudo Multi-View Data Creates Better 4D Head Synthesizer
- Title(参考訳): Portrait4D-v2: Pseudo Multi-View Dataが4Dヘッドシンセサイザーを改良
- Authors: Yu Deng, Duomin Wang, Baoyuan Wang,
- Abstract要約: フィードフォワードワンショット4Dヘッドアバター合成のための新しい学習手法を提案する。
データ駆動方式で4Dヘッドシンセサイザーを学習するために擬似多視点ビデオを用いる。
- 参考スコア(独自算出の注目度): 13.969883154405995
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a novel learning approach for feed-forward one-shot 4D head avatar synthesis. Different from existing methods that often learn from reconstructing monocular videos guided by 3DMM, we employ pseudo multi-view videos to learn a 4D head synthesizer in a data-driven manner, avoiding reliance on inaccurate 3DMM reconstruction that could be detrimental to the synthesis performance. The key idea is to first learn a 3D head synthesizer using synthetic multi-view images to convert monocular real videos into multi-view ones, and then utilize the pseudo multi-view videos to learn a 4D head synthesizer via cross-view self-reenactment. By leveraging a simple vision transformer backbone with motion-aware cross-attentions, our method exhibits superior performance compared to previous methods in terms of reconstruction fidelity, geometry consistency, and motion control accuracy. We hope our method offers novel insights into integrating 3D priors with 2D supervisions for improved 4D head avatar creation.
- Abstract(参考訳): 本稿では,フィードフォワードワンショット4Dヘッドアバター合成のための新しい学習手法を提案する。
3DMMでガイドされた単眼ビデオの再構成からしばしば学習する既存の方法とは異なり、擬似多眼ビデオを用いてデータ駆動方式で4Dヘッドシンセサイザーを学習し、合成性能に悪影響を及ぼす不正確な3DMM再構成への依存を避ける。
鍵となるアイデアは、まず合成多視点画像を用いて3Dヘッドシンセサイザーを学習し、モノクラー・リアルビデオをマルチビューに変換し、続いて擬似多視点ビデオを使用して4Dヘッドシンセサイザーをクロスビュー自己再現により学習することである。
本手法は、単純な視覚変換器のバックボーンとモーション対応のクロスアテンションを活用することで、従来の手法と比較して、再現率、幾何整合性、動き制御精度において優れた性能を示す。
提案手法は,4次元頭部アバターの創出を改善するために,3次元前駆体と2次元監督体を一体化するための新たな知見を提供する。
関連論文リスト
- Coherent 3D Portrait Video Reconstruction via Triplane Fusion [21.381482393260406]
フレームごとの3D再構成は時間的不整合を示し、ユーザの外観を忘れる。
フレーム単位の情報に先立ってパーソナライズされた3D被写体を融合する新しいフュージョンベース手法を提案する。
提案手法は,最新の3次元再構成精度と時間的整合性の両方を,インスタディオおよびインザミルドデータセット上で達成する。
論文 参考訳(メタデータ) (2024-05-01T18:08:51Z) - The More You See in 2D, the More You Perceive in 3D [32.578628729549145]
SAP3Dは、任意の数の未提示画像から3D再構成と新しいビュー合成を行うシステムである。
入力画像の数が増えるにつれて,提案手法の性能が向上することを示す。
論文 参考訳(メタデータ) (2024-04-04T17:59:40Z) - Efficient4D: Fast Dynamic 3D Object Generation from a Single-view Video [42.10482273572879]
本稿では,効率的な4Dオブジェクト生成フレームワークであるEfficient4Dを提案する。
異なるカメラビューの下で高品質な時空一貫性の画像を生成し、ラベル付きデータとして使用する。
合成ビデオと実ビデオの両方の実験によると、Efficient4Dのスピードは10倍に向上している。
論文 参考訳(メタデータ) (2024-01-16T18:58:36Z) - Real3D-Portrait: One-shot Realistic 3D Talking Portrait Synthesis [88.17520303867099]
ワンショットの3Dトーキングポートレート生成は、目に見えない画像から3Dアバターを再構成し、参照ビデオやオーディオでアニメーション化する。
本稿では,大規模な画像-平面モデルを用いて,ワンショット3D再構成能力を向上させるフレームワークであるReal3D-Potraitを提案する。
実験の結果、Real3D-Portraitは目に見えない人物を一般化し、よりリアルなトーキング・ポートレート・ビデオを生成することがわかった。
論文 参考訳(メタデータ) (2024-01-16T17:04:30Z) - 4DGen: Grounded 4D Content Generation with Spatial-temporal Consistency [118.15258850780417]
この4DGenは、4Dコンテンツ作成のための新しいフレームワークである。
静的な3Dアセットとモノクロビデオシーケンスを4Dコンテンツ構築のキーコンポーネントとして同定する。
我々のパイプラインは条件付き4D生成を容易にし、ユーザーは幾何学(3Dアセット)と運動(眼球ビデオ)を指定できる。
論文 参考訳(メタデータ) (2023-12-28T18:53:39Z) - Align Your Gaussians: Text-to-4D with Dynamic 3D Gaussians and Composed
Diffusion Models [94.07744207257653]
我々は、探索されていないテキストから4D設定に焦点をあて、動的にアニメーションされた3Dオブジェクトを合成する。
4次元オブジェクト最適化において,テキスト・ツー・イメージ,テキスト・ツー・ビデオ,および3次元認識型多視点拡散モデルを組み合わせてフィードバックを提供する。
論文 参考訳(メタデータ) (2023-12-21T11:41:02Z) - Portrait4D: Learning One-Shot 4D Head Avatar Synthesis using Synthetic Data [27.109881339132258]
大規模合成データを用いてワンショット4Dヘッド合成を学習する手法を提案する。
3次元再構成と再現の学習プロセスを切り離して、実画像への一般化性を高めるために、新しい学習戦略が実施される。
論文 参考訳(メタデータ) (2023-11-30T17:26:33Z) - 4D-fy: Text-to-4D Generation Using Hybrid Score Distillation Sampling [91.99172731031206]
現在のテキストから4Dの手法は、シーンの外観の質、立体構造、動きの3方向のトレードオフに直面している。
本稿では,複数の事前学習拡散モデルからの監視信号をブレンドする交互最適化手法であるハイブリッドスコア蒸留法を提案する。
論文 参考訳(メタデータ) (2023-11-29T18:58:05Z) - 3D-Aware Video Generation [149.5230191060692]
本研究では, 3D 対応ビデオの生成を学習する 4 次元生成敵ネットワーク (GAN) について検討する。
神経暗黙表現と時間認識判別器を組み合わせることで,モノクラービデオのみを教師する3D映像を合成するGANフレームワークを開発した。
論文 参考訳(メタデータ) (2022-06-29T17:56:03Z) - Learning Compositional Representation for 4D Captures with Neural ODE [72.56606274691033]
本稿では, 形状, 初期状態, 動きを区別する4次元キャプチャの合成表現法を提案する。
運動をモデル化するために、学習した動作コードに基づいて条件付けられた初期状態を更新するために、神経常微分方程式(ode)を訓練する。
デコーダはシェイプコードと更新されたポーズコードを取り、スタンプごとに4Dキャプチャを再構築する。
論文 参考訳(メタデータ) (2021-03-15T10:55:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。