論文の概要: Portrait4D: Learning One-Shot 4D Head Avatar Synthesis using Synthetic Data
- arxiv url: http://arxiv.org/abs/2311.18729v2
- Date: Mon, 3 Jun 2024 08:16:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-04 20:11:43.079128
- Title: Portrait4D: Learning One-Shot 4D Head Avatar Synthesis using Synthetic Data
- Title(参考訳): ポートレート4D:合成データを用いたワンショット4D頭部アバター合成学習
- Authors: Yu Deng, Duomin Wang, Xiaohang Ren, Xingyu Chen, Baoyuan Wang,
- Abstract要約: 大規模合成データを用いてワンショット4Dヘッド合成を学習する手法を提案する。
3次元再構成と再現の学習プロセスを切り離して、実画像への一般化性を高めるために、新しい学習戦略が実施される。
- 参考スコア(独自算出の注目度): 27.109881339132258
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing one-shot 4D head synthesis methods usually learn from monocular videos with the aid of 3DMM reconstruction, yet the latter is evenly challenging which restricts them from reasonable 4D head synthesis. We present a method to learn one-shot 4D head synthesis via large-scale synthetic data. The key is to first learn a part-wise 4D generative model from monocular images via adversarial learning, to synthesize multi-view images of diverse identities and full motions as training data; then leverage a transformer-based animatable triplane reconstructor to learn 4D head reconstruction using the synthetic data. A novel learning strategy is enforced to enhance the generalizability to real images by disentangling the learning process of 3D reconstruction and reenactment. Experiments demonstrate our superiority over the prior art.
- Abstract(参考訳): 既存のワンショット4Dヘッド合成法は通常、3DMM再構成の助けを借りて単眼ビデオから学習するが、後者は理にかなった4Dヘッド合成を制限している。
大規模合成データを用いてワンショット4Dヘッド合成を学習する手法を提案する。
鍵となるのは、まず敵対学習を通じてモノクロ画像からパートワイズ4D生成モデルを学習し、多様なアイデンティティとフルモーションのマルチビュー画像をトレーニングデータとして合成し、次にトランスフォーマベースでアニマタブルな3次元平面再構成機を用いて合成データを用いて4D頭部再構成を学習することである。
3次元再構成と再現の学習プロセスを切り離して、実画像への一般化性を高めるために、新しい学習戦略が実施される。
実験は、先行技術よりも優れていることを示す。
関連論文リスト
- Trans4D: Realistic Geometry-Aware Transition for Compositional Text-to-4D Synthesis [60.853577108780414]
既存の4D生成方法は、ユーザフレンドリーな条件に基づいて高品質な4Dオブジェクトやシーンを生成することができる。
現実的な複雑なシーン遷移を可能にする新しいテキストから4D合成フレームワークであるTrans4Dを提案する。
実験では、Trans4Dは、4Dシーンを正確かつ高品質な遷移で生成する既存の最先端の手法を一貫して上回っている。
論文 参考訳(メタデータ) (2024-10-09T17:56:03Z) - Portrait4D-v2: Pseudo Multi-View Data Creates Better 4D Head Synthesizer [13.969883154405995]
フィードフォワードワンショット4Dヘッドアバター合成のための新しい学習手法を提案する。
データ駆動方式で4Dヘッドシンセサイザーを学習するために擬似多視点ビデオを用いる。
論文 参考訳(メタデータ) (2024-03-20T13:09:54Z) - Denoising Diffusion via Image-Based Rendering [54.20828696348574]
実世界の3Dシーンの高速かつ詳細な再構築と生成を可能にする最初の拡散モデルを提案する。
まず、大きな3Dシーンを効率よく正確に表現できる新しいニューラルシーン表現であるIBプレーンを導入する。
第二に,2次元画像のみを用いて,この新たな3次元シーン表現の事前学習を行うためのデノイング拡散フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-05T19:00:45Z) - Align Your Gaussians: Text-to-4D with Dynamic 3D Gaussians and Composed
Diffusion Models [94.07744207257653]
我々は、探索されていないテキストから4D設定に焦点をあて、動的にアニメーションされた3Dオブジェクトを合成する。
4次元オブジェクト最適化において,テキスト・ツー・イメージ,テキスト・ツー・ビデオ,および3次元認識型多視点拡散モデルを組み合わせてフィードバックを提供する。
論文 参考訳(メタデータ) (2023-12-21T11:41:02Z) - 4D-fy: Text-to-4D Generation Using Hybrid Score Distillation Sampling [91.99172731031206]
現在のテキストから4Dの手法は、シーンの外観の質、立体構造、動きの3方向のトレードオフに直面している。
本稿では,複数の事前学習拡散モデルからの監視信号をブレンドする交互最適化手法であるハイブリッドスコア蒸留法を提案する。
論文 参考訳(メタデータ) (2023-11-29T18:58:05Z) - H4D: Human 4D Modeling by Learning Neural Compositional Representation [75.34798886466311]
この研究は、動的人間に対するコンパクトで構成的な表現を効果的に学習できる新しい枠組みを提示する。
単純で効果的な線形運動モデルを提案し, 粗く規則化された動き推定を行う。
本手法は, 高精度な動作と詳細な形状を持つ動的ヒトの回復に有効であるだけでなく, 様々な4次元人間関連タスクにも有効であることを示す。
論文 参考訳(メタデータ) (2022-03-02T17:10:49Z) - Beyond Flatland: Pre-training with a Strong 3D Inductive Bias [5.577231009305908]
片岡らは2020年、教師付きディープラーニングにおける自然画像の必要性を解消する手法を導入した。
私たちは彼らの仕事からインスピレーションを得て、3Dプロシージャオブジェクトレンダリングを使ってこのアイデアを構築します。
これまでの研究と同様に、私たちのトレーニングコーパスは完全に合成され、簡単な手続き戦略から派生します。
論文 参考訳(メタデータ) (2021-11-30T21:30:24Z) - Learning Compositional Representation for 4D Captures with Neural ODE [72.56606274691033]
本稿では, 形状, 初期状態, 動きを区別する4次元キャプチャの合成表現法を提案する。
運動をモデル化するために、学習した動作コードに基づいて条件付けられた初期状態を更新するために、神経常微分方程式(ode)を訓練する。
デコーダはシェイプコードと更新されたポーズコードを取り、スタンプごとに4Dキャプチャを再構築する。
論文 参考訳(メタデータ) (2021-03-15T10:55:55Z) - Learning to Generate Customized Dynamic 3D Facial Expressions [47.5220752079009]
本研究では,4次元表情に着目した3次元画像から映像への翻訳について検討した。
我々は、現実的な高解像度の表情を合成するために、アーキテクチャのようなディープメッシュデコーダを用いる。
我々は180名の被験者から6つの表情の4Dスキャンによる高分解能データセットを用いてモデルを訓練した。
論文 参考訳(メタデータ) (2020-07-19T22:38:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。