論文の概要: DAD-3DHeads: A Large-scale Dense, Accurate and Diverse Dataset for 3D
Head Alignment from a Single Image
- arxiv url: http://arxiv.org/abs/2204.03688v2
- Date: Mon, 11 Apr 2022 04:55:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-12 11:28:48.716741
- Title: DAD-3DHeads: A Large-scale Dense, Accurate and Diverse Dataset for 3D
Head Alignment from a Single Image
- Title(参考訳): DAD-3Dヘッド:1枚の画像から3次元頭部アライメントのための大規模Dense, Accurate, Diverse Dataset
- Authors: Tetiana Martyniuk, Orest Kupyn, Yana Kurlyak, Igor Krashenyi, Ji\v{r}i
Matas, Viktoriia Sharmanska
- Abstract要約: DAD-3DHeadsは、密度が高く多様な大規模データセットである。
3Dヘッド形状を正確に表現した3.5K以上のランドマークのアノテーションが含まれている。
データ駆動型モデルであるDAD-3DNetは、データセットに基づいてトレーニングされ、形状、表現、ポーズパラメータを学びます。
- 参考スコア(独自算出の注目度): 3.718942345103135
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present DAD-3DHeads, a dense and diverse large-scale dataset, and a robust
model for 3D Dense Head Alignment in the wild. It contains annotations of over
3.5K landmarks that accurately represent 3D head shape compared to the
ground-truth scans. The data-driven model, DAD-3DNet, trained on our dataset,
learns shape, expression, and pose parameters, and performs 3D reconstruction
of a FLAME mesh. The model also incorporates a landmark prediction branch to
take advantage of rich supervision and co-training of multiple related tasks.
Experimentally, DAD-3DNet outperforms or is comparable to the state-of-the-art
models in (i) 3D Head Pose Estimation on AFLW2000-3D and BIWI, (ii) 3D Face
Shape Reconstruction on NoW and Feng, and (iii) 3D Dense Head Alignment and 3D
Landmarks Estimation on DAD-3DHeads dataset. Finally, the diversity of
DAD-3DHeads in camera angles, facial expressions, and occlusions enables a
benchmark to study in-the-wild generalization and robustness to distribution
shifts. The dataset webpage is https://p.farm/research/dad-3dheads.
- Abstract(参考訳): DAD-3DHeadsは,高密度で多様な大規模データセットであり,野生における3次元Dense Head Alignmentの頑健なモデルである。
3dヘッド形状を正確に表現した3.5k以上のランドマークのアノテーションを含んでいる。
データ駆動型モデルであるDAD-3DNetは、データセットに基づいてトレーニングされ、形状、表現、ポーズパラメータを学び、FLAMEメッシュの3D再構成を行う。
このモデルにはランドマーク予測ブランチも組み込まれており、リッチな監督と複数の関連するタスクのコトレーニングを生かしている。
実験的に、DAD-3DNetは最先端のモデルよりも優れ、あるいは同等である。
(i)AFLW2000-3DとBIWIによる3次元頭部電位の推定
(II)NoWとFengの3次元顔形状再構成
3)DAD-3Dヘッドデータセットによる3次元高密度頭部アライメントと3次元ランドマーク推定
最後に、カメラアングル、表情、オクルージョンにおけるdad-3dヘッドの多様性により、分布シフトに対する一般化とロバスト性を研究することができる。
データセットのウェブページはhttps://p.farm/research/dad-3dheadsである。
関連論文リスト
- Deep Geometric Moments Promote Shape Consistency in Text-to-3D Generation [27.43973967994717]
MT3Dは高忠実度3Dオブジェクトを利用して視点バイアスを克服するテキスト・ツー・3D生成モデルである。
生成した2次元画像が基本形状と構造を保持することを保証するために,高品質な3次元モデルから導出される深度マップを制御信号として利用する。
3Dアセットから幾何学的詳細を取り入れることで、MT3Dは多様で幾何学的に一貫したオブジェクトを作成することができる。
論文 参考訳(メタデータ) (2024-08-12T06:25:44Z) - DIRECT-3D: Learning Direct Text-to-3D Generation on Massive Noisy 3D Data [50.164670363633704]
テキストプロンプトから高品質な3Dアセットを作成するための拡散型3D生成モデルであるDIRECT-3Dを提案する。
我々のモデルは、広範に騒々しく不整合な3D資産で直接訓練されている。
単一クラス生成とテキスト・ツー・3D生成の両方で最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-06-06T17:58:15Z) - Any2Point: Empowering Any-modality Large Models for Efficient 3D Understanding [83.63231467746598]
我々は,Any2Pointというパラメータ効率のよい大規模モデル(ビジョン,言語,音声)を3次元理解に活用する手法を紹介した。
入力された3Dポイントと元の1Dまたは2D位置との相関関係を示す3D-to-any (1Dまたは2D)仮想プロジェクション戦略を提案する。
論文 参考訳(メタデータ) (2024-04-11T17:59:45Z) - Sculpt3D: Multi-View Consistent Text-to-3D Generation with Sparse 3D Prior [57.986512832738704]
本稿では,2次元拡散モデルを再学習することなく,抽出した参照オブジェクトから3次元先行を明示的に注入する,電流パイプラインを備えた新しいフレームワークSculpt3Dを提案する。
具体的には、スパース線サンプリングによるキーポイントの監督により、高品質で多様な3次元形状を保証できることを実証する。
これら2つの分離された設計は、参照オブジェクトからの3D情報を利用して、2D拡散モデルの生成品質を保ちながら、3Dオブジェクトを生成する。
論文 参考訳(メタデータ) (2024-03-14T07:39:59Z) - Sherpa3D: Boosting High-Fidelity Text-to-3D Generation via Coarse 3D
Prior [52.44678180286886]
2次元拡散モデルでは、3次元データなしで優れた一般化と豊富な詳細を実現する蒸留手法が見つかる。
提案するSherpa3Dは,高忠実度,一般化性,幾何整合性を同時に実現する新しいテキスト・ツー・3Dフレームワークである。
論文 参考訳(メタデータ) (2023-12-11T18:59:18Z) - Cross3DVG: Cross-Dataset 3D Visual Grounding on Different RGB-D Scans [6.936271803454143]
3Dシーンにおけるクロスデータセット視覚的グラウンド化のための新しいタスク(Cross3DVG)を提案する。
大規模な3DビジュアルグラウンドデータセットであるROOReferを作成しました。
3RScanの1,380の屋内RGB-Dスキャンで、63万以上の3Dオブジェクトが記述されている。
論文 参考訳(メタデータ) (2023-05-23T09:52:49Z) - Neural Voting Field for Camera-Space 3D Hand Pose Estimation [106.34750803910714]
3次元暗黙表現に基づく1枚のRGB画像からカメラ空間の3Dハンドポーズ推定のための統一的なフレームワークを提案する。
本稿では,カメラフラストラムにおける高密度3次元ポイントワイド投票により,カメラ空間の3次元ハンドポーズを推定する,新しい3次元高密度回帰手法を提案する。
論文 参考訳(メタデータ) (2023-05-07T16:51:34Z) - Lift3D: Synthesize 3D Training Data by Lifting 2D GAN to 3D Generative
Radiance Field [16.15190186574068]
データ生成の目的を達成するために,逆2D-to-3D生成フレームワークであるLift3Dを提案する。
2D GANを3DオブジェクトNeRFに持ち上げることで、Lift3Dは生成されたオブジェクトの明示的な3D情報を提供する。
我々は、自律運転データセットを増強することで、我々のフレームワークの有効性を評価する。
論文 参考訳(メタデータ) (2023-04-07T07:43:02Z) - Exemplar Fine-Tuning for 3D Human Model Fitting Towards In-the-Wild 3D
Human Pose Estimation [107.07047303858664]
3次元の地平線アノテーションを持つ大規模な人的データセットは、野生では入手が困難である。
既存の2Dデータセットを高品質な3Dポーズマッチングで拡張することで、この問題に対処する。
結果として得られるアノテーションは、3Dのプロシージャネットワークをスクラッチからトレーニングするのに十分である。
論文 参考訳(メタデータ) (2020-04-07T20:21:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。