論文の概要: VGGHeads: A Large-Scale Synthetic Dataset for 3D Human Heads
- arxiv url: http://arxiv.org/abs/2407.18245v1
- Date: Thu, 25 Jul 2024 17:58:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-26 13:09:36.648431
- Title: VGGHeads: A Large-Scale Synthetic Dataset for 3D Human Heads
- Title(参考訳): VGGHeads:3D人間の頭部のための大規模合成データセット
- Authors: Orest Kupyn, Eugene Khvedchenia, Christian Rupprecht,
- Abstract要約: VGGHeadsは人間の頭部検出と3Dメッシュ推定のための拡散モデルで生成された大規模な合成データセットである。
私たちのデータセットは100万以上の高解像度画像で構成されており、それぞれに詳細な3Dヘッドメッシュ、顔のランドマーク、バウンディングボックスがアノテートされている。
- 参考スコア(独自算出の注目度): 18.62716110331954
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human head detection, keypoint estimation, and 3D head model fitting are important tasks with many applications. However, traditional real-world datasets often suffer from bias, privacy, and ethical concerns, and they have been recorded in laboratory environments, which makes it difficult for trained models to generalize. Here, we introduce VGGHeads -- a large scale synthetic dataset generated with diffusion models for human head detection and 3D mesh estimation. Our dataset comprises over 1 million high-resolution images, each annotated with detailed 3D head meshes, facial landmarks, and bounding boxes. Using this dataset we introduce a new model architecture capable of simultaneous heads detection and head meshes reconstruction from a single image in a single step. Through extensive experimental evaluations, we demonstrate that models trained on our synthetic data achieve strong performance on real images. Furthermore, the versatility of our dataset makes it applicable across a broad spectrum of tasks, offering a general and comprehensive representation of human heads. Additionally, we provide detailed information about the synthetic data generation pipeline, enabling it to be re-used for other tasks and domains.
- Abstract(参考訳): 人間の頭部検出、キーポイント推定、および3次元頭部モデルフィッティングは多くの応用において重要な課題である。
しかし、従来の現実世界のデータセットはバイアス、プライバシー、倫理的懸念に悩まされることが多く、実験室で記録されているため、訓練されたモデルを一般化することは困難である。
本稿では,人間の頭部検出と3次元メッシュ推定のための拡散モデルを用いた大規模合成データセットであるVGGHeadsを紹介する。
私たちのデータセットは100万以上の高解像度画像で構成されており、それぞれに詳細な3Dヘッドメッシュ、顔のランドマーク、バウンディングボックスがアノテートされている。
このデータセットを用いて、1ステップで1つの画像から頭部検出と頭部メッシュ再構築を同時に行うことができる新しいモデルアーキテクチャを導入する。
実験により,我々の合成データに基づいて訓練したモデルが実画像上で強い性能を発揮することを示す。
さらに、我々のデータセットの汎用性により、幅広いタスクに適用でき、人間の頭部を包括的かつ包括的に表現できる。
さらに、合成データ生成パイプラインに関する詳細な情報を提供し、他のタスクやドメインに再使用できるようにします。
関連論文リスト
- Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - 3D Human Reconstruction in the Wild with Synthetic Data Using Generative Models [52.96248836582542]
本稿では,人間の画像とそれに対応する3Dメッシュアノテーションをシームレスに生成できるHumanWildという,最近の拡散モデルに基づく効果的なアプローチを提案する。
生成モデルを排他的に活用することにより,大規模な人体画像と高品質なアノテーションを生成し,実世界のデータ収集の必要性を解消する。
論文 参考訳(メタデータ) (2024-03-17T06:31:16Z) - SynBody: Synthetic Dataset with Layered Human Models for 3D Human
Perception and Modeling [93.60731530276911]
我々は3つの魅力的な特徴を持つ新しい合成データセット、SynBodyを紹介した。
データセットは、正確な3Dアノテーションを備えた1.2Mイメージで構成され、1万の人体モデル、1,187のアクション、さまざまな視点をカバーしている。
論文 参考訳(メタデータ) (2023-03-30T13:30:12Z) - Head3D: Complete 3D Head Generation via Tri-plane Feature Distillation [56.267877301135634]
現在のフルヘッド生成法では、モデルをトレーニングするために多数の3Dスキャンやマルチビューイメージが必要となる。
マルチビュー画像に制限のある完全3Dヘッドを生成する手法であるHead3Dを提案する。
本モデルは,写真リアルなレンダリングと高品質な幾何表現により,コスト効率と多種多様な完全ヘッド生成を実現する。
論文 参考訳(メタデータ) (2023-03-28T11:12:26Z) - Learning 3D Human Pose Estimation from Dozens of Datasets using a
Geometry-Aware Autoencoder to Bridge Between Skeleton Formats [80.12253291709673]
本稿では,アフィン結合型オートエンコーダ(ACAE)法を提案する。
このアプローチは、28人の人間のポーズデータセットを使って1つのモデルを監督する、極端なマルチデータセット体制にスケールします。
論文 参考訳(メタデータ) (2022-12-29T22:22:49Z) - Synthetic Data and Hierarchical Object Detection in Overhead Imagery [0.0]
衛星画像における低・ゼロサンプル学習を向上させるための新しい合成データ生成および拡張技術を開発した。
合成画像の有効性を検証するために,検出モデルと2段階モデルの訓練を行い,実際の衛星画像上で得られたモデルを評価する。
論文 参考訳(メタデータ) (2021-01-29T22:52:47Z) - SelfPose: 3D Egocentric Pose Estimation from a Headset Mounted Camera [97.0162841635425]
頭部装着型VR装置の縁に設置した下向きの魚眼カメラから撮影した単眼画像から,エゴセントリックな3Dボディポーズ推定法を提案する。
この特異な視点は、厳密な自己閉塞と視点歪みを伴う、独特の視覚的な外観のイメージに繋がる。
本稿では,2次元予測の不確実性を考慮した新しいマルチブランチデコーダを用いたエンコーダデコーダアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-11-02T16:18:06Z) - Methodology for Building Synthetic Datasets with Virtual Humans [1.5556923898855324]
大規模なデータセットは、ディープニューラルネットワークの改善、ターゲットトレーニングに使用することができる。
特に,100の合成IDからなるデータセットにまたがる複数の2次元画像のレンダリングに3次元形態素顔モデルを用いる。
論文 参考訳(メタデータ) (2020-06-21T10:29:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。