論文の概要: MVHumanNet: A Large-scale Dataset of Multi-view Daily Dressing Human
Captures
- arxiv url: http://arxiv.org/abs/2312.02963v1
- Date: Tue, 5 Dec 2023 18:50:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-06 14:49:17.453465
- Title: MVHumanNet: A Large-scale Dataset of Multi-view Daily Dressing Human
Captures
- Title(参考訳): mvhumannet:マルチビューの毎日のドレッシングの大規模データセット
- Authors: Zhangyang Xiong, Chenghong Li, Kenkun Liu, Hongjie Liao, Jianqiao Hu,
Junyi Zhu, Shuliang Ning, Lingteng Qiu, Chongjie Wang, Shijie Wang, Shuguang
Cui and Xiaoguang Han
- Abstract要約: MVHumanNetは4,500人の身元からなる多視点人間の行動系列からなるデータセットである。
我々のデータセットには、人のマスク、カメラパラメータ、2Dおよび3Dキーポイント、SMPL/SMPLXパラメータ、および対応するテキスト記述を含む、9000の日次服、6万のモーションシーケンス、645万の豊富なアノテーションが含まれています。
- 参考スコア(独自算出の注目度): 44.172804112944625
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this era, the success of large language models and text-to-image models
can be attributed to the driving force of large-scale datasets. However, in the
realm of 3D vision, while remarkable progress has been made with models trained
on large-scale synthetic and real-captured object data like Objaverse and
MVImgNet, a similar level of progress has not been observed in the domain of
human-centric tasks partially due to the lack of a large-scale human dataset.
Existing datasets of high-fidelity 3D human capture continue to be mid-sized
due to the significant challenges in acquiring large-scale high-quality 3D
human data. To bridge this gap, we present MVHumanNet, a dataset that comprises
multi-view human action sequences of 4,500 human identities. The primary focus
of our work is on collecting human data that features a large number of diverse
identities and everyday clothing using a multi-view human capture system, which
facilitates easily scalable data collection. Our dataset contains 9,000 daily
outfits, 60,000 motion sequences and 645 million frames with extensive
annotations, including human masks, camera parameters, 2D and 3D keypoints,
SMPL/SMPLX parameters, and corresponding textual descriptions. To explore the
potential of MVHumanNet in various 2D and 3D visual tasks, we conducted pilot
studies on view-consistent action recognition, human NeRF reconstruction,
text-driven view-unconstrained human image generation, as well as 2D
view-unconstrained human image and 3D avatar generation. Extensive experiments
demonstrate the performance improvements and effective applications enabled by
the scale provided by MVHumanNet. As the current largest-scale 3D human
dataset, we hope that the release of MVHumanNet data with annotations will
foster further innovations in the domain of 3D human-centric tasks at scale.
- Abstract(参考訳): この時代には、大規模な言語モデルとテキストから画像へのモデルの成功は、大規模データセットの推進力に起因する可能性がある。
しかし、3Dビジョンの領域では、ObjaverseやMVImgNetのような大規模な合成および現実的なオブジェクトデータに基づいて訓練されたモデルで顕著な進歩が見られたが、大規模な人間のデータセットが欠如していることもあって、人間中心のタスクの領域では同様の進歩は見られていない。
大規模な高品質な3Dデータを取得する上で大きな課題があるため、既存の3Dキャプチャーのデータセットは中規模のままである。
このギャップを埋めるため、MVHumanNetは4,500人の人物の多視点行動シーケンスからなるデータセットである。
我々の研究の主な焦点は、多視点のヒューマンキャプチャシステムを用いて、多様なアイデンティティと日常的な衣服を特徴とする、スケーラブルなデータ収集を容易にする人的データ収集である。
私たちのデータセットには、人間のマスク、カメラパラメータ、2dおよび3dキーポイント、smpl/smplxパラメータ、対応するテキスト記述を含む、9000の日用服、6万のモーションシーケンスと6500万のフレームが含まれています。
2次元および3次元の視覚課題におけるmvhumannetの可能性を探るため,視覚に一貫性のある行動認識,人間のnerf再構成,テキスト駆動型映像生成,および2次元視無拘束人間画像および3次元アバター生成に関するパイロット研究を行った。
広範な実験によってmvhumannetが提供するスケールによって、パフォーマンス改善と効果的なアプリケーションが実現されている。
現在の最大規模の3dヒューマンデータセットとして、アノテーション付きmvhumannetデータのリリースは、大規模な3d人間中心タスクの領域におけるさらなるイノベーションを促進することを願っている。
関連論文リスト
- Cross-view and Cross-pose Completion for 3D Human Understanding [16.11243039311909]
画像のみを用いて人間中心のデータを扱う自己教師付き学習に基づく事前学習手法を提案する。
身体中心タスクのためのモデルと手中心タスクのためのモデルを事前訓練する。
汎用的なトランスフォーマーアーキテクチャでは、これらのモデルは、広範囲の人間中心の下流タスクにおいて、既存の自己教師付き事前学習方法より優れている。
論文 参考訳(メタデータ) (2023-11-15T16:51:18Z) - DNA-Rendering: A Diverse Neural Actor Repository for High-Fidelity
Human-centric Rendering [126.00165445599764]
ニューラルアクターレンダリングのための人間のパフォーマンスデータの大規模かつ高忠実なリポジトリであるDNAレンダリングを提案する。
我々のデータセットには、1500人以上の被験者、5000のモーションシーケンス、67.5Mのフレームのデータボリュームが含まれています。
我々は,最大解像度4096 x 3000の60個の同期カメラと15fpsの速度,ステルカメラキャリブレーションステップを含む,データをキャプチャするプロフェッショナルなマルチビューシステムを構築した。
論文 参考訳(メタデータ) (2023-07-19T17:58:03Z) - 3D Segmentation of Humans in Point Clouds with Synthetic Data [21.518379214837278]
本稿では,3次元人間の意味的セグメンテーション,インスタンスセグメンテーション,複数人体部分セグメンテーションの課題を提案する。
実際の3Dシーンと相互作用する合成人間のトレーニングデータを生成するためのフレームワークを提案する。
また,新しいトランスフォーマーモデルであるHuman3Dを提案する。
論文 参考訳(メタデータ) (2022-12-01T18:59:21Z) - Decanus to Legatus: Synthetic training for 2D-3D human pose lifting [26.108023246654646]
10個の手作り3Dポーズ(Decanus)に基づく3Dポーズ分布から無限個の合成人間のポーズ(Legatus)を生成するアルゴリズムを提案する。
この結果から,特定データセットの実際のデータを用いた手法に匹敵する3次元ポーズ推定性能を,ゼロショット設定で実現し,フレームワークの可能性を示した。
論文 参考訳(メタデータ) (2022-10-05T13:10:19Z) - Human Performance Capture from Monocular Video in the Wild [50.34917313325813]
本研究では,挑戦的な身体ポーズを特徴とするモノクロ映像から動的3次元人体形状をキャプチャする手法を提案する。
本手法は,現在開発中の3DPWビデオデータセットにおいて,最先端の手法よりも優れる。
論文 参考訳(メタデータ) (2021-11-29T16:32:41Z) - Playing for 3D Human Recovery [74.01259933358331]
そこで本研究では,ビデオゲームをプレイすることで,人間の大規模配列と3次元地上の真理を収集する。
具体的には,GTA-Vゲームエンジンで生成した大規模かつ高多様性な3次元人的データセットであるGTA-Humanにコントリビュートする。
テーマ、アクション、シナリオの豊富なセットでは、GTA-Humanは両方の効果的なトレーニングソースとして機能する。
論文 参考訳(メタデータ) (2021-10-14T17:49:42Z) - HUMBI: A Large Multiview Dataset of Human Body Expressions and Benchmark
Challenge [33.26419876973344]
本稿では,人体表現を自然着色で表現するHUMBIという大規模マルチビューデータセットを提案する。
107個の同期HDカメラは、性別、民族、年齢、スタイルにまたがる772個の特徴のある被写体を撮影するために使用される。
3次元メッシュモデルを用いて高忠実度ボディ表現を再構成し、ビュー特有の外観を表現する。
論文 参考訳(メタデータ) (2021-09-30T23:19:25Z) - S3: Neural Shape, Skeleton, and Skinning Fields for 3D Human Modeling [103.65625425020129]
歩行者の形状、ポーズ、皮膚の重みを、データから直接学習する神経暗黙関数として表現します。
各種データセットに対するアプローチの有効性を実証し,既存の最先端手法よりも再現性が優れていることを示す。
論文 参考訳(メタデータ) (2021-01-17T02:16:56Z) - Cascaded deep monocular 3D human pose estimation with evolutionary
training data [76.3478675752847]
深層表現学習は単眼の3次元ポーズ推定において顕著な精度を達成した。
本稿では,大量のトレーニングデータに対してスケーラブルな新しいデータ拡張手法を提案する。
本手法は,先行知識に触発された階層的人体表現と合成に基づいて,未知の3次元人体骨格を合成する。
論文 参考訳(メタデータ) (2020-06-14T03:09:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。