論文の概要: MVHumanNet++: A Large-scale Dataset of Multi-view Daily Dressing Human Captures with Richer Annotations for 3D Human Digitization
- arxiv url: http://arxiv.org/abs/2505.01838v1
- Date: Sat, 03 May 2025 15:02:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.292759
- Title: MVHumanNet++: A Large-scale Dataset of Multi-view Daily Dressing Human Captures with Richer Annotations for 3D Human Digitization
- Title(参考訳): MVHumanNet++:3次元ディジタイズのためのよりリッチなアノテーション付きマルチビュー日射型ヒューマンキャプチャの大規模データセット
- Authors: Chenghong Li, Hongjie Liao, Yihao Zhi, Xihe Yang, Zhengwentai Sun, Jiahao Chang, Shuguang Cui, Xiaoguang Han,
- Abstract要約: MVHumanNet++は4,500人の人物の多視点的行動系列からなるデータセットである。
私たちのデータセットには、9000の日用品、6万のモーションシーケンスと6億5500万のフレームが含まれています。
- 参考スコア(独自算出の注目度): 36.46025784260418
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this era, the success of large language models and text-to-image models can be attributed to the driving force of large-scale datasets. However, in the realm of 3D vision, while significant progress has been achieved in object-centric tasks through large-scale datasets like Objaverse and MVImgNet, human-centric tasks have seen limited advancement, largely due to the absence of a comparable large-scale human dataset. To bridge this gap, we present MVHumanNet++, a dataset that comprises multi-view human action sequences of 4,500 human identities. The primary focus of our work is on collecting human data that features a large number of diverse identities and everyday clothing using multi-view human capture systems, which facilitates easily scalable data collection. Our dataset contains 9,000 daily outfits, 60,000 motion sequences and 645 million frames with extensive annotations, including human masks, camera parameters, 2D and 3D keypoints, SMPL/SMPLX parameters, and corresponding textual descriptions. Additionally, the proposed MVHumanNet++ dataset is enhanced with newly processed normal maps and depth maps, significantly expanding its applicability and utility for advanced human-centric research. To explore the potential of our proposed MVHumanNet++ dataset in various 2D and 3D visual tasks, we conducted several pilot studies to demonstrate the performance improvements and effective applications enabled by the scale provided by MVHumanNet++. As the current largest-scale 3D human dataset, we hope that the release of MVHumanNet++ dataset with annotations will foster further innovations in the domain of 3D human-centric tasks at scale. MVHumanNet++ is publicly available at https://kevinlee09.github.io/research/MVHumanNet++/.
- Abstract(参考訳): この時代には、大規模な言語モデルとテキスト・ツー・イメージモデルの成功は、大規模なデータセットの駆動力に起因する可能性がある。
しかし、3Dビジョンの領域では、ObjaverseやMVImgNetのような大規模なデータセットを通じて、オブジェクト中心のタスクにおいて顕著な進歩が達成されているが、人間中心のタスクは限られた進歩を見せている。
このギャップを埋めるために、MVHumanNet++という、4,500人の身元からなる多視点人間行動シーケンスからなるデータセットを提示する。
我々の研究の主な焦点は、多視点のヒューマンキャプチャシステムを用いて、多様なアイデンティティと日常的な衣服を特徴とする、スケーラブルなデータ収集を容易にする人的データ収集である。
我々のデータセットには、人のマスク、カメラパラメータ、2Dおよび3Dキーポイント、SMPL/SMPLXパラメータ、および対応するテキスト記述を含む広範囲なアノテーションを備えた、9000の日用品、6万のモーションシーケンスと6500万フレームが含まれています。
さらに、提案したMVHumanNet++データセットは、新たに処理された正規マップと深度マップによって拡張され、高度な人間中心の研究への適用性と有用性を大幅に拡大する。
提案したMVHumanNet++データセットの様々な2次元および3次元視覚タスクにおける可能性を探るため,MVHumanNet++が提供するスケールによって実現される性能改善と効果的なアプリケーションについて,いくつかのパイロット実験を行った。
現在最大規模の3Dヒューマンデータセットとして、MVHumanNet++のアノテーション付きデータセットのリリースによって、大規模な3Dヒューマン中心タスクの領域におけるさらなるイノベーションが促進されることを期待しています。
MVHumanNet++はhttps://kevinlee09.github.io/research/MVHumanNet++/で公開されている。
関連論文リスト
- HumanVLM: Foundation for Human-Scene Vision-Language Model [3.583459930633303]
ヒューマンシーンの視覚言語タスクは、多様な社会アプリケーションでますます普及している。
本研究では,HumanVLM(HumanVLM)というドメイン固有な大規模視覚言語モデルを提案する。
実験では, 様々な下流タスクにまたがってヒューマンVLMを評価し, 総合的な性能が向上することを示した。
論文 参考訳(メタデータ) (2024-11-05T12:14:57Z) - LiCamPose: Combining Multi-View LiDAR and RGB Cameras for Robust Single-frame 3D Human Pose Estimation [31.651300414497822]
LiCamPoseは、マルチビューRGBとスパースポイントクラウド情報を統合して、単一のフレームで堅牢な3Dポーズを推定するパイプラインである。
LiCamPoseは、2つの公開データセット、1つの合成データセット、1つの挑戦的な自己収集データセットを含む4つのデータセットで評価されている。
論文 参考訳(メタデータ) (2023-12-11T14:30:11Z) - MVHumanNet: A Large-scale Dataset of Multi-view Daily Dressing Human
Captures [44.172804112944625]
MVHumanNetは4,500人の身元からなる多視点人間の行動系列からなるデータセットである。
我々のデータセットには、人のマスク、カメラパラメータ、2Dおよび3Dキーポイント、SMPL/SMPLXパラメータ、および対応するテキスト記述を含む、9000の日次服、6万のモーションシーケンス、645万の豊富なアノテーションが含まれています。
論文 参考訳(メタデータ) (2023-12-05T18:50:12Z) - DNA-Rendering: A Diverse Neural Actor Repository for High-Fidelity
Human-centric Rendering [126.00165445599764]
ニューラルアクターレンダリングのための人間のパフォーマンスデータの大規模かつ高忠実なリポジトリであるDNAレンダリングを提案する。
我々のデータセットには、1500人以上の被験者、5000のモーションシーケンス、67.5Mのフレームのデータボリュームが含まれています。
我々は,最大解像度4096 x 3000の60個の同期カメラと15fpsの速度,ステルカメラキャリブレーションステップを含む,データをキャプチャするプロフェッショナルなマルチビューシステムを構築した。
論文 参考訳(メタデータ) (2023-07-19T17:58:03Z) - BEHAVE: Dataset and Method for Tracking Human Object Interactions [105.77368488612704]
マルチビューのRGBDフレームとそれに対応する3D SMPLとオブジェクトをアノテートしたアノテートコンタクトに適合させる。
このデータを用いて、自然環境における人間と物体を、容易に使用可能なマルチカメラで共同で追跡できるモデルを学ぶ。
論文 参考訳(メタデータ) (2022-04-14T13:21:19Z) - Playing for 3D Human Recovery [88.91567909861442]
本研究では,自動注釈付けされた3Dグラウンド真理でビデオゲームをプレイすることで,膨大な人間のシーケンスを得る。
具体的には,GTA-Vゲームエンジンで生成された大規模3次元人文データセットであるGTA-Humanをコントリビュートする。
GTA-Humanで訓練された単純なフレームベースのベースラインは、より高度な手法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2021-10-14T17:49:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。