Fugu-MT 論文翻訳(概要): MVHumanNet: A Large-scale Dataset of Multi-view Daily Dressing Human Captures

論文の概要: MVHumanNet: A Large-scale Dataset of Multi-view Daily Dressing Human Captures

arxiv url: http://arxiv.org/abs/2312.02963v1
Date: Tue, 5 Dec 2023 18:50:12 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-06 14:49:17.453465
Title: MVHumanNet: A Large-scale Dataset of Multi-view Daily Dressing Human Captures
Title（参考訳）: mvhumannet:マルチビューの毎日のドレッシングの大規模データセット
Authors: Zhangyang Xiong, Chenghong Li, Kenkun Liu, Hongjie Liao, Jianqiao Hu, Junyi Zhu, Shuliang Ning, Lingteng Qiu, Chongjie Wang, Shijie Wang, Shuguang Cui and Xiaoguang Han
Abstract要約: MVHumanNetは4,500人の身元からなる多視点人間の行動系列からなるデータセットである。我々のデータセットには、人のマスク、カメラパラメータ、2Dおよび3Dキーポイント、SMPL/SMPLXパラメータ、および対応するテキスト記述を含む、9000の日次服、6万のモーションシーケンス、645万の豊富なアノテーションが含まれています。
参考スコア（独自算出の注目度）: 44.172804112944625
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this era, the success of large language models and text-to-image models can be attributed to the driving force of large-scale datasets. However, in the realm of 3D vision, while remarkable progress has been made with models trained on large-scale synthetic and real-captured object data like Objaverse and MVImgNet, a similar level of progress has not been observed in the domain of human-centric tasks partially due to the lack of a large-scale human dataset. Existing datasets of high-fidelity 3D human capture continue to be mid-sized due to the significant challenges in acquiring large-scale high-quality 3D human data. To bridge this gap, we present MVHumanNet, a dataset that comprises multi-view human action sequences of 4,500 human identities. The primary focus of our work is on collecting human data that features a large number of diverse identities and everyday clothing using a multi-view human capture system, which facilitates easily scalable data collection. Our dataset contains 9,000 daily outfits, 60,000 motion sequences and 645 million frames with extensive annotations, including human masks, camera parameters, 2D and 3D keypoints, SMPL/SMPLX parameters, and corresponding textual descriptions. To explore the potential of MVHumanNet in various 2D and 3D visual tasks, we conducted pilot studies on view-consistent action recognition, human NeRF reconstruction, text-driven view-unconstrained human image generation, as well as 2D view-unconstrained human image and 3D avatar generation. Extensive experiments demonstrate the performance improvements and effective applications enabled by the scale provided by MVHumanNet. As the current largest-scale 3D human dataset, we hope that the release of MVHumanNet data with annotations will foster further innovations in the domain of 3D human-centric tasks at scale.
Abstract（参考訳）: この時代には、大規模な言語モデルとテキストから画像へのモデルの成功は、大規模データセットの推進力に起因する可能性がある。しかし、3Dビジョンの領域では、ObjaverseやMVImgNetのような大規模な合成および現実的なオブジェクトデータに基づいて訓練されたモデルで顕著な進歩が見られたが、大規模な人間のデータセットが欠如していることもあって、人間中心のタスクの領域では同様の進歩は見られていない。大規模な高品質な3Dデータを取得する上で大きな課題があるため、既存の3Dキャプチャーのデータセットは中規模のままである。このギャップを埋めるため、MVHumanNetは4,500人の人物の多視点行動シーケンスからなるデータセットである。我々の研究の主な焦点は、多視点のヒューマンキャプチャシステムを用いて、多様なアイデンティティと日常的な衣服を特徴とする、スケーラブルなデータ収集を容易にする人的データ収集である。私たちのデータセットには、人間のマスク、カメラパラメータ、2dおよび3dキーポイント、smpl/smplxパラメータ、対応するテキスト記述を含む、9000の日用服、6万のモーションシーケンスと6500万のフレームが含まれています。 2次元および3次元の視覚課題におけるmvhumannetの可能性を探るため,視覚に一貫性のある行動認識,人間のnerf再構成,テキスト駆動型映像生成,および2次元視無拘束人間画像および3次元アバター生成に関するパイロット研究を行った。広範な実験によってmvhumannetが提供するスケールによって、パフォーマンス改善と効果的なアプリケーションが実現されている。現在の最大規模の3dヒューマンデータセットとして、アノテーション付きmvhumannetデータのリリースは、大規模な3d人間中心タスクの領域におけるさらなるイノベーションを促進することを願っている。

関連論文リスト

SIGMAN:Scaling 3D Human Gaussian Generation with Millions of Assets [72.26350984924129]
本稿では,3次元デジタル化のための潜在空間生成パラダイムを提案する。我々は,不適切な低次元から高次元のマッピング問題を学習可能な分布シフトに変換する。我々は、HGS-1Mデータセットを構築するために、合成データと組み合わせた多視点最適化アプローチを採用する。
論文参考訳（メタデータ） (2025-04-09T15:38:18Z)
HumanVLM: Foundation for Human-Scene Vision-Language Model [3.583459930633303]
ヒューマンシーンの視覚言語タスクは、多様な社会アプリケーションでますます普及している。本研究では,HumanVLM(HumanVLM)というドメイン固有な大規模視覚言語モデルを提案する。実験では, 様々な下流タスクにまたがってヒューマンVLMを評価し, 総合的な性能が向上することを示した。
論文参考訳（メタデータ） (2024-11-05T12:14:57Z)
HINT: Learning Complete Human Neural Representations from Limited Viewpoints [69.76947323932107]
我々は、限られた視野角から詳細な人間のモデルを学習できるNeRFベースのアルゴリズムを提案する。その結果,数個の視角からでも完全な人間の再構築が可能となり,性能は15%以上向上した。
論文参考訳（メタデータ） (2024-05-30T05:43:09Z)
3D Human Reconstruction in the Wild with Synthetic Data Using Generative Models [52.96248836582542]
本稿では,人間の画像とそれに対応する3Dメッシュアノテーションをシームレスに生成できるHumanWildという,最近の拡散モデルに基づく効果的なアプローチを提案する。生成モデルを排他的に活用することにより,大規模な人体画像と高品質なアノテーションを生成し,実世界のデータ収集の必要性を解消する。
論文参考訳（メタデータ） (2024-03-17T06:31:16Z)
Cross-view and Cross-pose Completion for 3D Human Understanding [22.787947086152315]
画像のみを用いて人間中心のデータを扱う自己教師付き学習に基づく事前学習手法を提案する。身体中心タスクのためのモデルと手中心タスクのためのモデルを事前訓練する。汎用的なトランスフォーマーアーキテクチャでは、これらのモデルは、広範囲の人間中心の下流タスクにおいて、既存の自己教師付き事前学習方法より優れている。
論文参考訳（メタデータ） (2023-11-15T16:51:18Z)
DNA-Rendering: A Diverse Neural Actor Repository for High-Fidelity Human-centric Rendering [126.00165445599764]
ニューラルアクターレンダリングのための人間のパフォーマンスデータの大規模かつ高忠実なリポジトリであるDNAレンダリングを提案する。我々のデータセットには、1500人以上の被験者、5000のモーションシーケンス、67.5Mのフレームのデータボリュームが含まれています。我々は,最大解像度4096 x 3000の60個の同期カメラと15fpsの速度,ステルカメラキャリブレーションステップを含む,データをキャプチャするプロフェッショナルなマルチビューシステムを構築した。
論文参考訳（メタデータ） (2023-07-19T17:58:03Z)
3D Segmentation of Humans in Point Clouds with Synthetic Data [21.518379214837278]
本稿では,3次元人間の意味的セグメンテーション,インスタンスセグメンテーション,複数人体部分セグメンテーションの課題を提案する。実際の3Dシーンと相互作用する合成人間のトレーニングデータを生成するためのフレームワークを提案する。また,新しいトランスフォーマーモデルであるHuman3Dを提案する。
論文参考訳（メタデータ） (2022-12-01T18:59:21Z)
Playing for 3D Human Recovery [88.91567909861442]
本研究では,自動注釈付けされた3Dグラウンド真理でビデオゲームをプレイすることで,膨大な人間のシーケンスを得る。具体的には,GTA-Vゲームエンジンで生成された大規模3次元人文データセットであるGTA-Humanをコントリビュートする。 GTA-Humanで訓練された単純なフレームベースのベースラインは、より高度な手法よりも大きなマージンで優れている。
論文参考訳（メタデータ） (2021-10-14T17:49:42Z)
HUMBI: A Large Multiview Dataset of Human Body Expressions and Benchmark Challenge [33.26419876973344]
本稿では,人体表現を自然着色で表現するHUMBIという大規模マルチビューデータセットを提案する。 107個の同期HDカメラは、性別、民族、年齢、スタイルにまたがる772個の特徴のある被写体を撮影するために使用される。 3次元メッシュモデルを用いて高忠実度ボディ表現を再構成し、ビュー特有の外観を表現する。
論文参考訳（メタデータ） (2021-09-30T23:19:25Z)
S3: Neural Shape, Skeleton, and Skinning Fields for 3D Human Modeling [103.65625425020129]
歩行者の形状、ポーズ、皮膚の重みを、データから直接学習する神経暗黙関数として表現します。各種データセットに対するアプローチの有効性を実証し,既存の最先端手法よりも再現性が優れていることを示す。
論文参考訳（メタデータ） (2021-01-17T02:16:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。