論文の概要: HUMAN4D: A Human-Centric Multimodal Dataset for Motions and Immersive
Media
- arxiv url: http://arxiv.org/abs/2110.07235v1
- Date: Thu, 14 Oct 2021 09:03:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-16 01:40:53.440747
- Title: HUMAN4D: A Human-Centric Multimodal Dataset for Motions and Immersive
Media
- Title(参考訳): HUMAN4D:モーションと没入型メディアのための人間中心マルチモーダルデータセット
- Authors: nargyros Chatzitofis, Leonidas Saroglou, Prodromos Boutis, Petros
Drakoulis, Nikolaos Zioulis, Shishir Subramanyam, Bart Kevelham, Caecilia
Charbonnier, Pablo Cesar, Dimitrios Zarpalas, Stefanos Kollias, Petros Daras
- Abstract要約: HUMAN4Dは大規模かつマルチモーダルな4Dデータセットで、同時にキャプチャされたさまざまな人間の活動を含む。
我々はHUMAN4Dによる最新の人間のポーズ推定と3Dポーズ推定手法を用いてベンチマークを行う。
- 参考スコア(独自算出の注目度): 16.711606354731533
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce HUMAN4D, a large and multimodal 4D dataset that contains a
variety of human activities simultaneously captured by a professional
marker-based MoCap, a volumetric capture and an audio recording system. By
capturing 2 female and $2$ male professional actors performing various
full-body movements and expressions, HUMAN4D provides a diverse set of motions
and poses encountered as part of single- and multi-person daily, physical and
social activities (jumping, dancing, etc.), along with multi-RGBD (mRGBD),
volumetric and audio data. Despite the existence of multi-view color datasets
captured with the use of hardware (HW) synchronization, to the best of our
knowledge, HUMAN4D is the first and only public resource that provides
volumetric depth maps with high synchronization precision due to the use of
intra- and inter-sensor HW-SYNC. Moreover, a spatio-temporally aligned scanned
and rigged 3D character complements HUMAN4D to enable joint research on
time-varying and high-quality dynamic meshes. We provide evaluation baselines
by benchmarking HUMAN4D with state-of-the-art human pose estimation and 3D
compression methods. For the former, we apply 2D and 3D pose estimation
algorithms both on single- and multi-view data cues. For the latter, we
benchmark open-source 3D codecs on volumetric data respecting online volumetric
video encoding and steady bit-rates. Furthermore, qualitative and quantitative
visual comparison between mesh-based volumetric data reconstructed in different
qualities showcases the available options with respect to 4D representations.
HUMAN4D is introduced to the computer vision and graphics research communities
to enable joint research on spatio-temporally aligned pose, volumetric, mRGBD
and audio data cues. The dataset and its code are available
https://tofis.github.io/myurls/human4d.
- Abstract(参考訳): HUMAN4Dは大規模でマルチモーダルな4Dデータセットで、プロのマーカーベースのMoCap、ボリュームキャプチャ、オーディオ記録システムによって同時にキャプチャされるさまざまな人間の活動を含む。
HUMAN4Dは、2人の女性と2ドルの男性プロの俳優がさまざまなフルボディの動きや表情を演じ、多彩な動きとポーズを1対1、多対1の日常的、身体的、社会的活動(ジャンピング、ダンスなど)の一部として、マルチRGBD(mRGBD)、ボリューム、オーディオデータと共に提供する。
ハードウェア(HW)同期を用いた多視点カラーデータセットの存在にもかかわらず、私たちの知る限り、HUMAN4Dは、センサ内およびセンサ間HW-SYNCの使用により、高い同期精度でボリューム深度マップを提供する最初の、かつ唯一の公開リソースである。
さらに、時空間整列された3Dキャラクタは、HUMAN4Dを補完し、時間変化と高品質の動的メッシュに関する共同研究を可能にする。
本研究では,最先端のポーズ推定と3次元圧縮手法を用いたhuman4dベンチマークによる評価ベースラインを提供する。
前者の場合、2次元および3次元ポーズ推定アルゴリズムを単視点および多視点データキューに適用する。
後者については、オンラインボリュームビデオエンコーディングと定常ビットレートに関するボリュームデータに、オープンソースの3dコーデックをベンチマークします。
さらに、異なる品質で再構成されたメッシュベースのボリュームデータの質的かつ定量的な比較は、4次元表現に関して利用可能な選択肢を示している。
HUMAN4Dは、時空間的なポーズ、ボリューム、mRGBD、オーディオデータキューに関する共同研究を可能にするために、コンピュータビジョンとグラフィック研究コミュニティに導入された。
データセットとそのコードはhttps://tofis.github.io/myurls/human4dで入手できる。
関連論文リスト
- Harmony4D: A Video Dataset for In-The-Wild Close Human Interactions [27.677520981665012]
Harmony4Dは、レスリング、ダンス、MMAなどのフィールド内アクティビティを特徴とする人間と人間のインタラクションのためのデータセットである。
我々は、フレキシブルなマルチビューキャプチャシステムを用いて、これらのダイナミックなアクティビティを記録し、人間検出、追跡、2D/3Dポーズ推定、および密接な相互作用のある被験者のためのメッシュ回復のためのアノテーションを提供する。
論文 参考訳(メタデータ) (2024-10-27T00:05:15Z) - Towards Precise 3D Human Pose Estimation with Multi-Perspective Spatial-Temporal Relational Transformers [28.38686299271394]
人間のポーズ検出のための3次元シーケンス・ツー・シーケンス(seq2seq)フレームワークを提案する。
まず、空間モジュールは人物のポーズ特徴を画像内コンテンツで表現し、フレーム・イメージ関係モジュールは時間的関係を抽出する。
提案手法は,一般的な3次元ポーズ検出データセットであるHuman3.6Mを用いて評価する。
論文 参考訳(メタデータ) (2024-01-30T03:00:25Z) - HMP: Hand Motion Priors for Pose and Shape Estimation from Video [52.39020275278984]
我々は,多種多様な高品質の手の動きを特徴とするAMASSデータセットに基づいて,手動に特有な生成動作を開発する。
頑健な動きの統合は、特に隠蔽されたシナリオにおいて、パフォーマンスを著しく向上させる。
HO3DおよびDexYCBデータセットの質的および定量的評価により,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2023-12-27T22:35:33Z) - DNA-Rendering: A Diverse Neural Actor Repository for High-Fidelity
Human-centric Rendering [126.00165445599764]
ニューラルアクターレンダリングのための人間のパフォーマンスデータの大規模かつ高忠実なリポジトリであるDNAレンダリングを提案する。
我々のデータセットには、1500人以上の被験者、5000のモーションシーケンス、67.5Mのフレームのデータボリュームが含まれています。
我々は,最大解像度4096 x 3000の60個の同期カメラと15fpsの速度,ステルカメラキャリブレーションステップを含む,データをキャプチャするプロフェッショナルなマルチビューシステムを構築した。
論文 参考訳(メタデータ) (2023-07-19T17:58:03Z) - 4DHumanOutfit: a multi-subject 4D dataset of human motion sequences in
varying outfits exhibiting large displacements [19.538122092286894]
4DHumanOutfitは、さまざまなアクター、衣装、動きの、高密度にサンプリングされた時間的4D人間のデータのデータセットを提示する。
データセットは、アイデンティティ、衣装、動きを伴う3つの軸に沿って4次元のモーションシーケンスを含むデータのキューブとして見ることができます。
このリッチデータセットは、デジタルヒューマンの処理と作成に多くの潜在的な応用がある。
論文 参考訳(メタデータ) (2023-06-12T19:59:27Z) - Scene-Aware 3D Multi-Human Motion Capture from a Single Camera [83.06768487435818]
静止カメラで記録された1枚のRGBビデオから、シーン内の複数の人間の3次元位置を推定し、その身体形状と調音を推定する問題を考察する。
コンピュータビジョンの最近の進歩を,2次元の人体関節,関節角度,正規化不均等マップ,人間のセグメンテーションマスクなど,様々なモダリティのための大規模事前訓練モデルを用いて活用している。
特に,2次元の関節と関節角度を用いた正規化不均等予測から,シーン深度とユニークな人格尺度を推定する。
論文 参考訳(メタデータ) (2023-01-12T18:01:28Z) - FLAG3D: A 3D Fitness Activity Dataset with Language Instruction [89.60371681477791]
FLAG3Dは,60カテゴリの180Kシーケンスを含む言語命令付き大規模3Dフィットネスアクティビティデータセットである。
FLAG3Dは、クロスドメインなヒューマンアクション認識、動的ヒューマンメッシュリカバリ、言語誘導型ヒューマンアクション生成など、さまざまな課題に対して大きな研究価値を提供する。
論文 参考訳(メタデータ) (2022-12-09T02:33:33Z) - LoRD: Local 4D Implicit Representation for High-Fidelity Dynamic Human
Modeling [69.56581851211841]
そこで我々は,LoRDという,動的に衣を着る人間の局所的な4D暗黙表現を提案する。
私たちの重要な洞察は、ネットワークがローカルな部分レベルの表現の潜在コードを学ぶように促すことです。
LoRDは、4D人間を表現する能力が強く、実用上の最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2022-08-18T03:49:44Z) - HuMMan: Multi-Modal 4D Human Dataset for Versatile Sensing and Modeling [83.57675975092496]
HuMManは、1000人の被験者、400kシーケンス、60Mフレームからなる大規模なマルチモーダル4Dデータセットである。
1)カラーイメージ、ポイントクラウド、キーポイント、SMPLパラメータ、テクスチャメッシュを含むマルチモーダルデータとアノテーション。
論文 参考訳(メタデータ) (2022-04-28T17:54:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。