論文の概要: Human-M3: A Multi-view Multi-modal Dataset for 3D Human Pose Estimation
in Outdoor Scenes
- arxiv url: http://arxiv.org/abs/2308.00628v2
- Date: Sun, 6 Aug 2023 14:47:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-08 20:07:14.233978
- Title: Human-M3: A Multi-view Multi-modal Dataset for 3D Human Pose Estimation
in Outdoor Scenes
- Title(参考訳): human-m3:屋外シーンにおける3次元ポーズ推定のためのマルチビューマルチモーダルデータセット
- Authors: Bohao Fan, Siqi Wang, Wenxuan Guo, Wenzhao Zheng, Jianjiang Feng, Jie
Zhou
- Abstract要約: Human-M3は、屋外のマルチモーダルマルチビューヒューマンポーズデータベースである。
屋外シーンのマルチビューRGBビデオだけでなく、対応するポイントクラウドも含んでいる。
正確な人間のポーズを得るために,マルチモーダルデータ入力に基づくアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 35.90042512490975
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D human pose estimation in outdoor environments has garnered increasing
attention recently. However, prevalent 3D human pose datasets pertaining to
outdoor scenes lack diversity, as they predominantly utilize only one type of
modality (RGB image or pointcloud), and often feature only one individual
within each scene. This limited scope of dataset infrastructure considerably
hinders the variability of available data. In this article, we propose
Human-M3, an outdoor multi-modal multi-view multi-person human pose database
which includes not only multi-view RGB videos of outdoor scenes but also
corresponding pointclouds. In order to obtain accurate human poses, we propose
an algorithm based on multi-modal data input to generate ground truth
annotation. This benefits from robust pointcloud detection and tracking, which
solves the problem of inaccurate human localization and matching ambiguity that
may exist in previous multi-view RGB videos in outdoor multi-person scenes, and
generates reliable ground truth annotations. Evaluation of multiple different
modalities algorithms has shown that this database is challenging and suitable
for future research. Furthermore, we propose a 3D human pose estimation
algorithm based on multi-modal data input, which demonstrates the advantages of
multi-modal data input for 3D human pose estimation. Code and data will be
released on https://github.com/soullessrobot/Human-M3-Dataset.
- Abstract(参考訳): 屋外環境における3次元ポーズ推定は近年注目を集めている。
しかし、屋外シーンに関連する一般的な3Dポーズデータセットには多様性が欠けており、主に1種類のモダリティ(RGB画像またはポイントクラウド)しか利用せず、各シーンに1人だけを特徴付けることが多い。
この限られたデータセットインフラストラクチャの範囲は、利用可能なデータの変動をかなり妨げます。
本稿では、屋外シーンのマルチビューRGBビデオだけでなく、対応するポイントクラウドを含む、屋外マルチモーダルマルチビューマルチパーソンヒューマンポーズデータベースであるHuman-M3を提案する。
正確な人間のポーズを得るために,マルチモーダルデータ入力に基づくアルゴリズムを提案する。
これは、屋外のマルチパーソンシーンにおける以前のマルチビューrgbビデオに存在する不正確な人間のローカライズと一致したあいまいさを解消し、信頼できる地上真理アノテーションを生成するロバストなpointcloud検出と追跡の恩恵を受ける。
複数の異なるモダリティアルゴリズムの評価は、このデータベースが将来の研究に挑戦的で適していることを示している。
さらに,マルチモーダルデータ入力に基づく3次元ポーズ推定アルゴリズムを提案し,マルチモーダルデータ入力による3次元ポーズ推定の利点を示す。
コードとデータはhttps://github.com/soullessrobot/Human-M3-Datasetで公開される。
関連論文リスト
- Towards Precise 3D Human Pose Estimation with Multi-Perspective Spatial-Temporal Relational Transformers [28.38686299271394]
人間のポーズ検出のための3次元シーケンス・ツー・シーケンス(seq2seq)フレームワークを提案する。
まず、空間モジュールは人物のポーズ特徴を画像内コンテンツで表現し、フレーム・イメージ関係モジュールは時間的関係を抽出する。
提案手法は,一般的な3次元ポーズ検出データセットであるHuman3.6Mを用いて評価する。
論文 参考訳(メタデータ) (2024-01-30T03:00:25Z) - LiCamPose: Combining Multi-View LiDAR and RGB Cameras for Robust Single-frame 3D Human Pose Estimation [31.651300414497822]
LiCamPoseは、マルチビューRGBとスパースポイントクラウド情報を統合して、単一のフレームで堅牢な3Dポーズを推定するパイプラインである。
LiCamPoseは、2つの公開データセット、1つの合成データセット、1つの挑戦的な自己収集データセットを含む4つのデータセットで評価されている。
論文 参考訳(メタデータ) (2023-12-11T14:30:11Z) - DNA-Rendering: A Diverse Neural Actor Repository for High-Fidelity
Human-centric Rendering [126.00165445599764]
ニューラルアクターレンダリングのための人間のパフォーマンスデータの大規模かつ高忠実なリポジトリであるDNAレンダリングを提案する。
我々のデータセットには、1500人以上の被験者、5000のモーションシーケンス、67.5Mのフレームのデータボリュームが含まれています。
我々は,最大解像度4096 x 3000の60個の同期カメラと15fpsの速度,ステルカメラキャリブレーションステップを含む,データをキャプチャするプロフェッショナルなマルチビューシステムを構築した。
論文 参考訳(メタデータ) (2023-07-19T17:58:03Z) - Scene-Aware 3D Multi-Human Motion Capture from a Single Camera [83.06768487435818]
静止カメラで記録された1枚のRGBビデオから、シーン内の複数の人間の3次元位置を推定し、その身体形状と調音を推定する問題を考察する。
コンピュータビジョンの最近の進歩を,2次元の人体関節,関節角度,正規化不均等マップ,人間のセグメンテーションマスクなど,様々なモダリティのための大規模事前訓練モデルを用いて活用している。
特に,2次元の関節と関節角度を用いた正規化不均等予測から,シーン深度とユニークな人格尺度を推定する。
論文 参考訳(メタデータ) (2023-01-12T18:01:28Z) - Multi-person 3D pose estimation from unlabelled data [2.54990557236581]
シナリオ内の人々の横断的な対応を予測できるグラフニューラルネットワークに基づくモデルを提案する。
また、各人物の3Dポーズを生成するために2Dポイントを利用する多層パーセプトロンも提示する。
論文 参考訳(メタデータ) (2022-12-16T22:03:37Z) - Towards Multimodal Multitask Scene Understanding Models for Indoor
Mobile Agents [49.904531485843464]
本稿では,現実世界の屋内環境におけるラベル付きデータの不十分,あるいは不可能,といった主な課題について論じる。
MMISM (Multi-modality input Multi-task output Indoor Scene Understanding Model) について述べる。
MMISMは、RGB画像だけでなく、スパースライダーポイントを入力と3Dオブジェクト検出、深さ完了、人間のポーズ推定、セマンティックセグメンテーションを出力タスクとみなしている。
MMISMはシングルタスクモデルよりも同等かそれ以上の性能を示す。
論文 参考訳(メタデータ) (2022-09-27T04:49:19Z) - BEHAVE: Dataset and Method for Tracking Human Object Interactions [105.77368488612704]
マルチビューのRGBDフレームとそれに対応する3D SMPLとオブジェクトをアノテートしたアノテートコンタクトに適合させる。
このデータを用いて、自然環境における人間と物体を、容易に使用可能なマルチカメラで共同で追跡できるモデルを学ぶ。
論文 参考訳(メタデータ) (2022-04-14T13:21:19Z) - VoxelTrack: Multi-Person 3D Human Pose Estimation and Tracking in the
Wild [98.69191256693703]
本稿では,VoxelTrackを用いて,多人数の3次元ポーズ推定と,広義のベースラインで分離された少数のカメラからの追跡を行う。
マルチブランチネットワークを使用して、環境中のすべての人に3Dポーズと再識別機能(Re-ID)を共同で推定する。
これは、Shelf、Campus、CMU Panopticの3つの公開データセットに対して、最先端の手法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2021-08-05T08:35:44Z) - PandaNet : Anchor-Based Single-Shot Multi-Person 3D Pose Estimation [35.791868530073955]
PandaNetは、新しいシングルショット、アンカーベース、マルチパーソナライズされた3Dポーズ推定手法である。
提案モデルは境界ボックス検出を行い,検出者毎に2次元および3次元ポーズ回帰を1回のフォワードパスに設定する。
ネットワークが各バウンディングボックスの完全な3Dポーズを予測するため、関節を再グループ化するための後処理は不要である。
論文 参考訳(メタデータ) (2021-01-07T10:32:17Z) - Multi-Person Absolute 3D Human Pose Estimation with Weak Depth
Supervision [0.0]
弱教師付きでRGB-D画像を追加してトレーニングできるネットワークを導入する。
我々のアルゴリズムは、単眼で、多人、絶対的なポーズ推定器である。
アルゴリズムを複数のベンチマークで評価し,一貫した誤差率の向上を示した。
論文 参考訳(メタデータ) (2020-04-08T13:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。