論文の概要: LiCamPose: Combining Multi-View LiDAR and RGB Cameras for Robust Single-frame 3D Human Pose Estimation
- arxiv url: http://arxiv.org/abs/2312.06409v3
- Date: Tue, 16 Jul 2024 09:30:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-17 23:50:29.458683
- Title: LiCamPose: Combining Multi-View LiDAR and RGB Cameras for Robust Single-frame 3D Human Pose Estimation
- Title(参考訳): LiCamPose: マルチビューLiDARとRGBカメラの組み合わせによるロバストな1フレーム3D人物位置推定
- Authors: Zhiyu Pan, Zhicheng Zhong, Wenxuan Guo, Yifan Chen, Jianjiang Feng, Jie Zhou,
- Abstract要約: LiCamPoseは、マルチビューRGBとスパースポイントクラウド情報を統合して、単一のフレームで堅牢な3Dポーズを推定するパイプラインである。
LiCamPoseは、2つの公開データセット、1つの合成データセット、1つの挑戦的な自己収集データセットを含む4つのデータセットで評価されている。
- 参考スコア(独自算出の注目度): 31.651300414497822
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Several methods have been proposed to estimate 3D human pose from multi-view images, achieving satisfactory performance on public datasets collected under relatively simple conditions. However, there are limited approaches studying extracting 3D human skeletons from multimodal inputs, such as RGB and point cloud data. To address this gap, we introduce LiCamPose, a pipeline that integrates multi-view RGB and sparse point cloud information to estimate robust 3D human poses via single frame. We demonstrate the effectiveness of the volumetric architecture in combining these modalities. Furthermore, to circumvent the need for manually labeled 3D human pose annotations, we develop a synthetic dataset generator for pretraining and design an unsupervised domain adaptation strategy to train a 3D human pose estimator without manual annotations. To validate the generalization capability of our method, LiCamPose is evaluated on four datasets, including two public datasets, one synthetic dataset, and one challenging self-collected dataset named BasketBall, covering diverse scenarios. The results demonstrate that LiCamPose exhibits great generalization performance and significant application potential. The code, generator, and datasets will be made available upon acceptance of this paper.
- Abstract(参考訳): 多視点画像から3次元人間のポーズを推定する手法が提案されている。
しかし、RGBやポイントクラウドデータといったマルチモーダル入力から3次元人間の骨格を抽出する手法は限られている。
このギャップに対処するために,マルチビューRGBとスパースポイントクラウド情報を統合するパイプラインLiCamPoseを導入する。
これらのモダリティを組み合わせる上で,ボリュームアーキテクチャの有効性を実証する。
さらに,手動でラベル付けされた3次元ポーズアノテーションの必要性を回避するため,手動アノテーションを使わずに3次元ポーズ推定器を訓練するための教師なしドメイン適応戦略を事前訓練・設計するための合成データセット生成器を開発した。
提案手法の一般化能力を検証するため,LiCamPoseは2つの公開データセット,1つの合成データセット,BasketBallという名の挑戦的な自己収集データセットを含む4つのデータセットで評価され,多様なシナリオをカバーする。
その結果,LiCamPoseは高い一般化性能とアプリケーションの可能性を示した。
この論文を受け入れると、コード、ジェネレータ、データセットが利用可能になる。
関連論文リスト
- Neural Localizer Fields for Continuous 3D Human Pose and Shape Estimation [32.30055363306321]
本研究では、異なる人間のポーズや形状に関連したタスクやデータセットをシームレスに統一するパラダイムを提案する。
私たちの定式化は、トレーニングとテスト時間の両方で、人間の体積の任意の点を問う能力に重点を置いています。
メッシュや2D/3Dスケルトン,密度の高いポーズなど,さまざまな注釈付きデータソースを,変換することなく自然に利用することが可能です。
論文 参考訳(メタデータ) (2024-07-10T10:44:18Z) - UPose3D: Uncertainty-Aware 3D Human Pose Estimation with Cross-View and Temporal Cues [55.69339788566899]
UPose3Dは多視点人間のポーズ推定のための新しいアプローチである。
直接的な3Dアノテーションを必要とせずに、堅牢性と柔軟性を向上させる。
論文 参考訳(メタデータ) (2024-04-23T00:18:00Z) - 3D Human Reconstruction in the Wild with Synthetic Data Using Generative Models [52.96248836582542]
本稿では,人間の画像とそれに対応する3Dメッシュアノテーションをシームレスに生成できるHumanWildという,最近の拡散モデルに基づく効果的なアプローチを提案する。
生成モデルを排他的に活用することにより,大規模な人体画像と高品質なアノテーションを生成し,実世界のデータ収集の必要性を解消する。
論文 参考訳(メタデータ) (2024-03-17T06:31:16Z) - Towards Precise 3D Human Pose Estimation with Multi-Perspective Spatial-Temporal Relational Transformers [28.38686299271394]
人間のポーズ検出のための3次元シーケンス・ツー・シーケンス(seq2seq)フレームワークを提案する。
まず、空間モジュールは人物のポーズ特徴を画像内コンテンツで表現し、フレーム・イメージ関係モジュールは時間的関係を抽出する。
提案手法は,一般的な3次元ポーズ検出データセットであるHuman3.6Mを用いて評価する。
論文 参考訳(メタデータ) (2024-01-30T03:00:25Z) - Human-M3: A Multi-view Multi-modal Dataset for 3D Human Pose Estimation
in Outdoor Scenes [35.90042512490975]
Human-M3は、屋外のマルチモーダルマルチビューヒューマンポーズデータベースである。
屋外シーンのマルチビューRGBビデオだけでなく、対応するポイントクラウドも含んでいる。
正確な人間のポーズを得るために,マルチモーダルデータ入力に基づくアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-08-01T15:55:41Z) - Weakly Supervised 3D Multi-person Pose Estimation for Large-scale Scenes
based on Monocular Camera and Single LiDAR [41.39277657279448]
大規模シーンにおける3次元多人数ポーズ推定のためのモノクロカメラとLiDARによる単一手法を提案する。
具体的には,画像や点クラウドを含むマルチモーダル入力データを活用するための効果的な融合戦略を設計する。
本手法は, 点雲の固有な幾何学的制約を自己監督のために利用し, 画像上の2次元キーポイントを弱監督のために利用する。
論文 参考訳(メタデータ) (2022-11-30T12:50:40Z) - UltraPose: Synthesizing Dense Pose with 1 Billion Points by Human-body
Decoupling 3D Model [58.70130563417079]
我々は,身体の発生を自由に制御できる,一連の分離されたパラメータを持つ新しい3次元人体モデルを導入する。
既存の手動注釈付きDensePose-COCOデータセットと比較して、合成されたUltraPoseは、アノテーションのコストと誤差を伴わずに、超高密度な画像-地上対応を持つ。
論文 参考訳(メタデータ) (2021-10-28T16:24:55Z) - VoxelTrack: Multi-Person 3D Human Pose Estimation and Tracking in the
Wild [98.69191256693703]
本稿では,VoxelTrackを用いて,多人数の3次元ポーズ推定と,広義のベースラインで分離された少数のカメラからの追跡を行う。
マルチブランチネットワークを使用して、環境中のすべての人に3Dポーズと再識別機能(Re-ID)を共同で推定する。
これは、Shelf、Campus、CMU Panopticの3つの公開データセットに対して、最先端の手法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2021-08-05T08:35:44Z) - Self-Supervised 3D Human Pose Estimation via Part Guided Novel Image
Synthesis [72.34794624243281]
ラベルのないビデオフレームからバリエーションを分離する自己教師付き学習フレームワークを提案する。
3Dポーズと空間部分マップの表現ギャップを埋める、微分可能な形式化により、多様なカメラの動きを持つビデオで操作できる。
論文 参考訳(メタデータ) (2020-04-09T07:55:01Z) - Weakly-Supervised 3D Human Pose Learning via Multi-view Images in the
Wild [101.70320427145388]
本稿では、3Dアノテーションを必要としない弱教師付きアプローチを提案し、ラベルのないマルチビューデータから3Dポーズを推定する。
提案手法を2つの大規模データセット上で評価する。
論文 参考訳(メタデータ) (2020-03-17T08:47:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。