Fugu-MT 論文翻訳(概要): PointVoxel: A Simple and Effective Pipeline for Multi-View Multi-Modal 3D Human Pose Estimation

論文の概要: PointVoxel: A Simple and Effective Pipeline for Multi-View Multi-Modal 3D Human Pose Estimation

arxiv url: http://arxiv.org/abs/2312.06409v2
Date: Tue, 12 Dec 2023 04:37:20 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-13 12:31:29.050692
Title: PointVoxel: A Simple and Effective Pipeline for Multi-View Multi-Modal 3D Human Pose Estimation
Title（参考訳）: PointVoxel: マルチビューマルチモーダル3次元人物位置推定のためのシンプルで効果的なパイプライン
Authors: Zhiyu Pan, Zhicheng Zhong, Wenxuan Guo, Yifan Chen, Jianjiang Feng, Jie Zhou
Abstract要約: 我々は、マルチビューRGBとポイントクラウド入力を融合して3D人間のポーズを得るPointVoxelと呼ばれるパイプラインを開発した。難シナリオにおける3次元ポーズラベルのアノテートという課題を克服するため,我々は合成データセット生成装置を開発した。
参考スコア（独自算出の注目度）: 33.53821868456018
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recently, several methods have been proposed to estimate 3D human pose from multi-view images and achieved impressive performance on public datasets collected in relatively easy scenarios. However, there are limited approaches for extracting 3D human skeletons from multimodal inputs (e.g., RGB and pointcloud) that can enhance the accuracy of predicting 3D poses in challenging situations. We fill this gap by introducing a pipeline called PointVoxel that fuses multi-view RGB and pointcloud inputs to obtain 3D human poses. We demonstrate that volumetric representation is an effective architecture for integrating these different modalities. Moreover, in order to overcome the challenges of annotating 3D human pose labels in difficult scenarios, we develop a synthetic dataset generator for pretraining and design an unsupervised domain adaptation strategy so that we can obtain a well-trained 3D human pose estimator without using any manual annotations. We evaluate our approach on four datasets (two public datasets, one synthetic dataset, and one challenging dataset named BasketBall collected by ourselves), showing promising results. The code and dataset will be released soon.
Abstract（参考訳）: 近年,マルチビュー画像から3次元人物像を推定する手法がいくつか提案されている。しかし、複数のモーダル入力(rgbやpointcloudなど)から3d人間の骨格を抽出するアプローチは限られており、困難な状況下での3dポーズの予測精度を高めることができる。このギャップを埋めるために、マルチビューRGBとポイントクラウド入力を融合して3D人間のポーズを得るPointVoxelというパイプラインを導入する。体積表現はこれらの異なるモダリティを統合するのに有効なアーキテクチャであることを示す。さらに,難しいシナリオで3次元人間のポーズラベルに注釈を付けるという課題を克服するために,教師なしのドメイン適応戦略を事前学習し設計するための合成データセットジェネレータを開発し,手作業のアノテーションを使わずに十分に訓練された3次元人物ポーズ推定器を得る。我々は,4つのデータセット(公開データセット2つ,合成データセット1つ,BasketBallという名前の挑戦データセット1つ)に対するアプローチを評価し,有望な結果を示した。コードとデータセットは間もなくリリースされる。

関連論文リスト

Point2Pose: A Generative Framework for 3D Human Pose Estimation with Multi-View Point Cloud Dataset [6.181093777643576]
3次元人間のポーズ推定は、人体の複雑な幾何学と自己排他的な関節が原因で、いくつかの課題を提起する。我々は、人間のポーズの分布を効果的に調整し、歴史を振り返る枠組みを導入する。複数のモードを含む大規模屋内データセットMVPose3Dを提案する。
論文参考訳（メタデータ） (2025-12-11T06:11:24Z)
SkelSplat: Robust Multi-view 3D Human Pose Estimation with Differentiable Gaussian Rendering [6.706168135661958]
最先端のマルチビュー手法は、大きな注釈付きデータセットをトレーニングすることで、ビューをまたいだ予測を融合させる。 SkelSplatは,ガウスレンダリングに基づく多視点人間のポーズ推定のための新しいフレームワークである。
論文参考訳（メタデータ） (2025-11-11T14:28:43Z)
Neural Localizer Fields for Continuous 3D Human Pose and Shape Estimation [32.30055363306321]
本研究では、異なる人間のポーズや形状に関連したタスクやデータセットをシームレスに統一するパラダイムを提案する。私たちの定式化は、トレーニングとテスト時間の両方で、人間の体積の任意の点を問う能力に重点を置いています。メッシュや2D/3Dスケルトン,密度の高いポーズなど,さまざまな注釈付きデータソースを,変換することなく自然に利用することが可能です。
論文参考訳（メタデータ） (2024-07-10T10:44:18Z)
UPose3D: Uncertainty-Aware 3D Human Pose Estimation with Cross-View and Temporal Cues [55.69339788566899]
UPose3Dは多視点人間のポーズ推定のための新しいアプローチである。直接的な3Dアノテーションを必要とせずに、堅牢性と柔軟性を向上させる。
論文参考訳（メタデータ） (2024-04-23T00:18:00Z)
3D Human Reconstruction in the Wild with Synthetic Data Using Generative Models [52.96248836582542]
本稿では,人間の画像とそれに対応する3Dメッシュアノテーションをシームレスに生成できるHumanWildという,最近の拡散モデルに基づく効果的なアプローチを提案する。生成モデルを排他的に活用することにより,大規模な人体画像と高品質なアノテーションを生成し,実世界のデータ収集の必要性を解消する。
論文参考訳（メタデータ） (2024-03-17T06:31:16Z)
Towards Precise 3D Human Pose Estimation with Multi-Perspective Spatial-Temporal Relational Transformers [28.38686299271394]
人間のポーズ検出のための3次元シーケンス・ツー・シーケンス(seq2seq)フレームワークを提案する。まず、空間モジュールは人物のポーズ特徴を画像内コンテンツで表現し、フレーム・イメージ関係モジュールは時間的関係を抽出する。提案手法は,一般的な3次元ポーズ検出データセットであるHuman3.6Mを用いて評価する。
論文参考訳（メタデータ） (2024-01-30T03:00:25Z)
Human-M3: A Multi-view Multi-modal Dataset for 3D Human Pose Estimation in Outdoor Scenes [35.90042512490975]
Human-M3は、屋外のマルチモーダルマルチビューヒューマンポーズデータベースである。屋外シーンのマルチビューRGBビデオだけでなく、対応するポイントクラウドも含んでいる。正確な人間のポーズを得るために,マルチモーダルデータ入力に基づくアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-08-01T15:55:41Z)
Weakly Supervised 3D Multi-person Pose Estimation for Large-scale Scenes based on Monocular Camera and Single LiDAR [41.39277657279448]
大規模シーンにおける3次元多人数ポーズ推定のためのモノクロカメラとLiDARによる単一手法を提案する。具体的には,画像や点クラウドを含むマルチモーダル入力データを活用するための効果的な融合戦略を設計する。本手法は, 点雲の固有な幾何学的制約を自己監督のために利用し, 画像上の2次元キーポイントを弱監督のために利用する。
論文参考訳（メタデータ） (2022-11-30T12:50:40Z)
UltraPose: Synthesizing Dense Pose with 1 Billion Points by Human-body Decoupling 3D Model [58.70130563417079]
我々は,身体の発生を自由に制御できる,一連の分離されたパラメータを持つ新しい3次元人体モデルを導入する。既存の手動注釈付きDensePose-COCOデータセットと比較して、合成されたUltraPoseは、アノテーションのコストと誤差を伴わずに、超高密度な画像-地上対応を持つ。
論文参考訳（メタデータ） (2021-10-28T16:24:55Z)
VoxelTrack: Multi-Person 3D Human Pose Estimation and Tracking in the Wild [98.69191256693703]
本稿では,VoxelTrackを用いて,多人数の3次元ポーズ推定と,広義のベースラインで分離された少数のカメラからの追跡を行う。マルチブランチネットワークを使用して、環境中のすべての人に3Dポーズと再識別機能(Re-ID)を共同で推定する。これは、Shelf、Campus、CMU Panopticの3つの公開データセットに対して、最先端の手法よりも大きなマージンで優れている。
論文参考訳（メタデータ） (2021-08-05T08:35:44Z)
Self-Supervised 3D Human Pose Estimation via Part Guided Novel Image Synthesis [72.34794624243281]
ラベルのないビデオフレームからバリエーションを分離する自己教師付き学習フレームワークを提案する。 3Dポーズと空間部分マップの表現ギャップを埋める、微分可能な形式化により、多様なカメラの動きを持つビデオで操作できる。
論文参考訳（メタデータ） (2020-04-09T07:55:01Z)
Weakly-Supervised 3D Human Pose Learning via Multi-view Images in the Wild [101.70320427145388]
本稿では、3Dアノテーションを必要としない弱教師付きアプローチを提案し、ラベルのないマルチビューデータから3Dポーズを推定する。提案手法を2つの大規模データセット上で評価する。
論文参考訳（メタデータ） (2020-03-17T08:47:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。