論文の概要: PointVoxel: A Simple and Effective Pipeline for Multi-View Multi-Modal
3D Human Pose Estimation
- arxiv url: http://arxiv.org/abs/2312.06409v2
- Date: Tue, 12 Dec 2023 04:37:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-13 12:31:29.050692
- Title: PointVoxel: A Simple and Effective Pipeline for Multi-View Multi-Modal
3D Human Pose Estimation
- Title(参考訳): PointVoxel: マルチビューマルチモーダル3次元人物位置推定のためのシンプルで効果的なパイプライン
- Authors: Zhiyu Pan, Zhicheng Zhong, Wenxuan Guo, Yifan Chen, Jianjiang Feng,
Jie Zhou
- Abstract要約: 我々は、マルチビューRGBとポイントクラウド入力を融合して3D人間のポーズを得るPointVoxelと呼ばれるパイプラインを開発した。
難シナリオにおける3次元ポーズラベルのアノテートという課題を克服するため,我々は合成データセット生成装置を開発した。
- 参考スコア(独自算出の注目度): 33.53821868456018
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, several methods have been proposed to estimate 3D human pose from
multi-view images and achieved impressive performance on public datasets
collected in relatively easy scenarios. However, there are limited approaches
for extracting 3D human skeletons from multimodal inputs (e.g., RGB and
pointcloud) that can enhance the accuracy of predicting 3D poses in challenging
situations. We fill this gap by introducing a pipeline called PointVoxel that
fuses multi-view RGB and pointcloud inputs to obtain 3D human poses. We
demonstrate that volumetric representation is an effective architecture for
integrating these different modalities. Moreover, in order to overcome the
challenges of annotating 3D human pose labels in difficult scenarios, we
develop a synthetic dataset generator for pretraining and design an
unsupervised domain adaptation strategy so that we can obtain a well-trained 3D
human pose estimator without using any manual annotations. We evaluate our
approach on four datasets (two public datasets, one synthetic dataset, and one
challenging dataset named BasketBall collected by ourselves), showing promising
results. The code and dataset will be released soon.
- Abstract(参考訳): 近年,マルチビュー画像から3次元人物像を推定する手法がいくつか提案されている。
しかし、複数のモーダル入力(rgbやpointcloudなど)から3d人間の骨格を抽出するアプローチは限られており、困難な状況下での3dポーズの予測精度を高めることができる。
このギャップを埋めるために、マルチビューRGBとポイントクラウド入力を融合して3D人間のポーズを得るPointVoxelというパイプラインを導入する。
体積表現はこれらの異なるモダリティを統合するのに有効なアーキテクチャであることを示す。
さらに,難しいシナリオで3次元人間のポーズラベルに注釈を付けるという課題を克服するために,教師なしのドメイン適応戦略を事前学習し設計するための合成データセットジェネレータを開発し,手作業のアノテーションを使わずに十分に訓練された3次元人物ポーズ推定器を得る。
我々は,4つのデータセット(公開データセット2つ,合成データセット1つ,BasketBallという名前の挑戦データセット1つ)に対するアプローチを評価し,有望な結果を示した。
コードとデータセットは間もなくリリースされる。
関連論文リスト
- Human-M3: A Multi-view Multi-modal Dataset for 3D Human Pose Estimation
in Outdoor Scenes [35.90042512490975]
Human-M3は、屋外のマルチモーダルマルチビューヒューマンポーズデータベースである。
屋外シーンのマルチビューRGBビデオだけでなく、対応するポイントクラウドも含んでいる。
正確な人間のポーズを得るために,マルチモーダルデータ入力に基づくアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-08-01T15:55:41Z) - Learning 3D Human Pose Estimation from Dozens of Datasets using a
Geometry-Aware Autoencoder to Bridge Between Skeleton Formats [80.12253291709673]
本稿では,アフィン結合型オートエンコーダ(ACAE)法を提案する。
このアプローチは、28人の人間のポーズデータセットを使って1つのモデルを監督する、極端なマルチデータセット体制にスケールします。
論文 参考訳(メタデータ) (2022-12-29T22:22:49Z) - Decanus to Legatus: Synthetic training for 2D-3D human pose lifting [26.108023246654646]
10個の手作り3Dポーズ(Decanus)に基づく3Dポーズ分布から無限個の合成人間のポーズ(Legatus)を生成するアルゴリズムを提案する。
この結果から,特定データセットの実際のデータを用いた手法に匹敵する3次元ポーズ推定性能を,ゼロショット設定で実現し,フレームワークの可能性を示した。
論文 参考訳(メタデータ) (2022-10-05T13:10:19Z) - VoxelTrack: Multi-Person 3D Human Pose Estimation and Tracking in the
Wild [98.69191256693703]
本稿では,VoxelTrackを用いて,多人数の3次元ポーズ推定と,広義のベースラインで分離された少数のカメラからの追跡を行う。
マルチブランチネットワークを使用して、環境中のすべての人に3Dポーズと再識別機能(Re-ID)を共同で推定する。
これは、Shelf、Campus、CMU Panopticの3つの公開データセットに対して、最先端の手法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2021-08-05T08:35:44Z) - Multi-View Multi-Person 3D Pose Estimation with Plane Sweep Stereo [71.59494156155309]
既存のマルチビュー3Dポーズ推定手法は、複数のカメラビューからグループ2Dポーズ検出に対するクロスビュー対応を明確に確立する。
平面スイープステレオに基づくマルチビュー3Dポーズ推定手法を提案し、クロスビュー融合と3Dポーズ再構築を1ショットで共同で解決します。
論文 参考訳(メタデータ) (2021-04-06T03:49:35Z) - PandaNet : Anchor-Based Single-Shot Multi-Person 3D Pose Estimation [35.791868530073955]
PandaNetは、新しいシングルショット、アンカーベース、マルチパーソナライズされた3Dポーズ推定手法である。
提案モデルは境界ボックス検出を行い,検出者毎に2次元および3次元ポーズ回帰を1回のフォワードパスに設定する。
ネットワークが各バウンディングボックスの完全な3Dポーズを予測するため、関節を再グループ化するための後処理は不要である。
論文 参考訳(メタデータ) (2021-01-07T10:32:17Z) - Cascaded deep monocular 3D human pose estimation with evolutionary
training data [76.3478675752847]
深層表現学習は単眼の3次元ポーズ推定において顕著な精度を達成した。
本稿では,大量のトレーニングデータに対してスケーラブルな新しいデータ拡張手法を提案する。
本手法は,先行知識に触発された階層的人体表現と合成に基づいて,未知の3次元人体骨格を合成する。
論文 参考訳(メタデータ) (2020-06-14T03:09:52Z) - Multi-Person Absolute 3D Human Pose Estimation with Weak Depth
Supervision [0.0]
弱教師付きでRGB-D画像を追加してトレーニングできるネットワークを導入する。
我々のアルゴリズムは、単眼で、多人、絶対的なポーズ推定器である。
アルゴリズムを複数のベンチマークで評価し,一貫した誤差率の向上を示した。
論文 参考訳(メタデータ) (2020-04-08T13:29:22Z) - Exemplar Fine-Tuning for 3D Human Model Fitting Towards In-the-Wild 3D
Human Pose Estimation [107.07047303858664]
3次元の地平線アノテーションを持つ大規模な人的データセットは、野生では入手が困難である。
既存の2Dデータセットを高品質な3Dポーズマッチングで拡張することで、この問題に対処する。
結果として得られるアノテーションは、3Dのプロシージャネットワークをスクラッチからトレーニングするのに十分である。
論文 参考訳(メタデータ) (2020-04-07T20:21:18Z) - Weakly-Supervised 3D Human Pose Learning via Multi-view Images in the
Wild [101.70320427145388]
本稿では、3Dアノテーションを必要としない弱教師付きアプローチを提案し、ラベルのないマルチビューデータから3Dポーズを推定する。
提案手法を2つの大規模データセット上で評価する。
論文 参考訳(メタデータ) (2020-03-17T08:47:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。