論文の概要: Light3DPose: Real-time Multi-Person 3D PoseEstimation from Multiple
Views
- arxiv url: http://arxiv.org/abs/2004.02688v1
- Date: Mon, 6 Apr 2020 14:12:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-16 05:24:35.871086
- Title: Light3DPose: Real-time Multi-Person 3D PoseEstimation from Multiple
Views
- Title(参考訳): Light3DPose:複数視点からのリアルタイムマルチパーソン3D PoseEstimation
- Authors: Alessio Elmi, Davide Mazzini and Pietro Tortella
- Abstract要約: いくつかのキャリブレーションされたカメラビューから複数の人物の3次元ポーズ推定を行う手法を提案する。
我々のアーキテクチャは、2次元ポーズ推定器のバックボーンから特徴マップを3次元シーンの包括的表現に集約する。
提案手法は本質的に効率的であり, 純粋なボトムアップ手法として, 現場の人数から計算的に独立している。
- 参考スコア(独自算出の注目度): 5.510992382274774
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present an approach to perform 3D pose estimation of multiple people from
a few calibrated camera views. Our architecture, leveraging the recently
proposed unprojection layer, aggregates feature-maps from a 2D pose estimator
backbone into a comprehensive representation of the 3D scene. Such intermediate
representation is then elaborated by a fully-convolutional volumetric network
and a decoding stage to extract 3D skeletons with sub-voxel accuracy. Our
method achieves state of the art MPJPE on the CMU Panoptic dataset using a few
unseen views and obtains competitive results even with a single input view. We
also assess the transfer learning capabilities of the model by testing it
against the publicly available Shelf dataset obtaining good performance
metrics. The proposed method is inherently efficient: as a pure bottom-up
approach, it is computationally independent of the number of people in the
scene. Furthermore, even though the computational burden of the 2D part scales
linearly with the number of input views, the overall architecture is able to
exploit a very lightweight 2D backbone which is orders of magnitude faster than
the volumetric counterpart, resulting in fast inference time. The system can
run at 6 FPS, processing up to 10 camera views on a single 1080Ti GPU.
- Abstract(参考訳): いくつかのキャリブレーションされたカメラビューから複数の人物の3次元ポーズ推定を行う手法を提案する。
我々のアーキテクチャは、最近提案された未投影層を利用して、2Dポーズ推定器のバックボーンから特徴マップを3Dシーンの包括的表現に集約する。
このような中間表現は、完全な畳み込みボリュームネットワークと復号段階によって精巧化され、サブボクセル精度で3Dスケルトンを抽出する。
提案手法は,CMU Panoptic データセット上でのMPJPEの状態をいくつかの未知のビューを用いて実現し,単一の入力ビューでも競合する結果を得る。
また、優れたパフォーマンスメトリクスを得るための公開の棚データセットに対してテストすることで、モデルの転送学習能力を評価する。
提案手法は本質的に効率的であり, 純粋なボトムアップ手法として, 現場の人数から計算的に独立している。
さらに、2D部分の計算負荷は入力ビューの数とともに線形にスケールするが、全体的なアーキテクチャは、ボリュームよりも桁違いに高速な非常に軽量な2Dバックボーンを利用することができ、高速な推論時間が得られる。
このシステムは6FPSで動作し、1080TiのGPUで最大10台のカメラビューを処理できる。
関連論文リスト
- EmbodiedSAM: Online Segment Any 3D Thing in Real Time [61.2321497708998]
身体的なタスクは、エージェントが探索と同時に3Dシーンを完全に理解する必要がある。
オンライン、リアルタイム、微粒化、高度に一般化された3D知覚モデルは、必死に必要である。
論文 参考訳(メタデータ) (2024-08-21T17:57:06Z) - UPose3D: Uncertainty-Aware 3D Human Pose Estimation with Cross-View and Temporal Cues [55.69339788566899]
UPose3Dは多視点人間のポーズ推定のための新しいアプローチである。
直接的な3Dアノテーションを必要とせずに、堅牢性と柔軟性を向上させる。
論文 参考訳(メタデータ) (2024-04-23T00:18:00Z) - Uplift and Upsample: Efficient 3D Human Pose Estimation with Uplifting
Transformers [28.586258731448687]
時間的にスパースな2Dポーズシーケンスを操作できるTransformerベースのポーズアップリフト方式を提案する。
本稿では,Transformerブロック内の時間的アップサンプリングにマスク付きトークンモデリングをどのように利用できるかを示す。
我々は,Human3.6M と MPI-INF-3DHP の2つのベンチマークデータセットを用いて評価を行った。
論文 参考訳(メタデータ) (2022-10-12T12:00:56Z) - Direct Multi-view Multi-person 3D Pose Estimation [138.48139701871213]
マルチビュー画像からマルチパーソン3Dポーズを推定するためのMulti-view Pose Transformer(MvP)を提案する。
MvPは、中間タスクに頼ることなく、複数の人物の3Dポーズを直接クリーンで効率的な方法で回帰する。
我々は,MvPモデルがより効率的でありながら,いくつかのベンチマークにおいて最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-07T13:09:20Z) - Shape-aware Multi-Person Pose Estimation from Multi-View Images [47.13919147134315]
提案した粗大なパイプラインは、まず複数のカメラビューからノイズの多い2次元の観測結果を3次元空間に集約する。
最終的なポーズ推定は、高信頼度多視点2次元観測と3次元関節候補をリンクする新しい最適化スキームから得られる。
論文 参考訳(メタデータ) (2021-10-05T20:04:21Z) - Multi-View Multi-Person 3D Pose Estimation with Plane Sweep Stereo [71.59494156155309]
既存のマルチビュー3Dポーズ推定手法は、複数のカメラビューからグループ2Dポーズ検出に対するクロスビュー対応を明確に確立する。
平面スイープステレオに基づくマルチビュー3Dポーズ推定手法を提案し、クロスビュー融合と3Dポーズ再構築を1ショットで共同で解決します。
論文 参考訳(メタデータ) (2021-04-06T03:49:35Z) - Synthetic Training for Monocular Human Mesh Recovery [100.38109761268639]
本稿では,RGB画像と大規模に異なる複数の身体部位の3次元メッシュを推定することを目的とする。
主な課題は、2D画像のすべての身体部分の3Dアノテーションを完備するトレーニングデータがないことである。
本稿では,D2S(Deep-to-scale)投影法を提案する。
論文 参考訳(メタデータ) (2020-10-27T03:31:35Z) - Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled
Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。
我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。
アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文 参考訳(メタデータ) (2020-04-05T12:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。