論文の概要: Faster VoxelPose: Real-time 3D Human Pose Estimation by Orthographic
Projection
- arxiv url: http://arxiv.org/abs/2207.10955v1
- Date: Fri, 22 Jul 2022 09:10:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-25 13:09:33.107630
- Title: Faster VoxelPose: Real-time 3D Human Pose Estimation by Orthographic
Projection
- Title(参考訳): 高速なVoxelPose:オーソグラフィー投影によるリアルタイム3次元人物位置推定
- Authors: Hang Ye, Wentao Zhu, Chunyu Wang, Rujie Wu, Yizhou Wang
- Abstract要約: ボクセル法はマルチカメラを用いた多人数3Dポーズ推定において有望な結果を得た。
本稿では,3次元座標面に特徴量を再投影することにより,この問題に対処する高速なVoxelPoseを提案する。
コストのかかる3D-CNNは不要であり、VoxelPoseの速度を10倍に向上させる。
- 参考スコア(独自算出の注目度): 24.964926464973026
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While the voxel-based methods have achieved promising results for
multi-person 3D pose estimation from multi-cameras, they suffer from heavy
computation burdens, especially for large scenes. We present Faster VoxelPose
to address the challenge by re-projecting the feature volume to the three
two-dimensional coordinate planes and estimating X, Y, Z coordinates from them
separately. To that end, we first localize each person by a 3D bounding box by
estimating a 2D box and its height based on the volume features projected to
the xy-plane and z-axis, respectively. Then for each person, we estimate
partial joint coordinates from the three coordinate planes separately which are
then fused to obtain the final 3D pose. The method is free from costly 3D-CNNs
and improves the speed of VoxelPose by ten times and meanwhile achieves
competitive accuracy as the state-of-the-art methods, proving its potential in
real-time applications.
- Abstract(参考訳): ボクセル法はマルチカメラによる多人数3Dポーズ推定において有望な結果を得たが、特に大きなシーンでは計算負荷が重い。
我々は, 3次元座標面に特徴量を再投影し, x, y, z 座標をそれぞれ別々に推定することにより,より高速なvoxelposeを提案する。
そのために,xy平面とz軸に投影された体積特徴に基づいて2dボックスとその高さを推定し,まず3dバウンディングボックスで各人物をローカライズする。
そして、各人物に対して、3つの座標平面から部分的な関節座標を推定し、これらを融合させて最終3次元ポーズを求める。
この手法は高価な3d-cnnsを含まず、voxelposeの速度を10倍に向上させると同時に、最先端の手法としての競合精度を実現し、リアルタイムアプリケーションにおけるその可能性を証明している。
関連論文リスト
- NDC-Scene: Boost Monocular 3D Semantic Scene Completion in Normalized
Device Coordinates Space [77.6067460464962]
SSC(Monocular 3D Semantic Scene Completion)は、単一の画像から複雑なセマンティックスや幾何学的形状を予測し、3D入力を必要としないため、近年大きな注目を集めている。
我々は,3次元空間に投影された2次元特徴の特徴的曖昧さ,3次元畳み込みのPose Ambiguity,深さの異なる3次元畳み込みにおける不均衡など,現在の最先端手法におけるいくつかの重要な問題を明らかにする。
シーン補完ネットワーク(NDC-Scene)を考案し,2を直接拡張する。
論文 参考訳(メタデータ) (2023-09-26T02:09:52Z) - Neural Voting Field for Camera-Space 3D Hand Pose Estimation [106.34750803910714]
3次元暗黙表現に基づく1枚のRGB画像からカメラ空間の3Dハンドポーズ推定のための統一的なフレームワークを提案する。
本稿では,カメラフラストラムにおける高密度3次元ポイントワイド投票により,カメラ空間の3次元ハンドポーズを推定する,新しい3次元高密度回帰手法を提案する。
論文 参考訳(メタデータ) (2023-05-07T16:51:34Z) - SketchSampler: Sketch-based 3D Reconstruction via View-dependent Depth
Sampling [75.957103837167]
1枚のスケッチ画像に基づいて3次元形状を再構成することは、スパースで不規則なスケッチと正規の高密度な3次元形状との間に大きな領域ギャップがあるため困難である。
既存の作品では、3D座標を直接予測するためにスケッチから抽出されたグローバルな特徴を活用しようとするが、通常は入力スケッチに忠実でない細部を失う。
論文 参考訳(メタデータ) (2022-08-14T16:37:51Z) - SPGNet: Spatial Projection Guided 3D Human Pose Estimation in Low
Dimensional Space [14.81199315166042]
本研究では,多次元再投影と教師あり学習を混合した3次元人間のポーズ推定手法を提案する。
提案手法は,データセットHuman3.6Mの推定結果に基づいて,定性的にも定量的にも,多くの最先端手法より優れている。
論文 参考訳(メタデータ) (2022-06-04T00:51:00Z) - VoxelTrack: Multi-Person 3D Human Pose Estimation and Tracking in the
Wild [98.69191256693703]
本稿では,VoxelTrackを用いて,多人数の3次元ポーズ推定と,広義のベースラインで分離された少数のカメラからの追跡を行う。
マルチブランチネットワークを使用して、環境中のすべての人に3Dポーズと再識別機能(Re-ID)を共同で推定する。
これは、Shelf、Campus、CMU Panopticの3つの公開データセットに対して、最先端の手法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2021-08-05T08:35:44Z) - Multi-View Multi-Person 3D Pose Estimation with Plane Sweep Stereo [71.59494156155309]
既存のマルチビュー3Dポーズ推定手法は、複数のカメラビューからグループ2Dポーズ検出に対するクロスビュー対応を明確に確立する。
平面スイープステレオに基づくマルチビュー3Dポーズ推定手法を提案し、クロスビュー融合と3Dポーズ再構築を1ショットで共同で解決します。
論文 参考訳(メタデータ) (2021-04-06T03:49:35Z) - Light3DPose: Real-time Multi-Person 3D PoseEstimation from Multiple
Views [5.510992382274774]
いくつかのキャリブレーションされたカメラビューから複数の人物の3次元ポーズ推定を行う手法を提案する。
我々のアーキテクチャは、2次元ポーズ推定器のバックボーンから特徴マップを3次元シーンの包括的表現に集約する。
提案手法は本質的に効率的であり, 純粋なボトムアップ手法として, 現場の人数から計算的に独立している。
論文 参考訳(メタデータ) (2020-04-06T14:12:19Z) - Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled
Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。
我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。
アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文 参考訳(メタデータ) (2020-04-05T12:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。