論文の概要: Direct Multi-view Multi-person 3D Pose Estimation
- arxiv url: http://arxiv.org/abs/2111.04076v1
- Date: Sun, 7 Nov 2021 13:09:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-09 15:52:20.572962
- Title: Direct Multi-view Multi-person 3D Pose Estimation
- Title(参考訳): 直接多視点マルチパーソン3次元姿勢推定
- Authors: Tao Wang, Jianfeng Zhang, Yujun Cai, Shuicheng Yan, Jiashi Feng
- Abstract要約: マルチビュー画像からマルチパーソン3Dポーズを推定するためのMulti-view Pose Transformer(MvP)を提案する。
MvPは、中間タスクに頼ることなく、複数の人物の3Dポーズを直接クリーンで効率的な方法で回帰する。
我々は,MvPモデルがより効率的でありながら,いくつかのベンチマークにおいて最先端の手法よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 138.48139701871213
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Multi-view Pose transformer (MvP) for estimating multi-person 3D
poses from multi-view images. Instead of estimating 3D joint locations from
costly volumetric representation or reconstructing the per-person 3D pose from
multiple detected 2D poses as in previous methods, MvP directly regresses the
multi-person 3D poses in a clean and efficient way, without relying on
intermediate tasks. Specifically, MvP represents skeleton joints as learnable
query embeddings and let them progressively attend to and reason over the
multi-view information from the input images to directly regress the actual 3D
joint locations. To improve the accuracy of such a simple pipeline, MvP
presents a hierarchical scheme to concisely represent query embeddings of
multi-person skeleton joints and introduces an input-dependent query adaptation
approach. Further, MvP designs a novel geometrically guided attention
mechanism, called projective attention, to more precisely fuse the cross-view
information for each joint. MvP also introduces a RayConv operation to
integrate the view-dependent camera geometry into the feature representations
for augmenting the projective attention. We show experimentally that our MvP
model outperforms the state-of-the-art methods on several benchmarks while
being much more efficient. Notably, it achieves 92.3% AP25 on the challenging
Panoptic dataset, improving upon the previous best approach [36] by 9.8%. MvP
is general and also extendable to recovering human mesh represented by the SMPL
model, thus useful for modeling multi-person body shapes. Code and models are
available at https://github.com/sail-sg/mvp.
- Abstract(参考訳): マルチビュー画像からマルチパーソン3Dポーズを推定するためのMulti-view Pose Transformer(MvP)を提案する。
コストのかかる体積表現から3D関節位置を推定したり、従来の方法のように検出された複数の2Dポーズから人当たりの3Dポーズを再構成する代わりに、MvPは中間タスクに頼ることなく、クリーンで効率的な方法で複数の人ごとの3Dポーズを直接回帰する。
具体的には、MvPはスケルトン関節を学習可能なクエリ埋め込みとして表現し、入力画像からの多視点情報に徐々に参加して、実際の3D関節位置を直接回帰させる。
このような単純なパイプラインの精度を向上させるため、MvPはマルチパーソンスケルトン関節のクエリ埋め込みを簡潔に表現する階層的スキームを提案し、入力依存クエリ適応アプローチを導入する。
さらに、MvPは、各関節のクロスビュー情報をより正確に融合させるために、射影注意と呼ばれる幾何学的に導かれた新しい注意機構を設計する。
MvPはまた、ビュー依存カメラ幾何学を投影注意を増大させる特徴表現に統合するためのRayConv操作も導入している。
我々は,MvPモデルがより効率的でありながら,いくつかのベンチマークにおいて最先端の手法よりも優れていることを示す。
特に、挑戦的なPanopticデータセットで92.3%のAP25を達成し、以前のベストアプローチ[36]を9.8%改善した。
MvPは汎用的でSMPLモデルで表される人間のメッシュの復元にも拡張可能であり、多人体形状のモデリングに有用である。
コードとモデルはhttps://github.com/sail-sg/mvpで入手できる。
関連論文リスト
- PF-LRM: Pose-Free Large Reconstruction Model for Joint Pose and Shape
Prediction [77.89935657608926]
画像から3Dオブジェクトを再構成するためのPF-LRM(Pose-Free Large Restruction Model)を提案する。
PF-LRMは1つのA100 GPU上で1.3秒で相対カメラのポーズを同時に推定する。
論文 参考訳(メタデータ) (2023-11-20T18:57:55Z) - AdaptivePose++: A Powerful Single-Stage Network for Multi-Person Pose
Regression [66.39539141222524]
そこで本研究では,ヒトの部位を適応点として表現し,微細な身体表現法を提案する。
提案するボディ表現では,AdaptivePoseと呼ばれる,コンパクトなシングルステージ多人数ポーズ回帰ネットワークを提供する。
本稿では,AdaptivePoseの有効性を検証するために,2D/3D多人数ポーズ推定タスクにAdaptivePoseを用いる。
論文 参考訳(メタデータ) (2022-10-08T12:54:20Z) - Graph-Based 3D Multi-Person Pose Estimation Using Multi-View Images [79.70127290464514]
我々は,タスクを2つの段階,すなわち人物のローカライゼーションとポーズ推定に分解する。
また,効率的なメッセージパッシングのための3つのタスク固有グラフニューラルネットワークを提案する。
提案手法は,CMU Panoptic と Shelf のデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2021-09-13T11:44:07Z) - Multi-View Multi-Person 3D Pose Estimation with Plane Sweep Stereo [71.59494156155309]
既存のマルチビュー3Dポーズ推定手法は、複数のカメラビューからグループ2Dポーズ検出に対するクロスビュー対応を明確に確立する。
平面スイープステレオに基づくマルチビュー3Dポーズ推定手法を提案し、クロスビュー融合と3Dポーズ再構築を1ショットで共同で解決します。
論文 参考訳(メタデータ) (2021-04-06T03:49:35Z) - Unsupervised Cross-Modal Alignment for Multi-Person 3D Pose Estimation [52.94078950641959]
マルチパーソン・ヒューマン・ポーズ推定のためのデプロイフレンドリーで高速なボトムアップ・フレームワークを提案する。
我々は,人物の位置を対応する3Dポーズ表現と統一する,多人数の3Dポーズのニューラル表現を採用する。
ペア化された2Dまたは3Dポーズアノテーションが利用できない実用的な配置パラダイムを提案する。
論文 参考訳(メタデータ) (2020-08-04T07:54:25Z) - Multi-View Matching (MVM): Facilitating Multi-Person 3D Pose Estimation
Learning with Action-Frozen People Video [38.63662549684785]
MVM法は大規模ビデオデータセットから信頼性の高い3次元ポーズを生成する。
マルチパーソン3Dポーズ推定のための入力として,1つの画像を取るニューラルネットワークを訓練する。
論文 参考訳(メタデータ) (2020-04-11T01:09:50Z) - Light3DPose: Real-time Multi-Person 3D PoseEstimation from Multiple
Views [5.510992382274774]
いくつかのキャリブレーションされたカメラビューから複数の人物の3次元ポーズ推定を行う手法を提案する。
我々のアーキテクチャは、2次元ポーズ推定器のバックボーンから特徴マップを3次元シーンの包括的表現に集約する。
提案手法は本質的に効率的であり, 純粋なボトムアップ手法として, 現場の人数から計算的に独立している。
論文 参考訳(メタデータ) (2020-04-06T14:12:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。