論文の概要: A Dual-Masked Auto-Encoder for Robust Motion Capture with
Spatial-Temporal Skeletal Token Completion
- arxiv url: http://arxiv.org/abs/2207.07381v1
- Date: Fri, 15 Jul 2022 10:00:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-18 14:14:12.471663
- Title: A Dual-Masked Auto-Encoder for Robust Motion Capture with
Spatial-Temporal Skeletal Token Completion
- Title(参考訳): 時空間骨格トケ完了型ロバストモーションキャプチャ用デュアルマスクオートエンコーダ
- Authors: Junkun Jiang, Jie Chen, Yike Guo
- Abstract要約: 本稿では, 3次元関節を再構成し, 個々の関節を識別するための適応的, アイデンティティを意識した三角測量モジュールを提案する。
次に,D-MAE(Dual-Masked Auto-Encoder)を提案する。
重大なデータ損失シナリオを扱う上で提案するモデルの能力を実証するために,高精度で挑戦的なモーションキャプチャデータセットに貢献する。
- 参考スコア(独自算出の注目度): 13.88656793940129
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-person motion capture can be challenging due to ambiguities caused by
severe occlusion, fast body movement, and complex interactions. Existing
frameworks build on 2D pose estimations and triangulate to 3D coordinates via
reasoning the appearance, trajectory, and geometric consistencies among
multi-camera observations. However, 2D joint detection is usually incomplete
and with wrong identity assignments due to limited observation angle, which
leads to noisy 3D triangulation results. To overcome this issue, we propose to
explore the short-range autoregressive characteristics of skeletal motion using
transformer. First, we propose an adaptive, identity-aware triangulation module
to reconstruct 3D joints and identify the missing joints for each identity. To
generate complete 3D skeletal motion, we then propose a Dual-Masked
Auto-Encoder (D-MAE) which encodes the joint status with both
skeletal-structural and temporal position encoding for trajectory completion.
D-MAE's flexible masking and encoding mechanism enable arbitrary skeleton
definitions to be conveniently deployed under the same framework. In order to
demonstrate the proposed model's capability in dealing with severe data loss
scenarios, we contribute a high-accuracy and challenging motion capture dataset
of multi-person interactions with severe occlusion. Evaluations on both
benchmark and our new dataset demonstrate the efficiency of our proposed model,
as well as its advantage against the other state-of-the-art methods.
- Abstract(参考訳): 多人数のモーションキャプチャは、激しい閉塞、速い体の動き、複雑な相互作用によって生じる曖昧さのために困難である。
既存のフレームワークは2次元のポーズ推定に基づいて構築され、3次元座標に三角測量される。
しかし, 2次元関節検出は通常不完全であり, 観測角度が限られているため, 3次元三角測量結果が不完全である。
そこで本研究では,トランスを用いた骨格運動の短距離自己回帰特性について検討する。
まず, 3次元関節を再構成し, 個々に欠落した関節を識別する適応型自己認識三角モジュールを提案する。
次に,完全な3次元骨格運動を生成するために,軌道完了のために骨格構造と時間位置をエンコードした2重マスクオートエンコーダ(d-mae)を提案する。
D-MAEの柔軟なマスキングと符号化機構により、任意のスケルトン定義を同じフレームワークで便利にデプロイできる。
重篤なデータ損失シナリオに対処するモデルの有効性を示すため,重篤なオクルージョンを伴う多人数インタラクションの高精度かつ挑戦的なモーションキャプチャデータセットに寄与する。
ベンチマークと新しいデータセットの評価は、提案するモデルの効率と、他の最先端の手法に対する利点を示しています。
関連論文リスト
- Every Angle Is Worth A Second Glance: Mining Kinematic Skeletal Structures from Multi-view Joint Cloud [19.511737728909562]
スパース角観測による多対人モーションキャプチャは、自己と相互閉塞の両方からの干渉の下で難しい問題である。
我々は,対象のIDに関係なく,すべてのカメラビューから同じタイプの2次元関節を三角測量し,ジョイントクラウドを形成することを提案する。
ジョイントクラウドは、同一のジョイントタイプとターゲットIDから持ち上げられた有効なジョイントと、異なる2Dソースからの偽造ジョイントで構成されている。
論文 参考訳(メタデータ) (2025-02-05T07:02:28Z) - GEAL: Generalizable 3D Affordance Learning with Cross-Modal Consistency [50.11520458252128]
既存の3Dアベイランス学習手法は、注釈付きデータに制限があるため、一般化と堅牢性に苦慮している。
本稿では,大規模事前学習型2Dモデルを活用することで,3次元アベイランス学習の一般化と堅牢性を高めるための新しいフレームワークであるGEALを提案する。
GEALは、既存のメソッドと、新しいオブジェクトカテゴリ、および破損したデータにおいて、一貫して優れています。
論文 参考訳(メタデータ) (2024-12-12T17:59:03Z) - Bootstraping Clustering of Gaussians for View-consistent 3D Scene Understanding [59.51535163599723]
FreeGSは、教師なしセマンティック組み込み3DGSフレームワークで、2Dラベルを必要とせずに、ビュー一貫性のある3Dシーン理解を実現する。
我々は、FreeGSが複雑なデータ前処理作業の負荷を回避しつつ、最先端のメソッドと互換性があることを示す。
論文 参考訳(メタデータ) (2024-11-29T08:52:32Z) - Occlusion-Aware 3D Motion Interpretation for Abnormal Behavior Detection [10.782354892545651]
我々は,メッシュ頂点とヒト関節の3次元座標をモノクロビデオから再構成し,運動異常を識別するOAD2Dを提案する。
動作特徴の定量化にVQVAEを用いるM2Tモデルと組み合わせることで、異常姿勢推定を再構成する。
本研究は, 重度・自己閉塞性に対する異常行動検出のロバスト性を示すものである。
論文 参考訳(メタデータ) (2024-07-23T18:41:16Z) - Geometry-Biased Transformer for Robust Multi-View 3D Human Pose
Reconstruction [3.069335774032178]
マルチビュー2次元ポーズシーケンスから3次元ポーズを推定するエンコーダ・デコーダ変換アーキテクチャを提案する。
我々は、Human3.6M、CMU Panoptic、Occlusion-Personsの3つのベンチマーク公開データセットで実験を行った。
論文 参考訳(メタデータ) (2023-12-28T16:30:05Z) - NDC-Scene: Boost Monocular 3D Semantic Scene Completion in Normalized
Device Coordinates Space [77.6067460464962]
SSC(Monocular 3D Semantic Scene Completion)は、単一の画像から複雑なセマンティックスや幾何学的形状を予測し、3D入力を必要としないため、近年大きな注目を集めている。
我々は,3次元空間に投影された2次元特徴の特徴的曖昧さ,3次元畳み込みのPose Ambiguity,深さの異なる3次元畳み込みにおける不均衡など,現在の最先端手法におけるいくつかの重要な問題を明らかにする。
シーン補完ネットワーク(NDC-Scene)を考案し,2を直接拡張する。
論文 参考訳(メタデータ) (2023-09-26T02:09:52Z) - Realistic Full-Body Tracking from Sparse Observations via Joint-Level
Modeling [13.284947022380404]
頭部と手の3つの追跡信号だけで、正確でスムーズな全身運動を得ることができる2段階のフレームワークを提案する。
本フレームワークは,第1段階の関節レベル特徴を明示的にモデル化し,第2段階の関節レベル相関を捉えるために,空間的および時間的トランスフォーマーブロックの交互化に時間的トークンとして利用する。
AMASSモーションデータセットと実捕集データに関する広範な実験により,提案手法は既存の手法と比較して,より正確で滑らかな動きを実現することができることを示す。
論文 参考訳(メタデータ) (2023-08-17T08:27:55Z) - Joint-MAE: 2D-3D Joint Masked Autoencoders for 3D Point Cloud
Pre-training [65.75399500494343]
Masked Autoencoders (MAE) は、2Dおよび3Dコンピュータビジョンのための自己教師型学習において有望な性能を示した。
自己監督型3次元点雲事前学習のための2D-3DジョイントMAEフレームワークであるJoint-MAEを提案する。
論文 参考訳(メタデータ) (2023-02-27T17:56:18Z) - Homography Loss for Monocular 3D Object Detection [54.04870007473932]
ホログラフィーロス(Homography Loss)と呼ばれる,2次元情報と3次元情報の両方を利用する識別可能なロス関数を提案する。
提案手法は,KITTI 3Dデータセットにおいて,他の最先端技術と比較して高い性能を示す。
論文 参考訳(メタデータ) (2022-04-02T03:48:03Z) - Uncertainty-Aware Adaptation for Self-Supervised 3D Human Pose
Estimation [70.32536356351706]
本稿では、2つの出力ヘッドを2つの異なる構成にサブスクライブする共通のディープネットワークバックボーンを構成するMPP-Netを紹介する。
ポーズと関節のレベルで予測の不確実性を定量化するための適切な尺度を導出する。
本稿では,提案手法の総合評価を行い,ベンチマークデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2022-03-29T07:14:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。