論文の概要: Every Angle Is Worth A Second Glance: Mining Kinematic Skeletal Structures from Multi-view Joint Cloud
- arxiv url: http://arxiv.org/abs/2502.02936v1
- Date: Wed, 05 Feb 2025 07:02:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-06 14:27:25.243881
- Title: Every Angle Is Worth A Second Glance: Mining Kinematic Skeletal Structures from Multi-view Joint Cloud
- Title(参考訳): マルチビュージョイントクラウドからキネマティック骨格構造をマイニングする「Every Angle」
- Authors: Junkun Jiang, Jie Chen, Ho Yin Au, Mingyuan Chen, Wei Xue, Yike Guo,
- Abstract要約: スパース角観測による多対人モーションキャプチャは、自己と相互閉塞の両方からの干渉の下で難しい問題である。
我々は,対象のIDに関係なく,すべてのカメラビューから同じタイプの2次元関節を三角測量し,ジョイントクラウドを形成することを提案する。
ジョイントクラウドは、同一のジョイントタイプとターゲットIDから持ち上げられた有効なジョイントと、異なる2Dソースからの偽造ジョイントで構成されている。
- 参考スコア(独自算出の注目度): 19.511737728909562
- License:
- Abstract: Multi-person motion capture over sparse angular observations is a challenging problem under interference from both self- and mutual-occlusions. Existing works produce accurate 2D joint detection, however, when these are triangulated and lifted into 3D, available solutions all struggle in selecting the most accurate candidates and associating them to the correct joint type and target identity. As such, in order to fully utilize all accurate 2D joint location information, we propose to independently triangulate between all same-typed 2D joints from all camera views regardless of their target ID, forming the Joint Cloud. Joint Cloud consist of both valid joints lifted from the same joint type and target ID, as well as falsely constructed ones that are from different 2D sources. These redundant and inaccurate candidates are processed over the proposed Joint Cloud Selection and Aggregation Transformer (JCSAT) involving three cascaded encoders which deeply explore the trajectile, skeletal structural, and view-dependent correlations among all 3D point candidates in the cross-embedding space. An Optimal Token Attention Path (OTAP) module is proposed which subsequently selects and aggregates informative features from these redundant observations for the final prediction of human motion. To demonstrate the effectiveness of JCSAT, we build and publish a new multi-person motion capture dataset BUMocap-X with complex interactions and severe occlusions. Comprehensive experiments over the newly presented as well as benchmark datasets validate the effectiveness of the proposed framework, which outperforms all existing state-of-the-art methods, especially under challenging occlusion scenarios.
- Abstract(参考訳): スパース角観測による多対人モーションキャプチャは、自己と相互閉塞の両方からの干渉の下で難しい問題である。
既存の作業は正確な2D関節検出を生成するが、これらを三角測量して3Dに持ち上げると、最も正確な候補を選択し、それらを正しい関節タイプとターゲットIDに関連付けるのに苦労する。
そこで我々は,すべての正確な2次元関節位置情報をフル活用するために,ターゲットIDに関わらず,すべてのカメラビューから同一タイプの2次元関節を独立に三角測量し,ジョイントクラウドを形成することを提案する。
ジョイントクラウドは、同一のジョイントタイプとターゲットIDから持ち上げられた有効なジョイントと、異なる2Dソースからの偽造ジョイントで構成されている。
これらの冗長かつ不正確な候補は、3つのカスケードエンコーダを含むJCSAT(Joint Cloud Selection and Aggregation Transformer)によって処理される。
人間の動作の最終的な予測のために、これらの冗長な観測から情報的特徴を選択・集約するOTAP(Optimal Token Attention Path)モジュールが提案されている。
JCSATの有効性を実証するために、複雑な相互作用と重大閉塞を伴う新しい多人数モーションキャプチャーデータセットBUMocap-Xを構築し、公開する。
提案されたフレームワークの有効性をベンチマークデータセットとともに総合的な実験で検証し、特に難解な閉塞シナリオ下では、既存の最先端の手法よりも優れています。
関連論文リスト
- SEED: A Simple and Effective 3D DETR in Point Clouds [72.74016394325675]
ポイントクラウドの分散度が高く,不均一な分布のため,主な課題は困難である,と我々は主張する。
点雲から3次元物体を検出するための簡便で効果的な3次元DETR法(SEED)を提案する。
論文 参考訳(メタデータ) (2024-07-15T14:21:07Z) - PoIFusion: Multi-Modal 3D Object Detection via Fusion at Points of Interest [65.48057241587398]
PoIFusionは、関心点(PoIs)におけるRGBイメージとLiDARポイントクラウドに関する情報を融合するフレームワークである。
提案手法は,各モダリティの視点を維持し,計算にやさしいプロジェクションと計算によってマルチモーダル特徴を得る。
我々はnuScenesとArgoverse2データセットについて広範囲に実験を行い、我々のアプローチを評価した。
論文 参考訳(メタデータ) (2024-03-14T09:28:12Z) - PIDS: Joint Point Interaction-Dimension Search for 3D Point Cloud [36.55716011085907]
PIDSは、ポイントクラウドデータにセマンティックセグメンテーションを提供するために、ポイントインタラクションとポイントディメンションを共同で探求する新しいパラダイムである。
我々は多目的点相互作用と点次元を共同で検討する大規模な探索空間を確立する。
予測器をベースとしたニューラルアーキテクチャサーチ(NAS)を活用することにより,探索空間の探索を改善するとともに,予測の質を向上させる。
論文 参考訳(メタデータ) (2022-11-28T20:35:22Z) - 3DMODT: Attention-Guided Affinities for Joint Detection & Tracking in 3D
Point Clouds [95.54285993019843]
本稿では,3次元点雲における複数物体の同時検出と追跡手法を提案する。
本モデルでは,複数のフレームを用いた時間情報を利用してオブジェクトを検出し,一つのネットワーク上で追跡する。
論文 参考訳(メタデータ) (2022-11-01T20:59:38Z) - A Dual-Masked Auto-Encoder for Robust Motion Capture with
Spatial-Temporal Skeletal Token Completion [13.88656793940129]
本稿では, 3次元関節を再構成し, 個々の関節を識別するための適応的, アイデンティティを意識した三角測量モジュールを提案する。
次に,D-MAE(Dual-Masked Auto-Encoder)を提案する。
重大なデータ損失シナリオを扱う上で提案するモデルの能力を実証するために,高精度で挑戦的なモーションキャプチャデータセットに貢献する。
論文 参考訳(メタデータ) (2022-07-15T10:00:43Z) - Homography Loss for Monocular 3D Object Detection [54.04870007473932]
ホログラフィーロス(Homography Loss)と呼ばれる,2次元情報と3次元情報の両方を利用する識別可能なロス関数を提案する。
提案手法は,KITTI 3Dデータセットにおいて,他の最先端技術と比較して高い性能を示す。
論文 参考訳(メタデータ) (2022-04-02T03:48:03Z) - MultiBodySync: Multi-Body Segmentation and Motion Estimation via 3D Scan
Synchronization [61.015704878681795]
本稿では,3次元点雲のための多体運動分節と剛性登録フレームワークを提案する。
このマルチスキャンマルチボディ設定によって生じる2つの非自明な課題は、である。
複数の入力ポイントクラウド間の対応性とセグメンテーション一貫性の保証
新規な対象カテゴリーに適用可能なロバストな運動に基づく剛体セグメンテーションを得る。
論文 参考訳(メタデータ) (2021-01-17T06:36:28Z) - Cross-Modality 3D Object Detection [63.29935886648709]
本稿では,3次元物体検出のための新しい2段階多モード融合ネットワークを提案する。
アーキテクチャ全体が2段階の融合を促進する。
KITTIデータセットを用いた実験により,提案したマルチステージ融合により,ネットワークがより良い表現を学習できることが示唆された。
論文 参考訳(メタデータ) (2020-08-16T11:01:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。