論文の概要: 3DPCNet: Pose Canonicalization for Robust Viewpoint-Invariant 3D Kinematic Analysis from Monocular RGB cameras
- arxiv url: http://arxiv.org/abs/2509.23455v1
- Date: Sat, 27 Sep 2025 18:55:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.236842
- Title: 3DPCNet: Pose Canonicalization for Robust Viewpoint-Invariant 3D Kinematic Analysis from Monocular RGB cameras
- Title(参考訳): 3DPCNet:モノクルRGBカメラによるロバスト視点不変3次元運動解析のための正準化
- Authors: Tharindu Ekanayake, Constantino Álvarez Casado, Miguel Bordallo López,
- Abstract要約: 3DPCNetは3Dジョイント座標で直接動作するコンパクトな推定器に依存しないモジュールである。
本手法は,地中構造IMUセンサデータと強い視覚的対応を示すビデオから加速度信号を生成する。
- 参考スコア(独自算出の注目度): 7.906702226082628
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Monocular 3D pose estimators produce camera-centered skeletons, creating view-dependent kinematic signals that complicate comparative analysis in applications such as health and sports science. We present 3DPCNet, a compact, estimator-agnostic module that operates directly on 3D joint coordinates to rectify any input pose into a consistent, body-centered canonical frame. Its hybrid encoder fuses local skeletal features from a graph convolutional network with global context from a transformer via a gated cross-attention mechanism. From this representation, the model predicts a continuous 6D rotation that is mapped to an $SO(3)$ matrix to align the pose. We train the model in a self-supervised manner on the MM-Fi dataset using synthetically rotated poses, guided by a composite loss ensuring both accurate rotation and pose reconstruction. On the MM-Fi benchmark, 3DPCNet reduces the mean rotation error from over 20$^{\circ}$ to 3.4$^{\circ}$ and the Mean Per Joint Position Error from ~64 mm to 47 mm compared to a geometric baseline. Qualitative evaluations on the TotalCapture dataset further demonstrate that our method produces acceleration signals from video that show strong visual correspondence to ground-truth IMU sensor data, confirming that our module removes viewpoint variability to enable physically plausible motion analysis.
- Abstract(参考訳): 単眼の3Dポーズ推定装置はカメラ中心の骨格を生成し、健康科学やスポーツ科学などの応用において比較分析を複雑にするビュー依存のキネマティック信号を生成する。
3DPCNetはコンパクトな推定器に依存しないモジュールで、3Dジョイント座標上で直接動作し、任意の入力ポーズを一貫した体中心の標準フレームに修正する。
そのハイブリッドエンコーダは、グラフ畳み込みネットワークからの局所的な骨格特徴と、ゲートクロスアテンション機構を介してトランスフォーマーからのグローバルコンテキストを融合する。
この表現から、モデルは、ポーズを調整するために$SO(3)$行列にマッピングされる連続した6次元回転を予測する。
MM-Fiデータセット上で,合成回転したポーズを用いて自己教師型モデルを訓練し,正確な回転とポーズ復元の両立を保証した複合的損失によって誘導する。
MM-Fiベンチマークでは、3DPCNetは、平均回転誤差を20$^{\circ}$から3.4$^{\circ}$に減らし、平均パージョイント位置誤差を幾何ベースラインと比較して約64 mmから47 mmに減らした。
さらに、TotalCaptureデータセットの定性評価により、地上のIMUセンサデータと強い視覚的対応を示すビデオから加速度信号を生成し、我々のモジュールが視点変動を除去し、物理的に可視な動作解析を可能にすることを確認した。
関連論文リスト
- Controllable Human-centric Keyframe Interpolation with Generative Prior [55.16558476905587]
本稿では,PoseFuse3D Keyframe Interpolator(PoseFuse3D-KI)を紹介する。
我々は,PoseFuse3D-KIがCHKI-Videoの最先端のベースラインを一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2025-06-03T17:50:05Z) - Capturing the motion of every joint: 3D human pose and shape estimation
with independent tokens [34.50928515515274]
モノクロ映像から3次元人物のポーズと形状を推定する新しい手法を提案する。
提案手法は,3DPWおよびHuman3.6Mデータセット上での優れた性能を実現する。
論文 参考訳(メタデータ) (2023-03-01T07:48:01Z) - A Dual-Masked Auto-Encoder for Robust Motion Capture with
Spatial-Temporal Skeletal Token Completion [13.88656793940129]
本稿では, 3次元関節を再構成し, 個々の関節を識別するための適応的, アイデンティティを意識した三角測量モジュールを提案する。
次に,D-MAE(Dual-Masked Auto-Encoder)を提案する。
重大なデータ損失シナリオを扱う上で提案するモデルの能力を実証するために,高精度で挑戦的なモーションキャプチャデータセットに貢献する。
論文 参考訳(メタデータ) (2022-07-15T10:00:43Z) - PolarFormer: Multi-camera 3D Object Detection with Polar Transformers [93.49713023975727]
自律運転における3次元物体検出は、3次元の世界に存在する「何」と「どこに」の物体を推論することを目的としている。
既存の手法はしばしば垂直軸を持つ標準カルテ座標系を採用する。
鳥眼ビュー(BEV)におけるより正確な3次元物体検出のための新しい極変換器(PolarFormer)を,マルチカメラ2D画像のみを入力として提案する。
論文 参考訳(メタデータ) (2022-06-30T16:32:48Z) - Geometry-Contrastive Transformer for Generalized 3D Pose Transfer [95.56457218144983]
この研究の直感は、与えられたメッシュ間の幾何学的不整合を強力な自己認識機構で知覚することである。
本研究では,グローバルな幾何学的不整合に対する3次元構造的知覚能力を有する新しい幾何学コントラスト変換器を提案する。
本稿では, クロスデータセット3次元ポーズ伝達タスクのための半合成データセットとともに, 潜時等尺正則化モジュールを提案する。
論文 参考訳(メタデータ) (2021-12-14T13:14:24Z) - Hierarchical Kinematic Probability Distributions for 3D Human Shape and
Pose Estimation from Images in the Wild [25.647676661390282]
本稿では,RGB画像からの3次元人体形状とポーズ推定の問題に対処する。
深層ニューラルネットワークを用いて、相対的な3次元関節回転行列上の階層行列-フィッシャー分布を推定する。
本手法は,SSP-3Dおよび3DPWデータセット上で,3次元形状の計測値を用いて,最先端技術と競合することを示す。
論文 参考訳(メタデータ) (2021-10-03T11:59:37Z) - HybrIK: A Hybrid Analytical-Neural Inverse Kinematics Solution for 3D
Human Pose and Shape Estimation [39.67289969828706]
本稿では,体メッシュ推定と3次元キーポイント推定のギャップを埋めるために,新しいハイブリッド逆キネマティクスソリューション(HybrIK)を提案する。
HybrIKは、正確な3D関節を相対的なボディ部分回転に変換し、3Dボディーメッシュを再構築する。
その結果,HybrIKは3次元ポーズの精度とパラメトリックな人間の身体構造の両方を保っていることがわかった。
論文 参考訳(メタデータ) (2020-11-30T10:32:30Z) - Reinforced Axial Refinement Network for Monocular 3D Object Detection [160.34246529816085]
モノクロ3次元物体検出は、2次元入力画像から物体の位置と特性を抽出することを目的としている。
従来のアプローチでは、空間から3D境界ボックスをサンプリングし、対象オブジェクトと各オブジェクトの関係を推定するが、有効サンプルの確率は3D空間で比較的小さい。
我々は,まず最初の予測から始めて,各ステップで1つの3dパラメータだけを変えて,基礎的真理に向けて徐々に洗練することを提案する。
これは、いくつかのステップの後に報酬を得るポリシーを設計する必要があるため、最適化するために強化学習を採用します。
論文 参考訳(メタデータ) (2020-08-31T17:10:48Z) - 3D Pose Detection in Videos: Focusing on Occlusion [0.4588028371034406]
我々は,映像中の隠蔽型3Dポーズ検出のための既存の手法を構築した。
我々は,2次元ポーズ予測を生成するために,積み重ねられた時間ガラスネットワークからなる2段階アーキテクチャを実装した。
閉鎖関節によるポーズの予測を容易にするため,シリンダーマンモデルの直感的な一般化を導入する。
論文 参考訳(メタデータ) (2020-06-24T07:01:17Z) - MotioNet: 3D Human Motion Reconstruction from Monocular Video with
Skeleton Consistency [72.82534577726334]
モノクロビデオから3次元人間の骨格の動きを直接再構成するディープニューラルネットワークであるMotioNetを紹介した。
本手法は,動作表現を完全かつ一般的に使用するキネマティックスケルトンを直接出力する最初のデータ駆動型手法である。
論文 参考訳(メタデータ) (2020-06-22T08:50:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。