論文の概要: UniPose: Unified Cross-modality Pose Prior Propagation towards RGB-D data for Weakly Supervised 3D Human Pose Estimation
- arxiv url: http://arxiv.org/abs/2509.23376v1
- Date: Sat, 27 Sep 2025 15:49:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.194026
- Title: UniPose: Unified Cross-modality Pose Prior Propagation towards RGB-D data for Weakly Supervised 3D Human Pose Estimation
- Title(参考訳): UniPose: 弱監視された3D人物推定のためのRGB-Dデータへの統一されたクロスモダリティポース事前伝搬
- Authors: Jinghong Zheng, Changlong Jiang, Jiaqi Li, Haohong Kuang, Hang Xu, Tingbing Yan,
- Abstract要約: We present UniPose, a unified cross-modality pose before propagation method for weak supervised 3D human pose Estimation。
UniPoseは、大規模RGBデータセットから自己教師付き学習を通じて3Dドメインに2Dアノテーションを転送する。
CMU PanopticとITOPデータセットの実験は、UniPoseが完全に教師されたメソッドと同等のパフォーマンスを達成していることを示している。
- 参考スコア(独自算出の注目度): 14.52285662885727
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present UniPose, a unified cross-modality pose prior propagation method for weakly supervised 3D human pose estimation (HPE) using unannotated single-view RGB-D sequences (RGB, depth, and point cloud data). UniPose transfers 2D HPE annotations from large-scale RGB datasets (e.g., MS COCO) to the 3D domain via self-supervised learning on easily acquired RGB-D sequences, eliminating the need for labor-intensive 3D keypoint annotations. This approach bridges the gap between 2D and 3D domains without suffering from issues related to multi-view camera calibration or synthetic-to-real data shifts. During training, UniPose leverages off-the-shelf 2D pose estimations as weak supervision for point cloud networks, incorporating spatial-temporal constraints like body symmetry and joint motion. The 2D-to-3D back-projection loss and cross-modality interaction further enhance this process. By treating the point cloud network's 3D HPE results as pseudo ground truth, our anchor-to-joint prediction method performs 3D lifting on RGB and depth networks, making it more robust against inaccuracies in 2D HPE results compared to state-of-the-art methods. Experiments on CMU Panoptic and ITOP datasets show that UniPose achieves comparable performance to fully supervised methods. Incorporating large-scale unlabeled data (e.g., NTU RGB+D 60) enhances its performance under challenging conditions, demonstrating its potential for practical applications. Our proposed 3D lifting method also achieves state-of-the-art results.
- Abstract(参考訳): 本稿では,弱教師付き3次元ポーズ推定(HPE)のための一元的クロスモーダルポーズ先行伝搬法であるUniPoseを提案する。
UniPoseは、大規模RGBデータセット(例えばMS COCO)からの2D HPEアノテーションを、容易に取得したRGB-Dシーケンスの自己教師付き学習を通じて3Dドメインに転送する。
このアプローチは、マルチビューカメラキャリブレーションや合成から現実のデータシフトに関わる問題に悩まされることなく、2Dドメインと3Dドメインのギャップを埋める。
トレーニング中、UniPoseはオフザシェルフ2Dのポーズ推定を点雲ネットワークの弱い監視として利用し、体対称性や関節運動のような空間的時間的制約を取り入れた。
2D-to-3D後方投射損失とモード間相互作用により、このプロセスはさらに強化される。
ポイント・クラウド・ネットワークの3次元HPEの結果を擬似基底真理として扱うことにより、我々のアンカー・トゥ・ジョイント予測法は、RGBおよびディープ・ネットワーク上で3次元リフトを行い、2次元HPE結果の不正確さに対して、最先端の手法と比較してより堅牢になる。
CMU PanopticとITOPデータセットの実験は、UniPoseが完全に教師されたメソッドと同等のパフォーマンスを達成していることを示している。
大規模未ラベルデータ(例えば、NTU RGB+D 60)を組み込むことで、困難条件下での性能が向上し、実用的な応用の可能性を示す。
提案した3Dリフト法は,最先端の結果も得る。
関連論文リスト
- xMOD: Cross-Modal Distillation for 2D/3D Multi-Object Discovery from 2D motion [4.878192303432336]
DIOD-3Dは2Dモーションを用いた3Dデータにおけるマルチオブジェクト発見のための最初のベースラインである。
xMODは、常に2Dモーションキューを使用しながら、2Dと3Dデータを統合したクロスプラットフォームのトレーニングフレームワークである。
提案手法は,全データセットの2次元オブジェクト発見状態と比較すると,大幅な性能向上をもたらす。
論文 参考訳(メタデータ) (2025-03-19T09:20:35Z) - Towards Human-Level 3D Relative Pose Estimation: Generalizable, Training-Free, with Single Reference [65.42565481489132]
人間は、単一のクエリ参照イメージペアのみを前提として、ラベル付けやトレーニングをすることなく、これまで見られなかったオブジェクトの相対的なポーズを容易に推論することができる。
RGB-D参照から3D/2.5D形状認識と2.5D形状認識を併用した新しい3次元一般化可能な相対ポーズ推定法を提案する。
RGBとセマンティックマップ(DINOv2がRGB入力から取得)によってテクスチャ化された2.5Dの回転可能なメッシュを識別し、新しいRGBとセマンティックマップを新しい回転ビューの下でレンダリングする。
論文 参考訳(メタデータ) (2024-06-26T16:01:10Z) - NDC-Scene: Boost Monocular 3D Semantic Scene Completion in Normalized
Device Coordinates Space [77.6067460464962]
SSC(Monocular 3D Semantic Scene Completion)は、単一の画像から複雑なセマンティックスや幾何学的形状を予測し、3D入力を必要としないため、近年大きな注目を集めている。
我々は,3次元空間に投影された2次元特徴の特徴的曖昧さ,3次元畳み込みのPose Ambiguity,深さの異なる3次元畳み込みにおける不均衡など,現在の最先端手法におけるいくつかの重要な問題を明らかにする。
シーン補完ネットワーク(NDC-Scene)を考案し,2を直接拡張する。
論文 参考訳(メタデータ) (2023-09-26T02:09:52Z) - 3D Neural Embedding Likelihood: Probabilistic Inverse Graphics for
Robust 6D Pose Estimation [50.15926681475939]
逆グラフィックスは2次元画像から3次元シーン構造を推論することを目的としている。
確率モデルを導入し,不確実性を定量化し,6次元ポーズ推定タスクにおけるロバスト性を実現する。
3DNELは、RGBから学んだニューラルネットワークの埋め込みと深度情報を組み合わせることで、RGB-D画像からのsim-to-real 6Dオブジェクトのポーズ推定の堅牢性を向上させる。
論文 参考訳(メタデータ) (2023-02-07T20:48:35Z) - Unleash the Potential of Image Branch for Cross-modal 3D Object
Detection [67.94357336206136]
画像分岐のポテンシャルを2つの側面から解き放つことを目的として,新しい3Dオブジェクト検出器UPIDetを提案する。
まず、UPIDetは正規化された局所座標写像推定と呼ばれる新しい2次元補助タスクを導入する。
第2に,イメージブランチのトレーニング目標から逆転する勾配によって,ポイントクラウドバックボーンの表現能力を向上できることを見出した。
論文 参考訳(メタデータ) (2023-01-22T08:26:58Z) - Multi-Modality Task Cascade for 3D Object Detection [22.131228757850373]
多くの手法は2つのモデルを個別に訓練し、単純な特徴結合を用いて3Dセンサーデータを表現している。
本稿では,3次元ボックスの提案を利用して2次元セグメンテーション予測を改善する新しいマルチモードタスクカスケードネットワーク(MTC-RCNN)を提案する。
2段階の3次元モジュール間の2次元ネットワークを組み込むことで,2次元および3次元のタスク性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2021-07-08T17:55:01Z) - 3D Point-to-Keypoint Voting Network for 6D Pose Estimation [8.801404171357916]
3次元キーポイントの空間構造特性に基づくRGB-Dデータから6次元ポーズ推定のためのフレームワークを提案する。
提案手法は, LINEMOD と OCCLUSION LINEMOD の2つのベンチマークデータセットで検証する。
論文 参考訳(メタデータ) (2020-12-22T11:43:15Z) - Synthetic Training for Monocular Human Mesh Recovery [100.38109761268639]
本稿では,RGB画像と大規模に異なる複数の身体部位の3次元メッシュを推定することを目的とする。
主な課題は、2D画像のすべての身体部分の3Dアノテーションを完備するトレーニングデータがないことである。
本稿では,D2S(Deep-to-scale)投影法を提案する。
論文 参考訳(メタデータ) (2020-10-27T03:31:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。