論文の概要: Toward Efficient Generalization in 3D Human Pose Estimation via a Canonical Domain Approach
- arxiv url: http://arxiv.org/abs/2501.16146v1
- Date: Mon, 27 Jan 2025 15:39:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-28 13:59:03.751498
- Title: Toward Efficient Generalization in 3D Human Pose Estimation via a Canonical Domain Approach
- Title(参考訳): 標準領域アプローチによる3次元人物位置推定における効率的な一般化に向けて
- Authors: Hoosang Lee, Jeha Ryu,
- Abstract要約: ソースとターゲットドメイン間のドメインギャップに起因するパフォーマンス劣化は、一般化の大きな課題である。
我々は、ソースドメインとターゲットドメインの両方を統一されたカノニカルドメインにマッピングする、新しいカノニカルドメインアプローチを提案する。
提案手法は,同じデータボリュームを使用しながら,データセット間の一般化能力を大幅に向上する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Recent advancements in deep learning methods have significantly improved the performance of 3D Human Pose Estimation (HPE). However, performance degradation caused by domain gaps between source and target domains remains a major challenge to generalization, necessitating extensive data augmentation and/or fine-tuning for each specific target domain. To address this issue more efficiently, we propose a novel canonical domain approach that maps both the source and target domains into a unified canonical domain, alleviating the need for additional fine-tuning in the target domain. To construct the canonical domain, we introduce a canonicalization process to generate a novel canonical 2D-3D pose mapping that ensures 2D-3D pose consistency and simplifies 2D-3D pose patterns, enabling more efficient training of lifting networks. The canonicalization of both domains is achieved through the following steps: (1) in the source domain, the lifting network is trained within the canonical domain; (2) in the target domain, input 2D poses are canonicalized prior to inference by leveraging the properties of perspective projection and known camera intrinsics. Consequently, the trained network can be directly applied to the target domain without requiring additional fine-tuning. Experiments conducted with various lifting networks and publicly available datasets (e.g., Human3.6M, Fit3D, MPI-INF-3DHP) demonstrate that the proposed method substantially improves generalization capability across datasets while using the same data volume.
- Abstract(参考訳): 近年のディープラーニング手法の進歩により,HPE(3D Human Pose Estimation)の性能が大幅に向上した。
しかし、ソースドメインとターゲットドメイン間のドメインギャップに起因するパフォーマンス劣化は、特定のターゲットドメインごとに広範なデータ拡張と/または微調整を必要とする、一般化の大きな課題である。
この問題をより効率的に解決するために,本研究では,ソースドメインとターゲットドメインの両方を統一されたカノニカルドメインにマッピングする,新たなカノニカルドメインアプローチを提案する。
標準領域を構築するために,2D-3Dのポーズ一貫性を確保し,2D-3Dのポーズパターンを単純化し,リフトネットワークのより効率的なトレーニングを可能にする,新しい標準2D-3Dポーズマッピングを生成する正準化プロセスを導入する。
両方の領域の正準化は、(1)ソースドメインでは、リフトネットワークを標準ドメイン内で訓練し、(2)ターゲットドメインでは、遠近射影と既知のカメラ固有の特性を利用して、推論の前に入力2Dポーズを正準化する。
これにより、トレーニングされたネットワークは、追加の微調整を必要とせずに、ターゲットドメインに直接適用することができる。
各種リフトネットワークと一般公開データセット(例えば、Human3.6M、Fit3D、MPI-INF-3DHP)を用いて行った実験では、同じデータボリュームを使用しながら、提案手法がデータセット間の一般化能力を大幅に改善することを示した。
関連論文リスト
- Syn-to-Real Unsupervised Domain Adaptation for Indoor 3D Object Detection [50.448520056844885]
室内3次元物体検出における非教師なし領域適応のための新しいフレームワークを提案する。
合成データセット3D-FRONTから実世界のデータセットScanNetV2とSUN RGB-Dへの適応結果は、ソースオンリーベースラインよりも9.7%、9.1%のmAP25が顕著に改善されていることを示している。
論文 参考訳(メタデータ) (2024-06-17T08:18:41Z) - Visual Foundation Models Boost Cross-Modal Unsupervised Domain Adaptation for 3D Semantic Segmentation [17.875516787157018]
本研究では,2次元視覚基礎モデルから得られた知識を活用して,ラベルのない対象ドメインのより正確なラベルを生成する方法について検討する。
本手法は, 各種自律走行データセットを用いて評価し, 3次元セグメンテーションタスクにおいて有意な改善が得られた。
論文 参考訳(メタデータ) (2024-03-15T03:58:17Z) - CMDA: Cross-Modal and Domain Adversarial Adaptation for LiDAR-Based 3D
Object Detection [14.063365469339812]
LiDARベースの3Dオブジェクト検出法は、ソース(またはトレーニング)データ配布の外部のターゲットドメインにうまく一般化しないことが多い。
画像のモダリティから視覚的セマンティックキューを活用する,CMDA (unsupervised domain adaptation) と呼ばれる新しい手法を提案する。
また、自己学習に基づく学習戦略を導入し、モデルが逆向きに訓練され、ドメイン不変の機能を生成する。
論文 参考訳(メタデータ) (2024-03-06T14:12:38Z) - Source-Free and Image-Only Unsupervised Domain Adaptation for Category
Level Object Pose Estimation [18.011044932979143]
3DUDAは、3Dや深度データを使わずに、ニュアンスドライデンのターゲットドメインに適応できる手法である。
対象のカテゴリを単純な立方体メッシュとして表現し、ニューラル特徴活性化の生成モデルを利用する。
本手法は,グローバルな擬似ラベル付きデータセットの微調整を軽度な仮定でシミュレートする。
論文 参考訳(メタデータ) (2024-01-19T17:48:05Z) - BEV-DG: Cross-Modal Learning under Bird's-Eye View for Domain
Generalization of 3D Semantic Segmentation [59.99683295806698]
クロスモーダルなUnsupervised Domain Adaptation (UDA)は、新しいドメインにおけるアノテーションの欠如を克服するために、2D-3Dデータの相補性を活用することを目的としている。
本稿では,BEV-DGと呼ばれる3次元セマンティックセグメンテーションの領域一般化(DG)に対する鳥眼図に基づくクロスモーダル学習を提案する。
論文 参考訳(メタデータ) (2023-08-12T11:09:17Z) - Global Adaptation meets Local Generalization: Unsupervised Domain
Adaptation for 3D Human Pose Estimation [31.178656420040692]
textitPoseDAは、MPI-INF-3DHP上で61.3mmのMPJPEを達成する。
論文 参考訳(メタデータ) (2023-03-29T04:54:42Z) - Geometry-Aware Network for Domain Adaptive Semantic Segmentation [64.00345743710653]
本稿では,ドメイン間のギャップを小さくするために,ドメイン適応のための幾何学的ネットワーク(GANDA)を提案する。
我々は、RGB-D画像から生成された点雲上の3Dトポロジを利用して、対象領域における座標色歪みと擬似ラベルの微細化を行う。
我々のモデルは,GTA5->CityscapesとSynTHIA->Cityscapesの最先端技術より優れている。
論文 参考訳(メタデータ) (2022-12-02T00:48:44Z) - Unsupervised Domain Adaptation for Monocular 3D Object Detection via
Self-Training [57.25828870799331]
我々は、Mono3D上での教師なしドメイン適応のための新しい自己学習フレームワークSTMono3Dを提案する。
対象ドメイン上で適応的な擬似ラベルを生成するための教師学生パラダイムを開発する。
STMono3Dは、評価されたすべてのデータセットで顕著なパフォーマンスを達成し、KITTI 3Dオブジェクト検出データセットの完全な教師付き結果を超えています。
論文 参考訳(メタデータ) (2022-04-25T12:23:07Z) - Unsupervised Domain Adaptive 3D Detection with Multi-Level Consistency [90.71745178767203]
ディープラーニングに基づく3Dオブジェクト検出は、大規模な自律走行データセットの出現によって、前例のない成功を収めた。
既存の3Dドメイン適応検出手法は、しばしばターゲットのドメインアノテーションへの事前アクセスを前提とします。
我々は、ソースドメインアノテーションのみを利用する、より現実的な、教師なしの3Dドメイン適応検出について研究する。
論文 参考訳(メタデータ) (2021-07-23T17:19:23Z) - Domain Conditioned Adaptation Network [90.63261870610211]
本稿では,ドメイン条件付きチャネルアテンション機構を用いて,異なる畳み込みチャネルを励起するドメイン条件適応ネットワーク(DCAN)を提案する。
これは、ディープDAネットワークのドメインワイドな畳み込みチャネルアクティベーションを探求する最初の試みである。
論文 参考訳(メタデータ) (2020-05-14T04:23:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。