論文の概要: UniHPR: Unified Human Pose Representation via Singular Value Contrastive Learning
- arxiv url: http://arxiv.org/abs/2510.19078v1
- Date: Tue, 21 Oct 2025 21:06:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:14.722299
- Title: UniHPR: Unified Human Pose Representation via Singular Value Contrastive Learning
- Title(参考訳): UniHPR:Singular Value Contrastive Learningによる統一人文表現
- Authors: Zhongyu Jiang, Wenhao Chai, Lei Li, Zhuoran Zhou, Cheng-Yen Yang, Jenq-Neng Hwang,
- Abstract要約: 画像,2次元,3次元の人間のポーズから人間のポースを埋め込んだ統合型ヒューマンポース表現学習パイプラインであるUniHPRを提案する。
評価では、単純な3次元ポーズデコーダにより、UniHPRは顕著なパフォーマンス指標を達成できる。
- 参考スコア(独自算出の注目度): 45.892775193282546
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, there has been a growing interest in developing effective alignment pipelines to generate unified representations from different modalities for multi-modal fusion and generation. As an important component of Human-Centric applications, Human Pose representations are critical in many downstream tasks, such as Human Pose Estimation, Action Recognition, Human-Computer Interaction, Object tracking, etc. Human Pose representations or embeddings can be extracted from images, 2D keypoints, 3D skeletons, mesh models, and lots of other modalities. Yet, there are limited instances where the correlation among all of those representations has been clearly researched using a contrastive paradigm. In this paper, we propose UniHPR, a unified Human Pose Representation learning pipeline, which aligns Human Pose embeddings from images, 2D and 3D human poses. To align more than two data representations at the same time, we propose a novel singular value-based contrastive learning loss, which better aligns different modalities and further boosts performance. To evaluate the effectiveness of the aligned representation, we choose 2D and 3D Human Pose Estimation (HPE) as our evaluation tasks. In our evaluation, with a simple 3D human pose decoder, UniHPR achieves remarkable performance metrics: MPJPE 49.9mm on the Human3.6M dataset and PA-MPJPE 51.6mm on the 3DPW dataset with cross-domain evaluation. Meanwhile, we are able to achieve 2D and 3D pose retrieval with our unified human pose representations in Human3.6M dataset, where the retrieval error is 9.24mm in MPJPE.
- Abstract(参考訳): 近年、マルチモーダル融合と生成のための異なるモードから統一表現を生成する効果的なアライメントパイプラインの開発への関心が高まっている。
ヒューマン・センター・アプリケーションの重要なコンポーネントとして、ヒューマン・ポースの表現は、ヒューマン・ポーズ推定、アクション・認識、ヒューマン・コンピュータ・インタラクション、オブジェクト・トラッキングなど、多くの下流タスクにおいて重要である。
人間のPose表現や埋め込みは、画像、2Dキーポイント、3Dスケルトン、メッシュモデル、その他多くのモダリティから抽出することができる。
しかし、これらの表現間の相関が、対照的なパラダイムを用いて明らかに研究されているような限定的な例もある。
本論文では,画像,2次元,3次元の人間のポーズから人間の姿勢を埋め込む,統一されたヒューマン・ポース表現学習パイプラインであるUniHPRを提案する。
2つ以上のデータ表現を同時に整合させるため、異なるモダリティの整合性を向上し、性能をさらに向上する、特異値に基づく対照的な学習損失を提案する。
整列表現の有効性を評価するため,評価課題として2次元と3次元の人体姿勢推定(HPE)を選択した。
評価では,単純な3次元ポーズデコーダを用いて,Human3.6MデータセットのMPJPE 49.9mm,3DPWデータセットのPA-MPJPE 51.6mm,クロスドメイン評価の3次元ポーズデコーダを用いた。
一方、Human3.6Mデータセットでは、MPJPEで9.24mmの精度で2Dと3Dのポーズ検索が可能である。
関連論文リスト
- StackFLOW: Monocular Human-Object Reconstruction by Stacked Normalizing Flow with Offset [56.71580976007712]
本研究では,人間のメッシュと物体メッシュの表面から密にサンプリングされたアンカー間の人物体オフセットを用いて,人物体空間関係を表現することを提案する。
この表現に基づいて、画像から人・物間の空間関係の後方分布を推定するスタック正規化フロー(StackFLOW)を提案する。
最適化段階では、サンプルの可能性を最大化することにより、人体ポーズと物体6Dポーズを微調整する。
論文 参考訳(メタデータ) (2024-07-30T04:57:21Z) - Towards Precise 3D Human Pose Estimation with Multi-Perspective Spatial-Temporal Relational Transformers [28.38686299271394]
人間のポーズ検出のための3次元シーケンス・ツー・シーケンス(seq2seq)フレームワークを提案する。
まず、空間モジュールは人物のポーズ特徴を画像内コンテンツで表現し、フレーム・イメージ関係モジュールは時間的関係を抽出する。
提案手法は,一般的な3次元ポーズ検出データセットであるHuman3.6Mを用いて評価する。
論文 参考訳(メタデータ) (2024-01-30T03:00:25Z) - UniHPE: Towards Unified Human Pose Estimation via Contrastive Learning [29.037799937729687]
2次元と3次元の人間の姿勢推定(HPE)はコンピュータビジョンにおける2つの重要な知覚的タスクである。
提案するUniHPEは,3つのモードの全ての特徴を整列する,統一されたヒューマンポーズ推定パイプラインである。
提案手法は,コンピュータビジョンの分野を前進させ,様々な応用に寄与する大きな可能性を秘めている。
論文 参考訳(メタデータ) (2023-11-24T21:55:34Z) - AdaptivePose++: A Powerful Single-Stage Network for Multi-Person Pose
Regression [66.39539141222524]
そこで本研究では,ヒトの部位を適応点として表現し,微細な身体表現法を提案する。
提案するボディ表現では,AdaptivePoseと呼ばれる,コンパクトなシングルステージ多人数ポーズ回帰ネットワークを提供する。
本稿では,AdaptivePoseの有効性を検証するために,2D/3D多人数ポーズ推定タスクにAdaptivePoseを用いる。
論文 参考訳(メタデータ) (2022-10-08T12:54:20Z) - Adapted Human Pose: Monocular 3D Human Pose Estimation with Zero Real 3D
Pose Data [14.719976311208502]
トレーニングとテストデータドメインのギャップは、しばしばモデルのパフォーマンスに悪影響を及ぼします。
本稿では、外見とポーズ空間の両方における適応問題に対処する適応的ヒューマンポーズ(AHuP)アプローチを提案する。
AHuPは、実際のアプリケーションでは、ターゲットドメインからのデータはアクセスできないか、限られた情報しか取得できないという現実的な前提に基づいて構築されている。
論文 参考訳(メタデータ) (2021-05-23T01:20:40Z) - Multi-person 3D Pose Estimation in Crowded Scenes Based on Multi-View
Geometry [62.29762409558553]
マルチパーソナライズされた3次元ポーズ推定手法における特徴マッチングと深さ推定のコアは、エピポーラ制約である。
スパサーの群衆シーンにおけるこの定式化の良好なパフォーマンスにもかかわらず、その効果はより密集した群衆の状況下でしばしば挑戦される。
本稿では,マルチパーソン3次元ポーズ推定式から脱却し,群衆ポーズ推定として再編成する。
論文 参考訳(メタデータ) (2020-07-21T17:59:36Z) - Unsupervised 3D Human Pose Representation with Viewpoint and Pose
Disentanglement [63.853412753242615]
優れた3次元ポーズ表現を学習することは、人間のポーズ関連タスクにとって重要である。
本稿では,3次元ポーズ表現を学習するために,新しいシームズ・デノナイズドオートエンコーダを提案する。
提案手法は,2つの本質的に異なるタスクに対して,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2020-07-14T14:25:22Z) - Self-Supervised 3D Human Pose Estimation via Part Guided Novel Image
Synthesis [72.34794624243281]
ラベルのないビデオフレームからバリエーションを分離する自己教師付き学習フレームワークを提案する。
3Dポーズと空間部分マップの表現ギャップを埋める、微分可能な形式化により、多様なカメラの動きを持つビデオで操作できる。
論文 参考訳(メタデータ) (2020-04-09T07:55:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。