論文の概要: UniHPE: Towards Unified Human Pose Estimation via Contrastive Learning
- arxiv url: http://arxiv.org/abs/2311.16477v1
- Date: Fri, 24 Nov 2023 21:55:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-29 20:28:34.237290
- Title: UniHPE: Towards Unified Human Pose Estimation via Contrastive Learning
- Title(参考訳): UniHPE:コントラスト学習による統一された人文推定を目指して
- Authors: Zhongyu Jiang, Wenhao Chai, Lei Li, Zhuoran Zhou, Cheng-Yen Yang,
Jenq-Neng Hwang
- Abstract要約: 2次元と3次元の人間の姿勢推定(HPE)はコンピュータビジョンにおける2つの重要な知覚的タスクである。
提案するUniHPEは,3つのモードの全ての特徴を整列する,統一されたヒューマンポーズ推定パイプラインである。
提案手法は,コンピュータビジョンの分野を前進させ,様々な応用に寄与する大きな可能性を秘めている。
- 参考スコア(独自算出の注目度): 29.037799937729687
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent times, there has been a growing interest in developing effective
perception techniques for combining information from multiple modalities. This
involves aligning features obtained from diverse sources to enable more
efficient training with larger datasets and constraints, as well as leveraging
the wealth of information contained in each modality. 2D and 3D Human Pose
Estimation (HPE) are two critical perceptual tasks in computer vision, which
have numerous downstream applications, such as Action Recognition,
Human-Computer Interaction, Object tracking, etc. Yet, there are limited
instances where the correlation between Image and 2D/3D human pose has been
clearly researched using a contrastive paradigm. In this paper, we propose
UniHPE, a unified Human Pose Estimation pipeline, which aligns features from
all three modalities, i.e., 2D human pose estimation, lifting-based and
image-based 3D human pose estimation, in the same pipeline. To align more than
two modalities at the same time, we propose a novel singular value based
contrastive learning loss, which better aligns different modalities and further
boosts the performance. In our evaluation, UniHPE achieves remarkable
performance metrics: MPJPE $50.5$mm on the Human3.6M dataset and PAMPJPE
$51.6$mm on the 3DPW dataset. Our proposed method holds immense potential to
advance the field of computer vision and contribute to various applications.
- Abstract(参考訳): 近年,複数のモダリティからの情報を組み合わせる効果的な知覚技術開発への関心が高まっている。
これには、さまざまなソースから得られた特徴を調整して、より大きなデータセットと制約によるより効率的なトレーニングを可能にし、各モダリティに含まれる豊富な情報を活用することが含まれる。
2d と 3d human pose estimation (hpe) はコンピュータビジョンにおける2つの重要な知覚課題であり、アクション認識、人間とコンピュータのインタラクション、オブジェクトの追跡など多くの下流アプリケーションがある。
しかし、画像と2D/3D人間のポーズの相関が対照的なパラダイムを用いて明らかに研究されているケースは限られている。
本論文では,これら3つの特徴,すなわち2次元のポーズ推定,リフトベース,画像ベースの3次元ポーズ推定を同一のパイプラインで整列する,統一的なポーズ推定パイプラインであるunihpeを提案する。
2つのモダリティを同時に整合させるため,異なるモダリティの整合性が向上し,性能がさらに向上する,新しい特異値に基づくコントラスト学習損失を提案する。
我々の評価では、MPJPEはHuman3.6Mデータセットで50.5$mm、PAMPJPEは3DPWデータセットで51.6$mmである。
提案手法はコンピュータビジョンの分野を前進させ,様々な応用に寄与する大きな可能性を秘めている。
関連論文リスト
- Interpretable 2D Vision Models for 3D Medical Images [47.75089895500738]
本研究では,3次元画像処理における中間特徴表現を用いた2次元ネットワークの適応手法を提案する。
我々は、ベンチマークとして3D MedMNISTデータセットと、既存の手法に匹敵する数百の高分解能CTまたはMRIスキャンからなる2つの実世界のデータセットを示す。
論文 参考訳(メタデータ) (2023-07-13T08:27:09Z) - Back to Optimization: Diffusion-based Zero-Shot 3D Human Pose Estimation [29.037799937729687]
学習に基づく手法は、従来の最適化に基づく手法よりも多くのベンチマークにおいて非常に優れた性能を持つ3Dヒューマンポーズ推定(HPE)タスクを支配している。
我々は3次元HPEのためのtextbfZero-shot textbfDiffusion-based textbfOptimization (textbfZeDO) パイプラインを提案する。
われわれはHuman3.6Mにおける最先端(SOTA)のパフォーマンスをminMPJPE$51.4$で達成している。
論文 参考訳(メタデータ) (2023-07-07T21:03:18Z) - AdaptivePose++: A Powerful Single-Stage Network for Multi-Person Pose
Regression [66.39539141222524]
そこで本研究では,ヒトの部位を適応点として表現し,微細な身体表現法を提案する。
提案するボディ表現では,AdaptivePoseと呼ばれる,コンパクトなシングルステージ多人数ポーズ回帰ネットワークを提供する。
本稿では,AdaptivePoseの有効性を検証するために,2D/3D多人数ポーズ推定タスクにAdaptivePoseを用いる。
論文 参考訳(メタデータ) (2022-10-08T12:54:20Z) - Higher-Order Implicit Fairing Networks for 3D Human Pose Estimation [1.1501261942096426]
2次元から3次元のポーズ推定のための初期残差接続を持つ高階グラフ畳み込みフレームワークを提案する。
我々のモデルは、体節間の長距離依存関係を捉えることができる。
2つの標準ベンチマークで行った実験と改善研究は、我々のモデルの有効性を実証した。
論文 参考訳(メタデータ) (2021-11-01T13:48:55Z) - Graph-Based 3D Multi-Person Pose Estimation Using Multi-View Images [79.70127290464514]
我々は,タスクを2つの段階,すなわち人物のローカライゼーションとポーズ推定に分解する。
また,効率的なメッセージパッシングのための3つのタスク固有グラフニューラルネットワークを提案する。
提案手法は,CMU Panoptic と Shelf のデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2021-09-13T11:44:07Z) - View-Invariant, Occlusion-Robust Probabilistic Embedding for Human Pose [36.384824115033304]
本研究では,3次元のポーズを明示的に予測することなく,2次元のボディジョイントキーポイントからコンパクトなビュー不変埋め込み空間を学習する手法を提案する。
実験の結果,異なるカメラビューで類似のポーズを検索すると,埋め込みモデルの精度が向上することがわかった。
論文 参考訳(メタデータ) (2020-10-23T17:58:35Z) - Multi-Scale Networks for 3D Human Pose Estimation with Inference Stage
Optimization [33.02708860641971]
モノクロビデオから3Dのポーズを推定することは、まだまだ難しい課題だ。
既存の多くのメソッドは、対象の人が他のオブジェクトに干渉されたり、トレーニングデータのスケールや速度に対して動きが速すぎたり、遅くなったりすると低下する。
頑健な3次元ポーズ推定のための時間的ネットワークを提案する。
論文 参考訳(メタデータ) (2020-10-13T15:24:28Z) - HMOR: Hierarchical Multi-Person Ordinal Relations for Monocular
Multi-Person 3D Pose Estimation [54.23770284299979]
本稿では, 階層型多人数常連関係(HMOR)を新たに導入する。
HMORは相互作用情報を階層的に深さと角度の順序関係として符号化する。
統合トップダウンモデルは、学習プロセスにおけるこれらの順序関係を活用するように設計されている。
提案手法は, 公開されている多人数の3Dポーズデータセットにおいて, 最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2020-08-01T07:53:27Z) - Multi-person 3D Pose Estimation in Crowded Scenes Based on Multi-View
Geometry [62.29762409558553]
マルチパーソナライズされた3次元ポーズ推定手法における特徴マッチングと深さ推定のコアは、エピポーラ制約である。
スパサーの群衆シーンにおけるこの定式化の良好なパフォーマンスにもかかわらず、その効果はより密集した群衆の状況下でしばしば挑戦される。
本稿では,マルチパーソン3次元ポーズ推定式から脱却し,群衆ポーズ推定として再編成する。
論文 参考訳(メタデータ) (2020-07-21T17:59:36Z) - Self-Supervised 3D Human Pose Estimation via Part Guided Novel Image
Synthesis [72.34794624243281]
ラベルのないビデオフレームからバリエーションを分離する自己教師付き学習フレームワークを提案する。
3Dポーズと空間部分マップの表現ギャップを埋める、微分可能な形式化により、多様なカメラの動きを持つビデオで操作できる。
論文 参考訳(メタデータ) (2020-04-09T07:55:01Z) - Weakly-Supervised 3D Human Pose Learning via Multi-view Images in the
Wild [101.70320427145388]
本稿では、3Dアノテーションを必要としない弱教師付きアプローチを提案し、ラベルのないマルチビューデータから3Dポーズを推定する。
提案手法を2つの大規模データセット上で評価する。
論文 参考訳(メタデータ) (2020-03-17T08:47:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。