論文の概要: Self-Supervised 3D Hand Pose Estimation from monocular RGB via
Contrastive Learning
- arxiv url: http://arxiv.org/abs/2106.05953v1
- Date: Thu, 10 Jun 2021 17:48:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-11 14:18:50.272936
- Title: Self-Supervised 3D Hand Pose Estimation from monocular RGB via
Contrastive Learning
- Title(参考訳): コントラスト学習による単眼RGBからの自己監督型3Dハンドポース推定
- Authors: Adrian Spurr, Aneesh Dahiya, Xucong Zhang, Xi Wang, Otmar Hilliges
- Abstract要約: 本稿では,3次元ポーズ推定における構造化回帰タスクに対する自己教師付き手法を提案する。
我々は、不変および同変のコントラスト目的の影響を実験的に検討した。
追加のラベル付きデータに基づいてトレーニングされた標準のResNet-152が、FreiHAND上のPA-EPEで7.6%の改善を実現していることを示す。
- 参考スコア(独自算出の注目度): 50.007445752513625
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Acquiring accurate 3D annotated data for hand pose estimation is a
notoriously difficult problem. This typically requires complex multi-camera
setups and controlled conditions, which in turn creates a domain gap that is
hard to bridge to fully unconstrained settings. Encouraged by the success of
contrastive learning on image classification tasks, we propose a new
self-supervised method for the structured regression task of 3D hand pose
estimation. Contrastive learning makes use of unlabeled data for the purpose of
representation learning via a loss formulation that encourages the learned
feature representations to be invariant under any image transformation. For 3D
hand pose estimation, it too is desirable to have invariance to appearance
transformation such as color jitter. However, the task requires equivariance
under affine transformations, such as rotation and translation. To address this
issue, we propose an equivariant contrastive objective and demonstrate its
effectiveness in the context of 3D hand pose estimation. We experimentally
investigate the impact of invariant and equivariant contrastive objectives and
show that learning equivariant features leads to better representations for the
task of 3D hand pose estimation. Furthermore, we show that a standard
ResNet-152, trained on additional unlabeled data, attains an improvement of
$7.6\%$ in PA-EPE on FreiHAND and thus achieves state-of-the-art performance
without any task specific, specialized architectures.
- Abstract(参考訳): 手振り推定のための正確な3Dアノテートデータを取得することは、非常に難しい問題である。
これは通常、複雑なマルチカメラのセットアップと制御条件を必要とするため、ドメイン間隙が生じ、完全に制約されていない設定に橋渡しすることが難しい。
画像分類タスクにおけるコントラスト学習の成功にともなって、3次元手ポーズ推定の構造化回帰タスクを自己指導する手法を提案する。
コントラスト学習は、学習した特徴表現が任意の画像変換の下で不変であることを奨励する損失定式化による表現学習のためにラベルのないデータを利用する。
3次元手のポーズ推定では、色ジッタのような外観変化にばらつきがあることも望ましい。
しかし、このタスクは回転や変換のようなアフィン変換の下での等価性を必要とする。
この問題に対処するために,同変コントラスト目標を提案し,その効果を3次元手形推定の文脈で実証する。
本研究では,不変および同変コントラスト目標の影響を実験的に検証し,学習同変特徴が3次元手ポーズ推定のタスクにより良い表現をもたらすことを示す。
さらに、追加のラベル付きデータに基づいてトレーニングされた標準ResNet-152は、FreiHAND上のPA-EPEで7.6\%の改善を実現し、タスク固有の特別なアーキテクチャを使わずに最先端のパフォーマンスを実現する。
関連論文リスト
- iComMa: Inverting 3D Gaussian Splatting for Camera Pose Estimation via Comparing and Matching [14.737266480464156]
コンピュータビジョンにおける6次元カメラのポーズ推定問題に対処するため,iComMaという手法を提案する。
3次元ガウススプラッティング(3DGS)の反転による高精度カメラポーズ推定法を提案する。
論文 参考訳(メタデータ) (2023-12-14T15:31:33Z) - Denoising Diffusion for 3D Hand Pose Estimation from Images [38.20064386142944]
本稿では,モノクロ画像やシーケンスからの3次元手ポーズ推定の問題に対処する。
本稿では,3次元ハンドレグレッションのための新しいエンド・ツー・エンド・エンド・フレームワークを提案する。
提案モデルは,2次元の片手画像を3Dに持ち上げる際に,最先端の性能を提供する。
論文 参考訳(メタデータ) (2023-08-18T12:57:22Z) - Uncertainty-Aware Adaptation for Self-Supervised 3D Human Pose
Estimation [70.32536356351706]
本稿では、2つの出力ヘッドを2つの異なる構成にサブスクライブする共通のディープネットワークバックボーンを構成するMPP-Netを紹介する。
ポーズと関節のレベルで予測の不確実性を定量化するための適切な尺度を導出する。
本稿では,提案手法の総合評価を行い,ベンチマークデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2022-03-29T07:14:58Z) - 3D Hand Pose and Shape Estimation from RGB Images for Improved
Keypoint-Based Hand-Gesture Recognition [25.379923604213626]
本稿では3次元手とポーズ推定のためのキーポイントに基づくエンドツーエンドフレームワークを提案する。
研究ケースとして手身認識タスクにうまく適用できる。
論文 参考訳(メタデータ) (2021-09-28T17:07:43Z) - Unsupervised View-Invariant Human Posture Representation [28.840986167408037]
本研究では、2次元画像からビュー不変な3次元ポーズ表現を抽出することを学ぶ新しい教師なしアプローチを提案する。
本モデルは,同時フレーム間の人間のポーズの内在的なビュー不変性を活用することで訓練される。
RGB画像と深度画像の非教師なしのクロスビュー動作分類精度の改善を示す。
論文 参考訳(メタデータ) (2021-09-17T19:23:31Z) - Kinematic-Structure-Preserved Representation for Unsupervised 3D Human
Pose Estimation [58.72192168935338]
大規模インスタディオデータセットの監視を用いて開発された人間のポーズ推定モデルの一般化可能性については疑問が残る。
本稿では,2対あるいは2対の弱い監督者によって抑制されない,新しいキネマティック構造保存型非教師付き3次元ポーズ推定フレームワークを提案する。
提案モデルでは,前方運動学,カメラ投影,空間マップ変換という3つの連続的な微分可能変換を用いる。
論文 参考訳(メタデータ) (2020-06-24T23:56:33Z) - Leveraging Photometric Consistency over Time for Sparsely Supervised
Hand-Object Reconstruction [118.21363599332493]
本稿では,ビデオ中のフレームの粗いサブセットに対してのみアノテーションが利用できる場合に,時間とともに光度整合性を活用する手法を提案する。
本モデルでは,ポーズを推定することにより,手や物体を3Dで共同で再構成するカラーイメージをエンドツーエンドに訓練する。
提案手法は,3次元手動画像再構成の精度向上に有効であることを示す。
論文 参考訳(メタデータ) (2020-04-28T12:03:14Z) - Self-Supervised 3D Human Pose Estimation via Part Guided Novel Image
Synthesis [72.34794624243281]
ラベルのないビデオフレームからバリエーションを分離する自己教師付き学習フレームワークを提案する。
3Dポーズと空間部分マップの表現ギャップを埋める、微分可能な形式化により、多様なカメラの動きを持つビデオで操作できる。
論文 参考訳(メタデータ) (2020-04-09T07:55:01Z) - Measuring Generalisation to Unseen Viewpoints, Articulations, Shapes and
Objects for 3D Hand Pose Estimation under Hand-Object Interaction [137.28465645405655]
HANDS'19は、現在の3Dハンドポーズ推定器(HPE)がトレーニングセットのポーズを補間し、外挿する能力を評価するための課題である。
本研究では,最先端手法の精度が低下し,トレーニングセットから外れたポーズでほとんど失敗することを示す。
論文 参考訳(メタデータ) (2020-03-30T19:28:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。