論文の概要: Single-to-Dual-View Adaptation for Egocentric 3D Hand Pose Estimation
- arxiv url: http://arxiv.org/abs/2403.04381v1
- Date: Thu, 7 Mar 2024 10:14:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-08 14:24:10.284068
- Title: Single-to-Dual-View Adaptation for Egocentric 3D Hand Pose Estimation
- Title(参考訳): Egocentric 3D Hand Pose 推定のための一対二の視点適応
- Authors: Ruicong Liu, Takehiko Ohkawa, Mingfang Zhang, Yoichi Sato
- Abstract要約: 本稿では,事前学習した単一ビュー推定器を双対ビューに適応させる新しいS2DHand法を提案する。
S2DHandは、インデータセットとクロスデータセットの両方の設定下で、任意のカメラペアを大幅に改善する。
- 参考スコア(独自算出の注目度): 16.95807780754898
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The pursuit of accurate 3D hand pose estimation stands as a keystone for
understanding human activity in the realm of egocentric vision. The majority of
existing estimation methods still rely on single-view images as input, leading
to potential limitations, e.g., limited field-of-view and ambiguity in depth.
To address these problems, adding another camera to better capture the shape of
hands is a practical direction. However, existing multi-view hand pose
estimation methods suffer from two main drawbacks: 1) Requiring multi-view
annotations for training, which are expensive. 2) During testing, the model
becomes inapplicable if camera parameters/layout are not the same as those used
in training. In this paper, we propose a novel Single-to-Dual-view adaptation
(S2DHand) solution that adapts a pre-trained single-view estimator to dual
views. Compared with existing multi-view training methods, 1) our adaptation
process is unsupervised, eliminating the need for multi-view annotation. 2)
Moreover, our method can handle arbitrary dual-view pairs with unknown camera
parameters, making the model applicable to diverse camera settings.
Specifically, S2DHand is built on certain stereo constraints, including
pair-wise cross-view consensus and invariance of transformation between both
views. These two stereo constraints are used in a complementary manner to
generate pseudo-labels, allowing reliable adaptation. Evaluation results reveal
that S2DHand achieves significant improvements on arbitrary camera pairs under
both in-dataset and cross-dataset settings, and outperforms existing adaptation
methods with leading performance. Project page:
https://github.com/MickeyLLG/S2DHand.
- Abstract(参考訳): 正確な3次元手ポーズ推定の追求は、自我中心の視覚領域における人間の活動を理解するための鍵となる。
既存の推定手法の大半は入力として単一ビュー画像に依存しており、視野の制限や奥行きの曖昧さといった潜在的な制限につながっている。
これらの問題に対処するために、手の形をよりよく捉えるために別のカメラを追加することは実用的な方向である。
しかし, 既存の多視点ハンドポーズ推定手法では, 主な欠点が2つある。
1) トレーニングに多視点アノテーションを必要とするが、これは高価である。
2) テスト中は, カメラパラメータやレイアウトがトレーニングで使用するものと同じでない場合, モデルは適用不能となる。
本稿では,事前学習した単一視点推定器をデュアルビューに適応させる新しいS2DHand法を提案する。
既存の多視点訓練法と比較する。
1) 適応プロセスは教師なしであり,マルチビューアノテーションは不要である。
2) 任意のデュアルビュー対を未知のカメラパラメータで処理でき, 多様なカメラ設定に適用できる。
具体的には、s2dhandは、ペアワイズクロスビューコンセンサスや両ビュー間の変換の不変性など、ある種のステレオ制約に基づいて構築されている。
これら2つのステレオ制約は、擬似ラベルを生成するために相補的な方法で使用され、信頼性の高い適応を可能にする。
評価の結果,in-datasetとcross-dataset設定の両方において,s2dhandは任意のカメラペアに対して大幅な改善を達成し,既存の適応手法よりも優れた性能を実現していることがわかった。
プロジェクトページ:https://github.com/MickeyLLG/S2DHand。
関連論文リスト
- Self-learning Canonical Space for Multi-view 3D Human Pose Estimation [57.969696744428475]
マルチビュー3次元人間のポーズ推定は、自然に単一ビューのポーズ推定よりも優れている。
これらの情報の正確な注釈を得るのは難しい。
完全自己管理型多視点アグリゲーションネットワーク(CMANet)を提案する。
CMANetは、大規模で質的な分析において最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2024-03-19T04:54:59Z) - Multi-View Person Matching and 3D Pose Estimation with Arbitrary
Uncalibrated Camera Networks [36.49915280876899]
マルチカメラネットワークにおける人物マッチングと人物の3次元ポーズ推定は、カメラが外在的に校正されていない場合、困難である。
既存の取り組みでは、ニューラルネットワークや既知のカメラのトレーニングに大量の3Dデータが必要である。
どちらの情報も必要とせずに2つの課題を解く手法であるPMEを提案する。
論文 参考訳(メタデータ) (2023-12-04T01:28:38Z) - Two Views Are Better than One: Monocular 3D Pose Estimation with Multiview Consistency [0.493599216374976]
本稿では,2次元の教師のみによるトレーニングデータの追加を可能にするために,新たな損失関数であるマルチビュー整合性を提案する。
実験の結果,2つの視点を90度にオフセットすれば良好な性能が得られることがわかった。
本研究は3次元ポーズ推定におけるドメイン適応の新たな可能性を導入し,特定のアプリケーション向けにモデルをカスタマイズするための実用的で費用対効果の高いソリューションを提供する。
論文 参考訳(メタデータ) (2023-11-21T08:21:55Z) - CameraPose: Weakly-Supervised Monocular 3D Human Pose Estimation by
Leveraging In-the-wild 2D Annotations [25.05308239278207]
一つの画像から3次元のポーズ推定を行うための弱教師付きフレームワークであるCameraPoseを提案する。
カメラパラメータブランチを追加することで、Wildの2Dアノテーションをパイプラインに投入して、トレーニングの多様性を高めることができます。
また、2次元ポーズ推定器によって抽出されたノイズの多い2Dキーポイントの品質をさらに向上させるため、信頼誘導損失を有する改良型ネットワークモジュールも導入する。
論文 参考訳(メタデータ) (2023-01-08T05:07:41Z) - VirtualPose: Learning Generalizable 3D Human Pose Models from Virtual
Data [69.64723752430244]
このタスクに特有の隠れた「フリーランチ」を活用するための2段階学習フレームワークであるVirtualPoseを紹介する。
1段目は画像を抽象幾何学表現(AGR)に変換し、2段目はそれらを3Dポーズにマッピングする。
1)第1段は多様な2次元データセットでトレーニングし、限られた外観への過度な適合のリスクを軽減し、2)多数の仮想カメラとポーズから合成された多様なAGRでトレーニングすることができる。
論文 参考訳(メタデータ) (2022-07-20T14:47:28Z) - MetaPose: Fast 3D Pose from Multiple Views without 3D Supervision [72.5863451123577]
正確な3Dポーズとカメラ推定が可能なニューラルモデルをトレーニングする方法を示す。
本手法は,古典的バンドル調整と弱教師付き単分子3Dベースラインの両方に優れる。
論文 参考訳(メタデータ) (2021-08-10T18:39:56Z) - CanonPose: Self-Supervised Monocular 3D Human Pose Estimation in the
Wild [31.334715988245748]
ラベルのないマルチビューデータから1つの画像3Dポーズ推定器を学習する自己教師型アプローチを提案する。
既存のほとんどの方法とは対照的に、校正カメラは必要とせず、移動カメラから学ぶことができる。
成功の鍵は、ビューとトレーニングサンプルの情報を混ぜ合わせた、新しく偏見のない再建目標である。
論文 参考訳(メタデータ) (2020-11-30T10:42:27Z) - Synthetic Training for Monocular Human Mesh Recovery [100.38109761268639]
本稿では,RGB画像と大規模に異なる複数の身体部位の3次元メッシュを推定することを目的とする。
主な課題は、2D画像のすべての身体部分の3Dアノテーションを完備するトレーニングデータがないことである。
本稿では,D2S(Deep-to-scale)投影法を提案する。
論文 参考訳(メタデータ) (2020-10-27T03:31:35Z) - Self-Supervised 3D Human Pose Estimation via Part Guided Novel Image
Synthesis [72.34794624243281]
ラベルのないビデオフレームからバリエーションを分離する自己教師付き学習フレームワークを提案する。
3Dポーズと空間部分マップの表現ギャップを埋める、微分可能な形式化により、多様なカメラの動きを持つビデオで操作できる。
論文 参考訳(メタデータ) (2020-04-09T07:55:01Z) - Weakly-Supervised 3D Human Pose Learning via Multi-view Images in the
Wild [101.70320427145388]
本稿では、3Dアノテーションを必要としない弱教師付きアプローチを提案し、ラベルのないマルチビューデータから3Dポーズを推定する。
提案手法を2つの大規模データセット上で評価する。
論文 参考訳(メタデータ) (2020-03-17T08:47:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。