論文の概要: Neural Voting Field for Camera-Space 3D Hand Pose Estimation
- arxiv url: http://arxiv.org/abs/2305.04328v1
- Date: Sun, 7 May 2023 16:51:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-09 16:22:04.630969
- Title: Neural Voting Field for Camera-Space 3D Hand Pose Estimation
- Title(参考訳): カメラ空間3次元ハンドポーズ推定のためのニューラル投票場
- Authors: Lin Huang, Chung-Ching Lin, Kevin Lin, Lin Liang, Lijuan Wang, Junsong
Yuan, Zicheng Liu
- Abstract要約: 3次元暗黙表現に基づく1枚のRGB画像からカメラ空間の3Dハンドポーズ推定のための統一的なフレームワークを提案する。
本稿では,カメラフラストラムにおける高密度3次元ポイントワイド投票により,カメラ空間の3次元ハンドポーズを推定する,新しい3次元高密度回帰手法を提案する。
- 参考スコア(独自算出の注目度): 106.34750803910714
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a unified framework for camera-space 3D hand pose estimation from
a single RGB image based on 3D implicit representation. As opposed to recent
works, most of which first adopt holistic or pixel-level dense regression to
obtain relative 3D hand pose and then follow with complex second-stage
operations for 3D global root or scale recovery, we propose a novel unified 3D
dense regression scheme to estimate camera-space 3D hand pose via dense 3D
point-wise voting in camera frustum. Through direct dense modeling in 3D domain
inspired by Pixel-aligned Implicit Functions for 3D detailed reconstruction,
our proposed Neural Voting Field (NVF) fully models 3D dense local evidence and
hand global geometry, helping to alleviate common 2D-to-3D ambiguities.
Specifically, for a 3D query point in camera frustum and its pixel-aligned
image feature, NVF, represented by a Multi-Layer Perceptron, regresses: (i) its
signed distance to the hand surface; (ii) a set of 4D offset vectors (1D voting
weight and 3D directional vector to each hand joint). Following a vote-casting
scheme, 4D offset vectors from near-surface points are selected to calculate
the 3D hand joint coordinates by a weighted average. Experiments demonstrate
that NVF outperforms existing state-of-the-art algorithms on FreiHAND dataset
for camera-space 3D hand pose estimation. We also adapt NVF to the classic task
of root-relative 3D hand pose estimation, for which NVF also obtains
state-of-the-art results on HO3D dataset.
- Abstract(参考訳): 3次元暗黙表現に基づく単一のrgb画像からカメラ空間3次元手ポーズ推定のための統一フレームワークを提案する。
まず, 全体的, ピクセルレベルでの重回帰を用いて相対的な3dハンドポーズを取得し, かつ, 複雑な第2ステージ操作により3dグローバルルートやスケールリカバリを行う最近の研究とは対照的に, カメラフラスタムにおける高密度3dポイントワイズ投票によるカメラ空間3dハンドポーズ推定のための新しい統一3d重回帰スキームを提案する。
3D領域の直接密なモデリングを、Pixel-aligned Implicit関数にインスパイアされた3Dの詳細な再構築を通じて、我々の提案したNeural Voting Field(NVF)は、3Dの局所的な証拠と手動のグローバルな幾何学をモデル化し、一般的な2Dから3Dの曖昧さを軽減する。
具体的には、カメラフラストラムの3Dクエリポイントとそのピクセル整列画像の特徴であるNVFは、多重層パーセプトロンで表される。
(i)手表面への符号付き距離
(ii)一連の4次元オフセットベクトル(各ハンドジョイントに対する1次元投票重量と3次元方向ベクトル)。
投票方式の後、近面点からの4Dオフセットベクトルを選択し、重み付き平均で3Dハンドジョイント座標を算出する。
実験により、NVFはカメラ空間の3Dハンドポーズ推定のためのFreiHANDデータセット上の既存の最先端アルゴリズムより優れていることが示された。
我々はまた、NVFをルート相対的な3D手ポーズ推定の古典的なタスクに適用し、HO3Dデータセットの最先端結果を得る。
関連論文リスト
- 6D Object Pose Estimation from Approximate 3D Models for Orbital
Robotics [19.64111218032901]
単一画像から物体の6次元ポーズを推定する新しい手法を提案する。
画素毎に3次元モデル座標を回帰する高密度な2次元から3次元対応予測器を用いる。
提案手法は,SPEED+データセット上での最先端性能を実現し,SPEC2021ポストモーテムコンペティションで優勝した。
論文 参考訳(メタデータ) (2023-03-23T13:18:05Z) - Neural Correspondence Field for Object Pose Estimation [67.96767010122633]
1枚のRGB画像から3次元モデルで剛体物体の6DoFポーズを推定する手法を提案する。
入力画像の画素で3次元オブジェクト座標を予測する古典的対応法とは異なり,提案手法はカメラフラストラムでサンプリングされた3次元クエリポイントで3次元オブジェクト座標を予測する。
論文 参考訳(メタデータ) (2022-07-30T01:48:23Z) - ImplicitVol: Sensorless 3D Ultrasound Reconstruction with Deep Implicit
Representation [13.71137201718831]
本研究の目的は, 深い暗示表現を持つ2次元自由手超音波画像の集合から, 3次元ボリュームのセンサレス再構成を実現することである。
3次元体積を離散ボクセル格子として表現する従来の方法とは対照的に、連続函数のゼロレベル集合としてパラメータ化することでそうする。
提案モデルでは,インプリシットボル(ImplicitVol)が入力として2Dスキャンと推定位置を3Dで抽出し,推定した3D位置を共同で再現し,3Dボリュームの完全な再構築を学習する。
論文 参考訳(メタデータ) (2021-09-24T17:59:18Z) - Multi-View Multi-Person 3D Pose Estimation with Plane Sweep Stereo [71.59494156155309]
既存のマルチビュー3Dポーズ推定手法は、複数のカメラビューからグループ2Dポーズ検出に対するクロスビュー対応を明確に確立する。
平面スイープステレオに基づくマルチビュー3Dポーズ推定手法を提案し、クロスビュー融合と3Dポーズ再構築を1ショットで共同で解決します。
論文 参考訳(メタデータ) (2021-04-06T03:49:35Z) - Residual Pose: A Decoupled Approach for Depth-based 3D Human Pose
Estimation [18.103595280706593]
我々は,CNNによる信頼度の高い2次元ポーズ推定の最近の進歩を活用し,深度画像から人物の3次元ポーズを推定する。
提案手法は2つの公開データセットの精度と速度の両面で非常に競争力のある結果が得られる。
論文 参考訳(メタデータ) (2020-11-10T10:08:13Z) - Cylinder3D: An Effective 3D Framework for Driving-scene LiDAR Semantic
Segmentation [87.54570024320354]
大規模運転シーンのLiDARセマンティックセマンティックセグメンテーションのための最先端の手法は、しばしば2D空間の点雲を投影して処理する。
3D-to-2Dプロジェクションの問題に取り組むための簡単な解決策は、3D表現を保ち、3D空間の点を処理することである。
我々は3次元シリンダー分割と3次元シリンダー畳み込みに基づくフレームワークをCylinder3Dとして開発し,3次元トポロジの関係と運転シーンの点雲の構造を利用する。
論文 参考訳(メタデータ) (2020-08-04T13:56:19Z) - Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled
Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。
我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。
アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文 参考訳(メタデータ) (2020-04-05T12:52:29Z) - HandVoxNet: Deep Voxel-Based Network for 3D Hand Shape and Pose
Estimation from a Single Depth Map [72.93634777578336]
弱教師付き方式で3次元畳み込みを訓練した新しいアーキテクチャを提案する。
提案されたアプローチは、SynHand5Mデータセット上で、アートの状態を47.8%改善する。
我々の手法は、NYUとBigHand2.2Mデータセットで視覚的により合理的で現実的な手形を生成する。
論文 参考訳(メタデータ) (2020-04-03T14:27:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。