論文の概要: Multi-View Video-Based 3D Hand Pose Estimation
- arxiv url: http://arxiv.org/abs/2109.11747v1
- Date: Fri, 24 Sep 2021 05:20:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-27 14:24:39.403035
- Title: Multi-View Video-Based 3D Hand Pose Estimation
- Title(参考訳): マルチビュー映像ベース3次元ハンドポース推定
- Authors: Leyla Khaleghi, Alireza Sepas Moghaddam, Joshua Marshall, Ali Etemad
- Abstract要約: 提案するマルチビュービデオベース3Dハンドデータセットは,手動のマルチビュービデオと地動3Dポーズラベルから構成される。
私たちのデータセットには、4,560のビデオで利用可能な402,000以上の合成手画像が含まれています。
次に、手の視覚的埋め込みを得るために、画像エンコーダからなるニューラルネットワークであるMuViHandNetを実装した。
- 参考スコア(独自算出の注目度): 11.65577683784217
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Hand pose estimation (HPE) can be used for a variety of human-computer
interaction applications such as gesture-based control for physical or
virtual/augmented reality devices. Recent works have shown that videos or
multi-view images carry rich information regarding the hand, allowing for the
development of more robust HPE systems. In this paper, we present the
Multi-View Video-Based 3D Hand (MuViHand) dataset, consisting of multi-view
videos of the hand along with ground-truth 3D pose labels. Our dataset includes
more than 402,000 synthetic hand images available in 4,560 videos. The videos
have been simultaneously captured from six different angles with complex
backgrounds and random levels of dynamic lighting. The data has been captured
from 10 distinct animated subjects using 12 cameras in a semi-circle topology
where six tracking cameras only focus on the hand and the other six fixed
cameras capture the entire body. Next, we implement MuViHandNet, a neural
pipeline consisting of image encoders for obtaining visual embeddings of the
hand, recurrent learners to learn both temporal and angular sequential
information, and graph networks with U-Net architectures to estimate the final
3D pose information. We perform extensive experiments and show the challenging
nature of this new dataset as well as the effectiveness of our proposed method.
Ablation studies show the added value of each component in MuViHandNet, as well
as the benefit of having temporal and sequential information in the dataset.
- Abstract(参考訳): ハンドポーズ推定(HPE)は、物理または仮想または拡張現実デバイスのためのジェスチャーベースの制御など、さまざまな人間とコンピュータのインタラクションアプリケーションに使用できる。
近年の研究では、ビデオやマルチビュー画像は手に関する豊富な情報を持ち、より堅牢なHPEシステムの開発を可能にすることが示されている。
本稿では,マルチビュービデオを用いた3dハンド(muvihand)データセットについて紹介する。
私たちのデータセットには、4,560のビデオで利用可能な402,000以上の合成手画像が含まれています。
ビデオは6つの異なる角度から同時に撮影され、複雑な背景とランダムなダイナミック照明のレベルがある。
6台の追跡カメラが手のみに焦点を合わせ、残りの6台の固定カメラが体全体を撮影する半円トポロジーで12台のカメラを使って、10人のアニメーション被験者からデータを収集した。
次に、手指の視覚的埋め込みを得るための画像エンコーダと、時間的および角的なシーケンシャル情報を学ぶための繰り返し学習者と、U-Netアーキテクチャを用いたグラフネットワークからなるニューラルネットワーク、MuViHandNetを実装し、最終的な3Dポーズ情報を推定する。
我々は,この新しいデータセットの難解な性質と提案手法の有効性を示すため,広範な実験を行った。
アブレーション調査では、MuViHandNetの各コンポーネントの付加価値に加えて、データセットに時間的およびシーケンシャルな情報を持つことのメリットが示されている。
関連論文リスト
- PIV3CAMS: a multi-camera dataset for multiple computer vision problems and its application to novel view-point synthesis [120.4361056355332]
この論文では、3つのCAMeraS、すなわちPIV3CAMSからPaired Image and Videoのデータを紹介している。
PIV3CAMSデータセットは8385対の画像と82対のビデオで構成されている。
本稿では,現在最先端のアルゴリズムの再構築に加えて,深度情報を幾何的に統合する代替モデルについても検討する。
論文 参考訳(メタデータ) (2024-07-26T12:18:29Z) - HUP-3D: A 3D multi-view synthetic dataset for assisted-egocentric hand-ultrasound pose estimation [11.876066932162873]
HUP-3Dは手動超音波プローブポーズ推定のための3次元マルチビュー合成データセットである。
私たちのデータセットは31万以上の動きで構成されています。
我々のアプローチには、画像レンダリングの概念、様々な手や腕のテクスチャによる多様性の向上が含まれる。
論文 参考訳(メタデータ) (2024-07-12T12:25:42Z) - HO-Cap: A Capture System and Dataset for 3D Reconstruction and Pose Tracking of Hand-Object Interaction [16.363878619678367]
ビデオ中の手や物体の3D再構成とポーズ追跡に使用できるHO-Capという新しいデータセットを紹介した。
そこで本研究では,手や物体の形状やポーズのアノテーションを半自動で取得する手法を提案する。
我々のデータキャプチャのセットアップとアノテーションフレームワークは、コミュニティがオブジェクトと人間の手の3D形状を再構築し、それらのポーズをビデオで追跡するために使用することができる。
論文 参考訳(メタデータ) (2024-06-10T23:25:19Z) - AutoDecoding Latent 3D Diffusion Models [95.7279510847827]
本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対して,新しいアプローチを提案する。
3D Autodecoderフレームワークは、ターゲットデータセットから学んだプロパティを潜時空間に埋め込む。
次に、適切な中間体積潜在空間を特定し、ロバストな正規化と非正規化演算を導入する。
論文 参考訳(メタデータ) (2023-07-07T17:59:14Z) - Learning to Deblur and Rotate Motion-Blurred Faces [43.673660541417995]
ニューラルネットワークを用いて、1つの画像と対応する顔の視線から3Dビデオ表現を再構成する。
次に、推定視線に対するカメラ視点と、エンコーダデコーダネットワークに入力されるぼやけた画像とを比較し、新しいカメラ視点でシャープフレームのビデオを生成する。
論文 参考訳(メタデータ) (2021-12-14T17:51:19Z) - 4D-Net for Learned Multi-Modal Alignment [87.58354992455891]
本稿では,3DポイントクラウドとRGBセンシング情報を利用した3Dオブジェクト検出手法である4D-Netを提案する。
様々な特徴表現や抽象化レベルにまたがる新しい接続学習を行い、また幾何学的制約を観察することで、4D情報を組み込むことができる。
論文 参考訳(メタデータ) (2021-09-02T16:35:00Z) - D3D-HOI: Dynamic 3D Human-Object Interactions from Videos [49.38319295373466]
本稿では,D3D-HOIについて紹介する。D3D-HOIは3次元オブジェクトのポーズ,形状,動きを,人間と物体の相互作用の時,地上の真理アノテーションを付加したモノクロビデオのデータセットである。
我々のデータセットは、様々な現実世界のシーンとカメラの視点から捉えた、いくつかの共通したオブジェクトで構成されている。
我々は、推定された3次元人間のポーズを利用して、物体の空間的レイアウトとダイナミクスをより正確に推定する。
論文 参考訳(メタデータ) (2021-08-19T00:49:01Z) - Self-Supervised Multi-View Synchronization Learning for 3D Pose
Estimation [39.334995719523]
現在の方法では、画像の大規模なデータセットと対応するスケルトンポーズに基づいてニューラルネットワークをトレーニングすることで、学習問題としてモノラルな3次元ポーズ推定が採用されている。
そこで本稿では,ラベルなしデータセットの自己教師付き学習を通じて事前学習した微調整ネットワークによって,小さな注釈付きデータセットを活用できるアプローチを提案する。
我々は,Human3.6Mデータセット上での同期タスクの有効性を実証し,人間の3次元ポーズ推定における最先端結果を実現する。
論文 参考訳(メタデータ) (2020-10-13T08:01:24Z) - MM-Hand: 3D-Aware Multi-Modal Guided Hand Generative Network for 3D Hand
Pose Synthesis [81.40640219844197]
モノラルなRGB画像から3Dハンドポーズを推定することは重要だが難しい。
解決策は、高精度な3D手指キーポイントアノテーションを用いた大規模RGB手指画像のトレーニングである。
我々は,現実的で多様な3次元ポーズ保存ハンドイメージを合成する学習ベースアプローチを開発した。
論文 参考訳(メタデータ) (2020-10-02T18:27:34Z) - Monocular Real-time Hand Shape and Motion Capture using Multi-modal Data [77.34069717612493]
本稿では,100fpsの単眼手形状とポーズ推定の新たな手法を提案する。
これは、利用可能なハンドトレーニングデータのソースをすべて活用できるように設計された、新しい学習ベースのアーキテクチャによって実現されている。
3次元手関節検出モジュールと逆キネマティクスモジュールを備えており、3次元手関節位置だけでなく、1つのフィードフォワードパスでそれらを関節回転にマッピングする。
論文 参考訳(メタデータ) (2020-03-21T03:51:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。