論文の概要: Multi-View Video-Based 3D Hand Pose Estimation
- arxiv url: http://arxiv.org/abs/2109.11747v1
- Date: Fri, 24 Sep 2021 05:20:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-27 14:24:39.403035
- Title: Multi-View Video-Based 3D Hand Pose Estimation
- Title(参考訳): マルチビュー映像ベース3次元ハンドポース推定
- Authors: Leyla Khaleghi, Alireza Sepas Moghaddam, Joshua Marshall, Ali Etemad
- Abstract要約: 提案するマルチビュービデオベース3Dハンドデータセットは,手動のマルチビュービデオと地動3Dポーズラベルから構成される。
私たちのデータセットには、4,560のビデオで利用可能な402,000以上の合成手画像が含まれています。
次に、手の視覚的埋め込みを得るために、画像エンコーダからなるニューラルネットワークであるMuViHandNetを実装した。
- 参考スコア(独自算出の注目度): 11.65577683784217
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Hand pose estimation (HPE) can be used for a variety of human-computer
interaction applications such as gesture-based control for physical or
virtual/augmented reality devices. Recent works have shown that videos or
multi-view images carry rich information regarding the hand, allowing for the
development of more robust HPE systems. In this paper, we present the
Multi-View Video-Based 3D Hand (MuViHand) dataset, consisting of multi-view
videos of the hand along with ground-truth 3D pose labels. Our dataset includes
more than 402,000 synthetic hand images available in 4,560 videos. The videos
have been simultaneously captured from six different angles with complex
backgrounds and random levels of dynamic lighting. The data has been captured
from 10 distinct animated subjects using 12 cameras in a semi-circle topology
where six tracking cameras only focus on the hand and the other six fixed
cameras capture the entire body. Next, we implement MuViHandNet, a neural
pipeline consisting of image encoders for obtaining visual embeddings of the
hand, recurrent learners to learn both temporal and angular sequential
information, and graph networks with U-Net architectures to estimate the final
3D pose information. We perform extensive experiments and show the challenging
nature of this new dataset as well as the effectiveness of our proposed method.
Ablation studies show the added value of each component in MuViHandNet, as well
as the benefit of having temporal and sequential information in the dataset.
- Abstract(参考訳): ハンドポーズ推定(HPE)は、物理または仮想または拡張現実デバイスのためのジェスチャーベースの制御など、さまざまな人間とコンピュータのインタラクションアプリケーションに使用できる。
近年の研究では、ビデオやマルチビュー画像は手に関する豊富な情報を持ち、より堅牢なHPEシステムの開発を可能にすることが示されている。
本稿では,マルチビュービデオを用いた3dハンド(muvihand)データセットについて紹介する。
私たちのデータセットには、4,560のビデオで利用可能な402,000以上の合成手画像が含まれています。
ビデオは6つの異なる角度から同時に撮影され、複雑な背景とランダムなダイナミック照明のレベルがある。
6台の追跡カメラが手のみに焦点を合わせ、残りの6台の固定カメラが体全体を撮影する半円トポロジーで12台のカメラを使って、10人のアニメーション被験者からデータを収集した。
次に、手指の視覚的埋め込みを得るための画像エンコーダと、時間的および角的なシーケンシャル情報を学ぶための繰り返し学習者と、U-Netアーキテクチャを用いたグラフネットワークからなるニューラルネットワーク、MuViHandNetを実装し、最終的な3Dポーズ情報を推定する。
我々は,この新しいデータセットの難解な性質と提案手法の有効性を示すため,広範な実験を行った。
アブレーション調査では、MuViHandNetの各コンポーネントの付加価値に加えて、データセットに時間的およびシーケンシャルな情報を持つことのメリットが示されている。
関連論文リスト
- AutoDecoding Latent 3D Diffusion Models [95.7279510847827]
本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対して,新しいアプローチを提案する。
3D Autodecoderフレームワークは、ターゲットデータセットから学んだプロパティを潜時空間に埋め込む。
次に、適切な中間体積潜在空間を特定し、ロバストな正規化と非正規化演算を導入する。
論文 参考訳(メタデータ) (2023-07-07T17:59:14Z) - Learning Sequential Contexts using Transformer for 3D Hand Pose
Estimation [16.457778420360537]
3Dハンドポーズ推定(3D Hand pose Estimation, HPE)は、任意の視覚入力から手関節を3Dで特定する過程である。
ハンドポーズ推定のための Transformer を用いた逐次学習手法を提案する。
実験の結果,SeTHPoseは時間的および角的な手列の変種でも良好に機能することがわかった。
論文 参考訳(メタデータ) (2022-06-01T01:22:29Z) - Learning to Deblur and Rotate Motion-Blurred Faces [43.673660541417995]
ニューラルネットワークを用いて、1つの画像と対応する顔の視線から3Dビデオ表現を再構成する。
次に、推定視線に対するカメラ視点と、エンコーダデコーダネットワークに入力されるぼやけた画像とを比較し、新しいカメラ視点でシャープフレームのビデオを生成する。
論文 参考訳(メタデータ) (2021-12-14T17:51:19Z) - 4D-Net for Learned Multi-Modal Alignment [87.58354992455891]
本稿では,3DポイントクラウドとRGBセンシング情報を利用した3Dオブジェクト検出手法である4D-Netを提案する。
様々な特徴表現や抽象化レベルにまたがる新しい接続学習を行い、また幾何学的制約を観察することで、4D情報を組み込むことができる。
論文 参考訳(メタデータ) (2021-09-02T16:35:00Z) - D3D-HOI: Dynamic 3D Human-Object Interactions from Videos [49.38319295373466]
本稿では,D3D-HOIについて紹介する。D3D-HOIは3次元オブジェクトのポーズ,形状,動きを,人間と物体の相互作用の時,地上の真理アノテーションを付加したモノクロビデオのデータセットである。
我々のデータセットは、様々な現実世界のシーンとカメラの視点から捉えた、いくつかの共通したオブジェクトで構成されている。
我々は、推定された3次元人間のポーズを利用して、物体の空間的レイアウトとダイナミクスをより正確に推定する。
論文 参考訳(メタデータ) (2021-08-19T00:49:01Z) - VoxelTrack: Multi-Person 3D Human Pose Estimation and Tracking in the
Wild [98.69191256693703]
本稿では,VoxelTrackを用いて,多人数の3次元ポーズ推定と,広義のベースラインで分離された少数のカメラからの追跡を行う。
マルチブランチネットワークを使用して、環境中のすべての人に3Dポーズと再識別機能(Re-ID)を共同で推定する。
これは、Shelf、Campus、CMU Panopticの3つの公開データセットに対して、最先端の手法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2021-08-05T08:35:44Z) - Self-Supervised Multi-View Synchronization Learning for 3D Pose
Estimation [39.334995719523]
現在の方法では、画像の大規模なデータセットと対応するスケルトンポーズに基づいてニューラルネットワークをトレーニングすることで、学習問題としてモノラルな3次元ポーズ推定が採用されている。
そこで本稿では,ラベルなしデータセットの自己教師付き学習を通じて事前学習した微調整ネットワークによって,小さな注釈付きデータセットを活用できるアプローチを提案する。
我々は,Human3.6Mデータセット上での同期タスクの有効性を実証し,人間の3次元ポーズ推定における最先端結果を実現する。
論文 参考訳(メタデータ) (2020-10-13T08:01:24Z) - MM-Hand: 3D-Aware Multi-Modal Guided Hand Generative Network for 3D Hand
Pose Synthesis [81.40640219844197]
モノラルなRGB画像から3Dハンドポーズを推定することは重要だが難しい。
解決策は、高精度な3D手指キーポイントアノテーションを用いた大規模RGB手指画像のトレーニングである。
我々は,現実的で多様な3次元ポーズ保存ハンドイメージを合成する学習ベースアプローチを開発した。
論文 参考訳(メタデータ) (2020-10-02T18:27:34Z) - Monocular Real-time Hand Shape and Motion Capture using Multi-modal Data [77.34069717612493]
本稿では,100fpsの単眼手形状とポーズ推定の新たな手法を提案する。
これは、利用可能なハンドトレーニングデータのソースをすべて活用できるように設計された、新しい学習ベースのアーキテクチャによって実現されている。
3次元手関節検出モジュールと逆キネマティクスモジュールを備えており、3次元手関節位置だけでなく、1つのフィードフォワードパスでそれらを関節回転にマッピングする。
論文 参考訳(メタデータ) (2020-03-21T03:51:54Z) - Synergetic Reconstruction from 2D Pose and 3D Motion for Wide-Space
Multi-Person Video Motion Capture in the Wild [3.0015034534260665]
マルチカメラの精度と滑らかさを考慮したマーカーレスモーションキャプチャ手法を提案する。
提案手法は,各人物の3Dポーズを予測し,マルチカメラ画像のバウンディングボックスを決定する。
提案手法を,様々なデータセットと実スポーツフィールドを用いて評価した。
論文 参考訳(メタデータ) (2020-01-16T02:14:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。