論文の概要: RGB2Hands: Real-Time Tracking of 3D Hand Interactions from Monocular RGB
Video
- arxiv url: http://arxiv.org/abs/2106.11725v1
- Date: Tue, 22 Jun 2021 12:53:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-23 14:56:56.562861
- Title: RGB2Hands: Real-Time Tracking of 3D Hand Interactions from Monocular RGB
Video
- Title(参考訳): RGB2Hands:モノクロRGBビデオからの3Dハンドインタラクションのリアルタイム追跡
- Authors: Jiayi Wang, Franziska Mueller, Florian Bernard, Suzanne Sorli,
Oleksandr Sotnychenko, Neng Qian, Miguel A. Otaduy, Dan Casas and Christian
Theobalt
- Abstract要約: 本稿では,1台のRGBカメラによる骨格ポーズのモーションキャプチャと手の表面形状をリアルタイムに計測する手法を提案する。
RGBデータの本質的な深さの曖昧さに対処するために,我々は新しいマルチタスクCNNを提案する。
RGBの片手追跡と3D再構築パイプラインの個々のコンポーネントを実験的に検証した。
- 参考スコア(独自算出の注目度): 76.86512780916827
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Tracking and reconstructing the 3D pose and geometry of two hands in
interaction is a challenging problem that has a high relevance for several
human-computer interaction applications, including AR/VR, robotics, or sign
language recognition. Existing works are either limited to simpler tracking
settings (e.g., considering only a single hand or two spatially separated
hands), or rely on less ubiquitous sensors, such as depth cameras. In contrast,
in this work we present the first real-time method for motion capture of
skeletal pose and 3D surface geometry of hands from a single RGB camera that
explicitly considers close interactions. In order to address the inherent depth
ambiguities in RGB data, we propose a novel multi-task CNN that regresses
multiple complementary pieces of information, including segmentation, dense
matchings to a 3D hand model, and 2D keypoint positions, together with newly
proposed intra-hand relative depth and inter-hand distance maps. These
predictions are subsequently used in a generative model fitting framework in
order to estimate pose and shape parameters of a 3D hand model for both hands.
We experimentally verify the individual components of our RGB two-hand tracking
and 3D reconstruction pipeline through an extensive ablation study. Moreover,
we demonstrate that our approach offers previously unseen two-hand tracking
performance from RGB, and quantitatively and qualitatively outperforms existing
RGB-based methods that were not explicitly designed for two-hand interactions.
Moreover, our method even performs on-par with depth-based real-time methods.
- Abstract(参考訳): インタラクションにおける両手の3Dポーズと幾何学の追跡と再構築は、AR/VR、ロボティクス、手話認識など、いくつかの人間とコンピュータのインタラクションアプリケーションに高い関連性を持つ難しい問題である。
既存の作業は、単純な追跡設定(例えば、1つの手または2つの空間的に分離された手のみを考える)に限られるか、奥行きカメラのようなよりユビキタスでないセンサーに依存している。
対照的に,本研究では,接近操作を明示的に考慮した1台のrgbカメラから,骨格のポーズと手の3次元表面形状をリアルタイムに捉えた最初の手法を提案する。
RGBデータに固有の奥行きの曖昧さに対処するため,新たに提案された手指内相対深度と手指間距離マップとともに,分割,3次元手指モデルへの密マッチング,2次元キーポイント位置など,複数の相補的な情報を回帰するマルチタスクCNNを提案する。
これらの予測は、両手の3Dハンドモデルのポーズと形状パラメータを推定するために、生成モデルフィッティングフレームワークで使用される。
rgb双方向トラッキングと3次元再構築パイプラインの個別成分を広範囲なアブレーション実験により実験的に検証した。
さらに,本手法は従来は見つからなかったRGBの双方向追跡性能を提供し,従来のRGB方式よりも定量的かつ定性的に優れていることを示す。
さらに,本手法は,深度に基づくリアルタイム手法のオンパーも行う。
関連論文リスト
- SHARP: Segmentation of Hands and Arms by Range using Pseudo-Depth for Enhanced Egocentric 3D Hand Pose Estimation and Action Recognition [5.359837526794863]
ハンドポーズは、エゴセントリックな視点における行動認識のための重要な情報である。
擬似深度画像のみを用いてRGBフレームに基づく自家中心の3次元ポーズ推定を改善することを提案する。
論文 参考訳(メタデータ) (2024-08-19T14:30:29Z) - Towards Human-Level 3D Relative Pose Estimation: Generalizable, Training-Free, with Single Reference [62.99706119370521]
人間は、単一のクエリ参照イメージペアのみを与えられたラベル/トレーニングなしで、目に見えないオブジェクトの相対的なポーズを容易に推論することができる。
そこで,本研究では,RGB-D参照から2.5D形状のRGB-D参照,オフザシェルフ微分可能なRGB-D参照,DINOv2のような事前学習モデルからのセマンティックキューを用いた3D一般化可能な相対ポーズ推定手法を提案する。
論文 参考訳(メタデータ) (2024-06-26T16:01:10Z) - 3D Pose Estimation of Two Interacting Hands from a Monocular Event
Camera [59.846927201816776]
本稿では,1つの単眼イベントカメラから手の動きの速い2つの手の動きを3次元追跡するための最初のフレームワークを紹介する。
本手法は, 半教師付き機能的注意機構により, 左手のあいまいさに対処し, 交差点の損失を補足して手衝突を解消する。
論文 参考訳(メタデータ) (2023-12-21T18:59:57Z) - Decaf: Monocular Deformation Capture for Face and Hand Interactions [77.75726740605748]
本稿では,単眼のRGBビデオから人間の顔と対話する人間の手を3Dで追跡する手法を提案する。
動作中の非剛性面の変形を誘発する定形物体として手をモデル化する。
本手法は,マーカーレスマルチビューカメラシステムで取得した現実的な顔変形を伴う手動・インタラクションキャプチャーデータセットに頼っている。
論文 参考訳(メタデータ) (2023-09-28T17:59:51Z) - Decoupled Iterative Refinement Framework for Interacting Hands
Reconstruction from a Single RGB Image [30.24438569170251]
画素アライメント・ハンド再構成を実現するために,分離された反復的精細化フレームワークを提案する。
提案手法は、InterHand2.6Mデータセットにおいて、既存の2手再構成手法を大きなマージンで上回っている。
論文 参考訳(メタデータ) (2023-02-05T15:46:57Z) - Monocular 3D Reconstruction of Interacting Hands via Collision-Aware
Factorized Refinements [96.40125818594952]
単眼のRGB画像から3Dインタラクションハンドを再構築する試みを初めて行った。
提案手法では, 高精度な3次元ポーズと最小の衝突で3次元ハンドメッシュを生成することができる。
論文 参考訳(メタデータ) (2021-11-01T08:24:10Z) - H2O: Two Hands Manipulating Objects for First Person Interaction
Recognition [70.46638409156772]
両手操作対象のマーカーレス3Dアノテーションを用いて,エゴセントリックな対話認識のための包括的なフレームワークを提案する。
本手法は,2つの手の3次元ポーズと操作対象の6次元ポーズのアノテーションと,それぞれのフレームのインタラクションラベルを生成する。
我々のデータセットは、H2O (2 Hands and Objects)と呼ばれ、同期されたマルチビューRGB-D画像、対話ラベル、オブジェクトクラス、左右の手でのグラウンドトルース3Dポーズ、6Dオブジェクトポーズ、グラウンドトルースカメラポーズ、オブジェクトメッシュ、シーンポイントクラウドを提供する。
論文 参考訳(メタデータ) (2021-04-22T17:10:42Z) - Two-hand Global 3D Pose Estimation Using Monocular RGB [0.0]
我々は、単眼のRGB入力画像のみを用いて、両手のグローバルな3D関節位置を推定する難しい課題に取り組む。
本稿では,手の位置を正確に把握する多段階畳み込みニューラルネットワークに基づくパイプラインを提案する。
RGBのみの入力を用いて両手の3Dハンドトラッキングを高精度に行う。
論文 参考訳(メタデータ) (2020-06-01T23:53:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。