論文の概要: SHARP: Segmentation of Hands and Arms by Range using Pseudo-Depth for Enhanced Egocentric 3D Hand Pose Estimation and Action Recognition
- arxiv url: http://arxiv.org/abs/2408.10037v1
- Date: Mon, 19 Aug 2024 14:30:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-20 15:52:57.653260
- Title: SHARP: Segmentation of Hands and Arms by Range using Pseudo-Depth for Enhanced Egocentric 3D Hand Pose Estimation and Action Recognition
- Title(参考訳): SHARP: Egocentric 3D Hand Poseの推定と行動認識のための擬似深度を用いた手腕分割
- Authors: Wiktor Mucha, Michael Wray, Martin Kampel,
- Abstract要約: ハンドポーズは、エゴセントリックな視点における行動認識のための重要な情報である。
擬似深度画像のみを用いてRGBフレームに基づく自家中心の3次元ポーズ推定を改善することを提案する。
- 参考スコア(独自算出の注目度): 5.359837526794863
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Hand pose represents key information for action recognition in the egocentric perspective, where the user is interacting with objects. We propose to improve egocentric 3D hand pose estimation based on RGB frames only by using pseudo-depth images. Incorporating state-of-the-art single RGB image depth estimation techniques, we generate pseudo-depth representations of the frames and use distance knowledge to segment irrelevant parts of the scene. The resulting depth maps are then used as segmentation masks for the RGB frames. Experimental results on H2O Dataset confirm the high accuracy of the estimated pose with our method in an action recognition task. The 3D hand pose, together with information from object detection, is processed by a transformer-based action recognition network, resulting in an accuracy of 91.73%, outperforming all state-of-the-art methods. Estimations of 3D hand pose result in competitive performance with existing methods with a mean pose error of 28.66 mm. This method opens up new possibilities for employing distance information in egocentric 3D hand pose estimation without relying on depth sensors.
- Abstract(参考訳): ハンドポーズは、ユーザがオブジェクトと対話するエゴセントリックな視点において、アクション認識のための重要な情報を表す。
擬似深度画像のみを用いてRGBフレームに基づく自家中心の3次元ポーズ推定を改善することを提案する。
最先端の単一RGB画像深度推定技術を導入し、フレームの擬似深度表現を生成し、シーンの無関係な部分を分割するために距離知識を利用する。
得られた深度マップはRGBフレームのセグメンテーションマスクとして使用される。
H2Oデータセットを用いた実験結果から,動作認識タスクにおいて提案手法を用いて推定されたポーズの高精度性を確認した。
3Dハンドポーズは、オブジェクト検出の情報とともに、トランスフォーマーベースのアクション認識ネットワークによって処理され、91.73%の精度で、最先端の手法よりも優れている。
3Dハンドポーズの推定は,28.66mmの平均ポーズ誤差を持つ既存手法と競合する性能をもたらす。
本手法は, 深度センサに頼らずに, エゴセントリックな3次元手ポーズ推定における距離情報を活用する新たな可能性を開く。
関連論文リスト
- In My Perspective, In My Hands: Accurate Egocentric 2D Hand Pose and Action Recognition [1.4732811715354455]
アクション認識は、エゴセントリックなビデオ理解に不可欠であり、ユーザの努力なしに日々の生活活動(ADL)の自動的かつ継続的なモニタリングを可能にする。
既存の文献では、計算集約的な深度推定ネットワークを必要とする3Dハンドポーズ入力や、不快な深度センサーを装着することに焦点を当てている。
EffHandEgoNetとEffHandEgoNetの2つの新しい手法を導入する。
論文 参考訳(メタデータ) (2024-04-14T17:33:33Z) - 3D Interacting Hand Pose Estimation by Hand De-occlusion and Removal [85.30756038989057]
単一のRGB画像から3Dインタラクションハンドポーズを推定することは、人間の行動を理解するのに不可欠である。
本稿では,難易度の高い手ポーズ推定タスクを分解し,各手のポーズを別々に推定することを提案する。
実験の結果,提案手法は従来の手ポーズ推定手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2022-07-22T13:04:06Z) - TriHorn-Net: A Model for Accurate Depth-Based 3D Hand Pose Estimation [8.946655323517092]
TriHorn-Netは、ディープイメージのポーズ推定精度を改善するために、特定のイノベーションを使用する新しいモデルである。
第1の革新は、深度画像空間における2次元関節位置推定への3次元手ポーズ推定の分解である。
第2のイノベーションはPixDropoutで、私たちの知る限り、手深度画像のための最初の外見に基づくデータ拡張手法です。
論文 参考訳(メタデータ) (2022-06-14T19:08:42Z) - Monocular 3D Reconstruction of Interacting Hands via Collision-Aware
Factorized Refinements [96.40125818594952]
単眼のRGB画像から3Dインタラクションハンドを再構築する試みを初めて行った。
提案手法では, 高精度な3次元ポーズと最小の衝突で3次元ハンドメッシュを生成することができる。
論文 参考訳(メタデータ) (2021-11-01T08:24:10Z) - 3D Hand Pose and Shape Estimation from RGB Images for Improved
Keypoint-Based Hand-Gesture Recognition [25.379923604213626]
本稿では3次元手とポーズ推定のためのキーポイントに基づくエンドツーエンドフレームワークを提案する。
研究ケースとして手身認識タスクにうまく適用できる。
論文 参考訳(メタデータ) (2021-09-28T17:07:43Z) - Learning to Disambiguate Strongly Interacting Hands via Probabilistic
Per-pixel Part Segmentation [84.28064034301445]
自己相似性と、それぞれの手にピクセル観察を割り当てるあいまいさは、最終的な3Dポーズエラーの大きな原因である。
1つの単眼画像から2つの手の3次元ポーズを推定する新しい手法であるDIGITを提案する。
提案手法は,InterHand2.6Mデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2021-07-01T13:28:02Z) - RGB2Hands: Real-Time Tracking of 3D Hand Interactions from Monocular RGB
Video [76.86512780916827]
本稿では,1台のRGBカメラによる骨格ポーズのモーションキャプチャと手の表面形状をリアルタイムに計測する手法を提案する。
RGBデータの本質的な深さの曖昧さに対処するために,我々は新しいマルチタスクCNNを提案する。
RGBの片手追跡と3D再構築パイプラインの個々のコンポーネントを実験的に検証した。
論文 参考訳(メタデータ) (2021-06-22T12:53:56Z) - H2O: Two Hands Manipulating Objects for First Person Interaction
Recognition [70.46638409156772]
両手操作対象のマーカーレス3Dアノテーションを用いて,エゴセントリックな対話認識のための包括的なフレームワークを提案する。
本手法は,2つの手の3次元ポーズと操作対象の6次元ポーズのアノテーションと,それぞれのフレームのインタラクションラベルを生成する。
我々のデータセットは、H2O (2 Hands and Objects)と呼ばれ、同期されたマルチビューRGB-D画像、対話ラベル、オブジェクトクラス、左右の手でのグラウンドトルース3Dポーズ、6Dオブジェクトポーズ、グラウンドトルースカメラポーズ、オブジェクトメッシュ、シーンポイントクラウドを提供する。
論文 参考訳(メタデータ) (2021-04-22T17:10:42Z) - Measuring Generalisation to Unseen Viewpoints, Articulations, Shapes and
Objects for 3D Hand Pose Estimation under Hand-Object Interaction [137.28465645405655]
HANDS'19は、現在の3Dハンドポーズ推定器(HPE)がトレーニングセットのポーズを補間し、外挿する能力を評価するための課題である。
本研究では,最先端手法の精度が低下し,トレーニングセットから外れたポーズでほとんど失敗することを示す。
論文 参考訳(メタデータ) (2020-03-30T19:28:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。