論文の概要: 3D Hand Pose and Shape Estimation from RGB Images for Improved
Keypoint-Based Hand-Gesture Recognition
- arxiv url: http://arxiv.org/abs/2109.13879v1
- Date: Tue, 28 Sep 2021 17:07:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-29 14:43:52.025205
- Title: 3D Hand Pose and Shape Estimation from RGB Images for Improved
Keypoint-Based Hand-Gesture Recognition
- Title(参考訳): rgb画像からの3次元ハンドポーズと形状推定 : キーポイントを用いたハンドジェスチャ認識の改善
- Authors: Danilo Avola, Luigi Cinque, Alessio Fagioli, Gian Luca Foresti,
Adriano Fragomeni, Daniele Pannone
- Abstract要約: 本稿では3次元手とポーズ推定のためのキーポイントに基づくエンドツーエンドフレームワークを提案する。
研究ケースとして手身認識タスクにうまく適用できる。
- 参考スコア(独自算出の注目度): 25.379923604213626
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Estimating the 3D hand pose from a 2D image is a well-studied problem and a
requirement for several real-life applications such as virtual reality,
augmented reality, and hand-gesture recognition. Currently, good estimations
can be computed starting from single RGB images, especially when forcing the
system to also consider, through a multi-task learning approach, the hand shape
when the pose is determined. However, when addressing the aforementioned
real-life tasks, performances can drop considerably depending on the hand
representation, thus suggesting that stable descriptions are required to
achieve satisfactory results. As a consequence, in this paper we present a
keypoint-based end-to-end framework for the 3D hand and pose estimation, and
successfully apply it to the hand-gesture recognition task as a study case.
Specifically, after a pre-processing step where the images are normalized, the
proposed pipeline comprises a multi-task semantic feature extractor generating
2D heatmaps and hand silhouettes from RGB images; a viewpoint encoder
predicting hand and camera view parameters; a stable hand estimator producing
the 3D hand pose and shape; and a loss function designed to jointly guide all
of the components during the learning phase. To assess the proposed framework,
tests were performed on a 3D pose and shape estimation benchmark dataset,
obtaining state-of-the-art performances. What is more, the devised system was
also evaluated on 2 hand-gesture recognition benchmark datasets, where the
framework significantly outperforms other keypoint-based approaches; indicating
that the presented method is an effective solution able to generate stable 3D
estimates for the hand pose and shape.
- Abstract(参考訳): 2D画像から3Dハンドポーズを推定することは、よく研究されている問題であり、仮想現実、拡張現実、手振り認識など、いくつかの現実的な応用の要件である。
現在、単一のrgb画像から適切な推定を計算でき、特にシステムがマルチタスク学習アプローチによって、ポーズが決定されたときの手の形も考慮しなければならない。
しかし、上記の実生活タスクに対処する場合、手話表現によって性能が大幅に低下する可能性があるため、良好な結果を得るためには安定した記述が必要となる。
その結果,本論文では,3次元手のためのキーポイントベースのエンドツーエンドフレームワークを提示し,ポーズ推定を行い,手振り認識タスクに適用することに成功した。
具体的には、画像が正規化される前処理ステップの後、rgb画像から2dヒートマップ及びハンドシルエットを生成するマルチタスク意味特徴抽出器と、手およびカメラビューパラメータを予測する視点エンコーダと、3dハンドポーズ及び形状を生成する安定したハンドエスティメータと、学習フェーズ中にすべてのコンポーネントを共同でガイドするように設計された損失関数とを含む。
提案フレームワークを評価するために,3次元ポーズおよび形状推定ベンチマークデータセット上でテストを行い,最新性能を得た。
さらに,提案手法は,手振りと形状の安定な3次元推定を生成できる有効解であることを示すとともに,他のキーポイントベースのアプローチを著しく上回る2つの手振り認識ベンチマークデータセットを用いて,考案されたシステムの評価を行った。
関連論文リスト
- SHARP: Segmentation of Hands and Arms by Range using Pseudo-Depth for Enhanced Egocentric 3D Hand Pose Estimation and Action Recognition [5.359837526794863]
ハンドポーズは、エゴセントリックな視点における行動認識のための重要な情報である。
擬似深度画像のみを用いてRGBフレームに基づく自家中心の3次元ポーズ推定を改善することを提案する。
論文 参考訳(メタデータ) (2024-08-19T14:30:29Z) - In My Perspective, In My Hands: Accurate Egocentric 2D Hand Pose and Action Recognition [1.4732811715354455]
アクション認識は、エゴセントリックなビデオ理解に不可欠であり、ユーザの努力なしに日々の生活活動(ADL)の自動的かつ継続的なモニタリングを可能にする。
既存の文献では、計算集約的な深度推定ネットワークを必要とする3Dハンドポーズ入力や、不快な深度センサーを装着することに焦点を当てている。
EffHandEgoNetとEffHandEgoNetの2つの新しい手法を導入する。
論文 参考訳(メタデータ) (2024-04-14T17:33:33Z) - HandDiff: 3D Hand Pose Estimation with Diffusion on Image-Point Cloud [60.47544798202017]
ハンドポーズ推定は、様々な人間とコンピュータの相互作用アプリケーションにおいて重要なタスクである。
本論文は,手形画像点雲上での正確な手ポーズを反復的に認知する拡散型手ポーズ推定モデルであるHandDiffを提案する。
実験の結果,提案したHandDiffは,4つの挑戦的なハンドポーズベンチマークデータセットにおいて,既存のアプローチよりも大幅に優れていた。
論文 参考訳(メタデータ) (2024-04-04T02:15:16Z) - CLIP-Hand3D: Exploiting 3D Hand Pose Estimation via Context-Aware
Prompting [38.678165053219644]
CLIP-Hand3Dと呼ばれるモノクローナル画像から新しい3Dハンドポーズ推定器を提案する。
ここでは,CLIPに基づくコントラスト学習パラダイムに従って,一対のポーズテキスト機能に対するセマンティック一貫性を最大化する。
いくつかのパブリックハンドベンチマークの実験では、提案したモデルがはるかに高速な推論速度を達成することが示されている。
論文 参考訳(メタデータ) (2023-09-28T03:40:37Z) - Denoising Diffusion for 3D Hand Pose Estimation from Images [38.20064386142944]
本稿では,モノクロ画像やシーケンスからの3次元手ポーズ推定の問題に対処する。
本稿では,3次元ハンドレグレッションのための新しいエンド・ツー・エンド・エンド・フレームワークを提案する。
提案モデルは,2次元の片手画像を3Dに持ち上げる際に,最先端の性能を提供する。
論文 参考訳(メタデータ) (2023-08-18T12:57:22Z) - PONet: Robust 3D Human Pose Estimation via Learning Orientations Only [116.1502793612437]
本稿では,学習向きのみを用いて3次元ポーズを頑健に推定できる新しいPose Orientation Net(PONet)を提案する。
PONetは、局所的な画像証拠を利用して、これらの手足の3D方向を推定し、3Dポーズを復元する。
我々は,Human3.6M,MPII,MPI-INF-3DHP,3DPWを含む複数のデータセットについて評価を行った。
論文 参考訳(メタデータ) (2021-12-21T12:48:48Z) - Self-Supervised 3D Hand Pose Estimation from monocular RGB via
Contrastive Learning [50.007445752513625]
本稿では,3次元ポーズ推定における構造化回帰タスクに対する自己教師付き手法を提案する。
我々は、不変および同変のコントラスト目的の影響を実験的に検討した。
追加のラベル付きデータに基づいてトレーニングされた標準のResNet-152が、FreiHAND上のPA-EPEで7.6%の改善を実現していることを示す。
論文 参考訳(メタデータ) (2021-06-10T17:48:57Z) - MM-Hand: 3D-Aware Multi-Modal Guided Hand Generative Network for 3D Hand
Pose Synthesis [81.40640219844197]
モノラルなRGB画像から3Dハンドポーズを推定することは重要だが難しい。
解決策は、高精度な3D手指キーポイントアノテーションを用いた大規模RGB手指画像のトレーニングである。
我々は,現実的で多様な3次元ポーズ保存ハンドイメージを合成する学習ベースアプローチを開発した。
論文 参考訳(メタデータ) (2020-10-02T18:27:34Z) - SeqHAND:RGB-Sequence-Based 3D Hand Pose and Shape Estimation [48.456638103309544]
RGB画像に基づく3次元手ポーズ推定は長い間研究されてきた。
本研究では,人間の手の動きを模倣する合成データセットを生成する手法を提案する。
本研究では,3次元ポーズ推定における時間情報の利用により,一般的なポーズ推定が大幅に向上することを示す。
論文 参考訳(メタデータ) (2020-07-10T05:11:14Z) - Measuring Generalisation to Unseen Viewpoints, Articulations, Shapes and
Objects for 3D Hand Pose Estimation under Hand-Object Interaction [137.28465645405655]
HANDS'19は、現在の3Dハンドポーズ推定器(HPE)がトレーニングセットのポーズを補間し、外挿する能力を評価するための課題である。
本研究では,最先端手法の精度が低下し,トレーニングセットから外れたポーズでほとんど失敗することを示す。
論文 参考訳(メタデータ) (2020-03-30T19:28:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。