論文の概要: In My Perspective, In My Hands: Accurate Egocentric 2D Hand Pose and Action Recognition
- arxiv url: http://arxiv.org/abs/2404.09308v2
- Date: Wed, 24 Jul 2024 08:43:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-25 19:01:10.245778
- Title: In My Perspective, In My Hands: Accurate Egocentric 2D Hand Pose and Action Recognition
- Title(参考訳): 私が思うに、私の手の中で:正確なエゴセントリックな2Dハンドポースとアクション認識
- Authors: Wiktor Mucha, Martin Kampel,
- Abstract要約: アクション認識は、エゴセントリックなビデオ理解に不可欠であり、ユーザの努力なしに日々の生活活動(ADL)の自動的かつ継続的なモニタリングを可能にする。
既存の文献では、計算集約的な深度推定ネットワークを必要とする3Dハンドポーズ入力や、不快な深度センサーを装着することに焦点を当てている。
EffHandEgoNetとEffHandEgoNetの2つの新しい手法を導入する。
- 参考スコア(独自算出の注目度): 1.4732811715354455
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Action recognition is essential for egocentric video understanding, allowing automatic and continuous monitoring of Activities of Daily Living (ADLs) without user effort. Existing literature focuses on 3D hand pose input, which requires computationally intensive depth estimation networks or wearing an uncomfortable depth sensor. In contrast, there has been insufficient research in understanding 2D hand pose for egocentric action recognition, despite the availability of user-friendly smart glasses in the market capable of capturing a single RGB image. Our study aims to fill this research gap by exploring the field of 2D hand pose estimation for egocentric action recognition, making two contributions. Firstly, we introduce two novel approaches for 2D hand pose estimation, namely EffHandNet for single-hand estimation and EffHandEgoNet, tailored for an egocentric perspective, capturing interactions between hands and objects. Both methods outperform state-of-the-art models on H2O and FPHA public benchmarks. Secondly, we present a robust action recognition architecture from 2D hand and object poses. This method incorporates EffHandEgoNet, and a transformer-based action recognition method. Evaluated on H2O and FPHA datasets, our architecture has a faster inference time and achieves an accuracy of 91.32% and 94.43%, respectively, surpassing state of the art, including 3D-based methods. Our work demonstrates that using 2D skeletal data is a robust approach for egocentric action understanding. Extensive evaluation and ablation studies show the impact of the hand pose estimation approach, and how each input affects the overall performance.
- Abstract(参考訳): アクション認識は、エゴセントリックなビデオ理解に不可欠であり、ユーザの努力なしに日々の生活活動(ADL)の自動的かつ継続的なモニタリングを可能にする。
既存の文献では、計算集約的な深度推定ネットワークを必要とする3Dハンドポーズ入力や、不快な深度センサーを装着することに焦点を当てている。
対照的に、ユーザフレンドリーなスマートグラスが市場に出回っているにもかかわらず、エゴセントリックなアクション認識のための2Dハンドポーズを理解するには不十分な研究がある。
本研究は,エゴセントリックな行動認識のための2次元手ポーズ推定の分野を探求し,この研究ギャップを埋めることを目的としている。
まず,手動ポーズ推定のための2つの新しいアプローチ,すなわち手動ポーズ推定のためのEffHandEgoNetと,手動ポーズ推定のためのEffHandEgoNetを紹介する。
どちらの手法もH2OとFPHAの公開ベンチマークで最先端のモデルより優れている。
次に、2次元手とオブジェクトのポーズから頑健なアクション認識アーキテクチャを提案する。
本手法は、EffHandEgoNetと、トランスフォーマーに基づく行動認識方法を含む。
H2OデータセットとFPHAデータセットに基づいて、我々のアーキテクチャはより高速な推論時間を持ち、それぞれ91.32%と94.43%の精度を達成し、3Dベースの手法を含む最先端の手法を上回っている。
我々の研究は、2次元骨格データを使用することが、自我中心の行動理解のための堅牢なアプローチであることを実証している。
広範囲な評価とアブレーション研究は、手ポーズ推定アプローチの影響と、各入力が全体のパフォーマンスにどのように影響するかを示している。
関連論文リスト
- SHARP: Segmentation of Hands and Arms by Range using Pseudo-Depth for Enhanced Egocentric 3D Hand Pose Estimation and Action Recognition [5.359837526794863]
ハンドポーズは、エゴセントリックな視点における行動認識のための重要な情報である。
擬似深度画像のみを用いてRGBフレームに基づく自家中心の3次元ポーズ推定を改善することを提案する。
論文 参考訳(メタデータ) (2024-08-19T14:30:29Z) - Benchmarks and Challenges in Pose Estimation for Egocentric Hand Interactions with Objects [89.95728475983263]
ロボティクス、AR/VR、アクション認識、モーション生成といったタスクにおいて、自己中心的な視点からこのようなインタラクションを理解することが重要である。
我々は、AmblyHandsとARCTICデータセットに基づいたHANDS23チャレンジを、慎重に設計されたトレーニングとテストの分割に基づいて設計する。
提案手法の結果と近年のリーダーボードのベースラインに基づいて,3Dハンド(オブジェクト)再構成タスクの徹底的な解析を行う。
論文 参考訳(メタデータ) (2024-03-25T05:12:21Z) - Human Action Recognition in Egocentric Perspective Using 2D Object and
Hands Pose [2.0305676256390934]
エゴセントリックなアクション認識は、エゴセントリックなカメラに依存する医療と補助技術にとって不可欠である。
本研究では,2次元手とオブジェクトポーズ情報を用いた自我中心の行動認識の実現可能性について検討した。
論文 参考訳(メタデータ) (2023-06-08T12:15:16Z) - LG-Hand: Advancing 3D Hand Pose Estimation with Locally and Globally
Kinematic Knowledge [0.693939291118954]
本稿では3次元手ポーズ推定のための強力な手法であるLG-Handを提案する。
キネマティックな情報が重要な役割を担い、3次元手ポーズ推定の性能に寄与すると主張している。
提案手法は,Person Hand Action Benchmarkデータセット上で有望な結果を得る。
論文 参考訳(メタデータ) (2022-11-06T15:26:32Z) - 3D Interacting Hand Pose Estimation by Hand De-occlusion and Removal [85.30756038989057]
単一のRGB画像から3Dインタラクションハンドポーズを推定することは、人間の行動を理解するのに不可欠である。
本稿では,難易度の高い手ポーズ推定タスクを分解し,各手のポーズを別々に推定することを提案する。
実験の結果,提案手法は従来の手ポーズ推定手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2022-07-22T13:04:06Z) - Ego2HandsPose: A Dataset for Egocentric Two-hand 3D Global Pose
Estimation [0.0]
Ego2HandsPoseは、目に見えないドメインでカラーベースの2Dトラッキングを可能にする最初のデータセットである。
本研究では,1)1つの画像を用いた3次元手ポーズアノテーションの実現,2)2次元手ポーズから3次元手ポーズへの自動変換,3)時間的整合性を伴う高精度な両手トラッキングを実現するためのパラメトリックフィッティングアルゴリズムの開発を行う。
論文 参考訳(メタデータ) (2022-06-10T07:50:45Z) - 3D Hand Pose and Shape Estimation from RGB Images for Improved
Keypoint-Based Hand-Gesture Recognition [25.379923604213626]
本稿では3次元手とポーズ推定のためのキーポイントに基づくエンドツーエンドフレームワークを提案する。
研究ケースとして手身認識タスクにうまく適用できる。
論文 参考訳(メタデータ) (2021-09-28T17:07:43Z) - Learning to Disambiguate Strongly Interacting Hands via Probabilistic
Per-pixel Part Segmentation [84.28064034301445]
自己相似性と、それぞれの手にピクセル観察を割り当てるあいまいさは、最終的な3Dポーズエラーの大きな原因である。
1つの単眼画像から2つの手の3次元ポーズを推定する新しい手法であるDIGITを提案する。
提案手法は,InterHand2.6Mデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2021-07-01T13:28:02Z) - H2O: Two Hands Manipulating Objects for First Person Interaction
Recognition [70.46638409156772]
両手操作対象のマーカーレス3Dアノテーションを用いて,エゴセントリックな対話認識のための包括的なフレームワークを提案する。
本手法は,2つの手の3次元ポーズと操作対象の6次元ポーズのアノテーションと,それぞれのフレームのインタラクションラベルを生成する。
我々のデータセットは、H2O (2 Hands and Objects)と呼ばれ、同期されたマルチビューRGB-D画像、対話ラベル、オブジェクトクラス、左右の手でのグラウンドトルース3Dポーズ、6Dオブジェクトポーズ、グラウンドトルースカメラポーズ、オブジェクトメッシュ、シーンポイントクラウドを提供する。
論文 参考訳(メタデータ) (2021-04-22T17:10:42Z) - Joint Hand-object 3D Reconstruction from a Single Image with
Cross-branch Feature Fusion [78.98074380040838]
特徴空間において手とオブジェクトを共同で検討し、2つの枝の相互性について検討する。
入力されたRGB画像に推定深度マップを付加するために補助深度推定モジュールを用いる。
提案手法は,オブジェクトの復元精度において既存手法よりも優れていた。
論文 参考訳(メタデータ) (2020-06-28T09:50:25Z) - Measuring Generalisation to Unseen Viewpoints, Articulations, Shapes and
Objects for 3D Hand Pose Estimation under Hand-Object Interaction [137.28465645405655]
HANDS'19は、現在の3Dハンドポーズ推定器(HPE)がトレーニングセットのポーズを補間し、外挿する能力を評価するための課題である。
本研究では,最先端手法の精度が低下し,トレーニングセットから外れたポーズでほとんど失敗することを示す。
論文 参考訳(メタデータ) (2020-03-30T19:28:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。