論文の概要: The Invisible EgoHand: 3D Hand Forecasting through EgoBody Pose Estimation
- arxiv url: http://arxiv.org/abs/2504.08654v1
- Date: Fri, 11 Apr 2025 15:58:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-14 14:18:38.408627
- Title: The Invisible EgoHand: 3D Hand Forecasting through EgoBody Pose Estimation
- Title(参考訳): 見えないEgoHand:EgoBody Poseの推定による3Dハンド予測
- Authors: Masashi Hatano, Zhifan Zhu, Hideo Saito, Dima Damen,
- Abstract要約: 本研究では,エゴセントリックなビデオから両手の3次元軌跡とポーズを予測する手法を提案する。
我々は全身のポーズ情報を活用し、他の関節が手の動きに制約を与えることを可能にする。
Ego-Exo4Dデータセット上でEgoH4を評価する。
- 参考スコア(独自算出の注目度): 25.320774988055167
- License:
- Abstract: Forecasting hand motion and pose from an egocentric perspective is essential for understanding human intention. However, existing methods focus solely on predicting positions without considering articulation, and only when the hands are visible in the field of view. This limitation overlooks the fact that approximate hand positions can still be inferred even when they are outside the camera's view. In this paper, we propose a method to forecast the 3D trajectories and poses of both hands from an egocentric video, both in and out of the field of view. We propose a diffusion-based transformer architecture for Egocentric Hand Forecasting, EgoH4, which takes as input the observation sequence and camera poses, then predicts future 3D motion and poses for both hands of the camera wearer. We leverage full-body pose information, allowing other joints to provide constraints on hand motion. We denoise the hand and body joints along with a visibility predictor for hand joints and a 3D-to-2D reprojection loss that minimizes the error when hands are in-view. We evaluate EgoH4 on the Ego-Exo4D dataset, combining subsets with body and hand annotations. We train on 156K sequences and evaluate on 34K sequences, respectively. EgoH4 improves the performance by 3.4cm and 5.1cm over the baseline in terms of ADE for hand trajectory forecasting and MPJPE for hand pose forecasting. Project page: https://masashi-hatano.github.io/EgoH4/
- Abstract(参考訳): 自己中心的な視点から手の動きやポーズを予測することは、人間の意図を理解するのに不可欠である。
しかし,既存の手法では,手が視野で見える場合にのみ,手の動きを考慮せずに位置を予測することのみに焦点が当てられている。
この制限は、カメラの視界外であっても、ほぼ手の位置が推測可能であるという事実を見落としている。
本稿では,エゴセントリックな映像から両手の3次元軌跡とポーズを,視野内と外の両方で予測する手法を提案する。
本稿では,Egocentric Hand Forecasting(EgoH4)のための拡散型トランスフォーマーアーキテクチャを提案する。
我々は全身のポーズ情報を活用し、他の関節が手の動きに制約を与えることを可能にする。
手関節の視認性予測器と3D-to-2D再投射損失を併用し,手関節の視認性について検討した。
Ego-Exo4Dデータセット上でEgoH4を評価する。
我々は、156Kシーケンスでトレーニングし、それぞれ34Kシーケンスで評価する。
EgoH4は、手振り予測のADEと手振り予測のMPJPEで、ベースライン上で3.4cmと5.1cmの性能を改善する。
プロジェクトページ:https://masashi-hatano.github.io/EgoH4/
関連論文リスト
- Estimating Body and Hand Motion in an Ego-sensed World [62.61989004520802]
頭部装着装置から人体の動きを推定するシステムであるEgoAlloについて述べる。
エゴセントリックなSLAMポーズとイメージのみを使用して、EgoAlloは条件付き拡散モデルからサンプリングを行い、3Dボディポーズ、高さ、手のパラメータを推定する。
論文 参考訳(メタデータ) (2024-10-04T17:59:57Z) - EMAG: Ego-motion Aware and Generalizable 2D Hand Forecasting from Egocentric Videos [9.340890244344497]
2次元手の位置を予測するための既存の手法は視覚的表現に依存しており、主に手動物体の相互作用に焦点を当てている。
本研究では,エゴモーション認識と一般化可能な2次元手指予測手法であるEMAGを提案する。
本モデルでは,従来手法よりも1.7%,7.0%性能が向上した。
論文 参考訳(メタデータ) (2024-05-30T13:15:18Z) - HMP: Hand Motion Priors for Pose and Shape Estimation from Video [52.39020275278984]
我々は,多種多様な高品質の手の動きを特徴とするAMASSデータセットに基づいて,手動に特有な生成動作を開発する。
頑健な動きの統合は、特に隠蔽されたシナリオにおいて、パフォーマンスを著しく向上させる。
HO3DおよびDexYCBデータセットの質的および定量的評価により,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2023-12-27T22:35:33Z) - 3D Hand Pose Estimation in Everyday Egocentric Images [12.964086079352262]
我々は、視線歪みと野生における3Dアノテーションの欠如から生じる課題に焦点を当てる。
日常の自我中心画像における3次元手ポーズ推定システムWildHandsを提案する。
論文 参考訳(メタデータ) (2023-12-11T18:15:47Z) - Uncertainty-aware State Space Transformer for Egocentric 3D Hand
Trajectory Forecasting [79.34357055254239]
ハンドトラジェクトリ予測は、AR/VRシステムと対話する際の人間の意図の迅速な理解を可能にするために不可欠である。
既存の方法では、現実の3Dアプリケーションでは不十分な2次元画像空間でこの問題に対処する。
初対人視点で観察されたRGBビデオから3次元空間のハンドトラジェクトリを予測することを目的とした,エゴセントリックな3Dハンドトラジェクトリ予測タスクを構築した。
論文 参考訳(メタデータ) (2023-07-17T04:55:02Z) - AssemblyHands: Towards Egocentric Activity Understanding via 3D Hand
Pose Estimation [26.261767086366866]
正確な3Dハンドポーズアノテーションを備えた大規模ベンチマークデータセットである AssemblyHands を提示する。
AssemblyHandsは490Kのエゴセントリックなイメージを含む3.0Mの注釈付きイメージを提供する。
我々の研究は、高品質の手のポーズが、行動を認識する能力を直接的に改善することを示しています。
論文 参考訳(メタデータ) (2023-04-24T17:52:57Z) - LG-Hand: Advancing 3D Hand Pose Estimation with Locally and Globally
Kinematic Knowledge [0.693939291118954]
本稿では3次元手ポーズ推定のための強力な手法であるLG-Handを提案する。
キネマティックな情報が重要な役割を担い、3次元手ポーズ推定の性能に寄与すると主張している。
提案手法は,Person Hand Action Benchmarkデータセット上で有望な結果を得る。
論文 参考訳(メタデータ) (2022-11-06T15:26:32Z) - Transformer-based Global 3D Hand Pose Estimation in Two Hands
Manipulating Objects Scenarios [13.59950629234404]
本報告では,エゴセントリックカメラとマルチビューカメラによるECCV 2022による人体・手・活動(HBHA)問題に対する第1位ソリューションについて述べる(手ポーズ推定)。
本研究では,2つの手と物体が自我中心の視点で相互作用している入力画像から,グローバルな3次元手ポーズを推定することを目的とする。
提案手法は,トランスアーキテクチャを用いたエンドツーエンドのマルチハンドポーズ推定を行う。
論文 参考訳(メタデータ) (2022-10-20T16:24:47Z) - 3D Interacting Hand Pose Estimation by Hand De-occlusion and Removal [85.30756038989057]
単一のRGB画像から3Dインタラクションハンドポーズを推定することは、人間の行動を理解するのに不可欠である。
本稿では,難易度の高い手ポーズ推定タスクを分解し,各手のポーズを別々に推定することを提案する。
実験の結果,提案手法は従来の手ポーズ推定手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2022-07-22T13:04:06Z) - Body2Hands: Learning to Infer 3D Hands from Conversational Gesture Body
Dynamics [87.17505994436308]
身体の動きと手の動きは、非言語的コミュニケーション設定において強く相関しているという知見に基づいて構築する。
身体の動きのみを入力した場合の3次元手形状の予測タスクとして,この先行学習を定式化する。
本モデルでは,3次元手の動きのみを入力として,手の動きを説得力のある3次元手の動きを生成する。
論文 参考訳(メタデータ) (2020-07-23T22:58:15Z) - Measuring Generalisation to Unseen Viewpoints, Articulations, Shapes and
Objects for 3D Hand Pose Estimation under Hand-Object Interaction [137.28465645405655]
HANDS'19は、現在の3Dハンドポーズ推定器(HPE)がトレーニングセットのポーズを補間し、外挿する能力を評価するための課題である。
本研究では,最先端手法の精度が低下し,トレーニングセットから外れたポーズでほとんど失敗することを示す。
論文 参考訳(メタデータ) (2020-03-30T19:28:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。