論文の概要: EvHand-FPV: Efficient Event-Based 3D Hand Tracking from First-Person View
- arxiv url: http://arxiv.org/abs/2509.13883v1
- Date: Wed, 17 Sep 2025 10:23:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-18 18:41:50.821684
- Title: EvHand-FPV: Efficient Event-Based 3D Hand Tracking from First-Person View
- Title(参考訳): EvHand-FPV: 一人称視点からの効率的なイベントベース3Dハンドトラッキング
- Authors: Zhen Xu, Guorui Lu, Chang Gao, Qinyu Chen,
- Abstract要約: EvHand-FPVは、Egocentric First-Person-View 3Dハンドトラッキングのための軽量フレームワークである。
3Dラベルと実イベントデータを2Dラベルと組み合わせたイベントベースFPVデータセットを構築した。
その結果、デバイス上のXRアプリケーションに適した、正確で効率的なイベントベースハンドトラッキングが実証された。
- 参考スコア(独自算出の注目度): 6.54597403275179
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hand tracking holds great promise for intuitive interaction paradigms, but frame-based methods often struggle to meet the requirements of accuracy, low latency, and energy efficiency, especially in resource-constrained settings such as Extended Reality (XR) devices. Event cameras provide $\mu$s-level temporal resolution at mW-level power by asynchronously sensing brightness changes. In this work, we present EvHand-FPV, a lightweight framework for egocentric First-Person-View 3D hand tracking from a single event camera. We construct an event-based FPV dataset that couples synthetic training data with 3D labels and real event data with 2D labels for evaluation to address the scarcity of egocentric benchmarks. EvHand-FPV also introduces a wrist-based region of interest (ROI) that localizes the hand region via geometric cues, combined with an end-to-end mapping strategy that embeds ROI offsets into the network to reduce computation without explicit reconstruction, and a multi-task learning strategy with an auxiliary geometric feature head that improves representations without test-time overhead. On our real FPV test set, EvHand-FPV improves 2D-AUCp from 0.77 to 0.85 while reducing parameters from 11.2M to 1.2M by 89% and FLOPs per inference from 1.648G to 0.185G by 89%. It also maintains a competitive 3D-AUCp of 0.84 on synthetic data. These results demonstrate accurate and efficient egocentric event-based hand tracking suitable for on-device XR applications. The dataset and code are available at https://github.com/zen5x5/EvHand-FPV.
- Abstract(参考訳): ハンドトラッキングは直感的なインタラクションのパラダイムには大いに期待できるが、特に拡張現実性(XR)デバイスのようなリソース制約のある環境では、フレームベースの手法は精度、低レイテンシ、エネルギー効率の要件を満たすのに苦労することが多い。
イベントカメラは、mWレベルのパワーで$\mu$sレベルの時間分解能を提供する。
本稿では,EvHand-FPVについて紹介する。このフレームワークは,一台のイベントカメラから,エゴセントリックなFirst-Person-View 3Dハンドトラッキングのための軽量フレームワークである。
3Dラベルと実イベントデータを2Dラベルと組み合わせたイベントベースFPVデータセットを構築し,エゴセントリックなベンチマークの不足に対処する。
EvHand-FPVはまた、幾何学的キューを介して手領域をローカライズする手首ベースの関心領域(ROI)を導入し、ROIオフセットをネットワークに埋め込んだエンドツーエンドマッピング戦略と、テスト時間オーバーヘッドなしで表現を改善する補助幾何学的特徴ヘッドを備えたマルチタスク学習戦略を導入している。
実際のFPVテストセットでは、EvHand-FPVは2D-AUCpを0.77から0.85に改善し、パラメータを11.2Mから1.2Mに89%、推論毎のFLOPを1.648Gから0.185Gに89%削減した。
また、合成データに対して0.84の競争力を持つ3D-AUCpも維持している。
これらの結果は、デバイス上のXRアプリケーションに適した、正確で効率的なイベントベースの手追跡を示す。
データセットとコードはhttps://github.com/zen5x5/EvHand-FPVで公開されている。
関連論文リスト
- SpatialTrackerV2: 3D Point Tracking Made Easy [73.0350898700048]
SpaceTrackerV2はモノクロビデオのフィードフォワード3Dポイントトラッキング手法である。
これは、世界空間の3Dモーションをシーン幾何学、カメラエゴモーション、ピクセルワイドオブジェクトモーションに分解する。
このような異種データから幾何学と運動を共同で学習することで、SpatialTrackerV2は既存の3Dトラッキング方法よりも30%優れています。
論文 参考訳(メタデータ) (2025-07-16T17:59:03Z) - Dual-Path Enhancements in Event-Based Eye Tracking: Augmented Robustness and Adaptive Temporal Modeling [0.0]
イベントベースのアイトラッキングは、拡張現実と人間とコンピュータのインタラクションにとって重要な技術となっている。
既存の方法は、突然の眼球運動や環境騒音といった現実的な課題に苦しむ。
まず、時間シフト、空間的フリップ、イベント削除を組み込んだ堅牢なデータ拡張パイプラインにより、モデルのレジリエンスが向上する。
2つ目は、空間的特徴抽出のための効率的なNet-B3バックボーン、文脈時空間モデリングのための双方向GRU、線形時変状態空間モジュールを組み合わせたハイブリッドアーキテクチャであるKnightPupilを提案する。
論文 参考訳(メタデータ) (2025-04-14T07:57:22Z) - FRAME: Floor-aligned Representation for Avatar Motion from Egocentric Video [52.33896173943054]
ヘッドマウントのボディフェイスステレオカメラを備えたエゴセントリックなモーションキャプチャーは、VRやARアプリケーションには不可欠だ。
既存の方法は、合成事前学習と、現実の環境で滑らかで正確な予測を生成するのに苦労している。
本稿では、デバイスポーズとカメラフィードを組み合わせて、最先端のボディポーズ予測を行う、シンプルで効果的なアーキテクチャFRAMEを提案する。
論文 参考訳(メタデータ) (2025-03-29T14:26:06Z) - EgoEvGesture: Gesture Recognition Based on Egocentric Event Camera [17.61884467264023]
本稿では,イベントデータ処理に特化して設計された新しいネットワークアーキテクチャを提案する。
イベントカメラを用いたエゴセントリックなジェスチャー認識のための,最初の大規模データセットを構築した。
本手法は,7Mパラメータのみの未確認被験者に対して62.7%の精度を達成し,最先端手法よりも3.1%高い精度を示した。
論文 参考訳(メタデータ) (2025-03-16T09:08:02Z) - Ultra Inertial Poser: Scalable Motion Capture and Tracking from Sparse Inertial Sensors and Ultra-Wideband Ranging [23.010268017856824]
我々は,新しい3次元フルボディポーズ推定法であるUltra Inertial Poserを提案する。
本手法は,センサ間距離による慣性追跡においてドリフトとジッタを制約する。
提案手法のPIPおよびTIP上での最先端性能について実験を行った。
論文 参考訳(メタデータ) (2024-04-30T13:14:11Z) - Co-designing a Sub-millisecond Latency Event-based Eye Tracking System with Submanifold Sparse CNN [8.613703056677457]
アイトラッキング技術は多くの消費者向けエレクトロニクスアプリケーション、特に仮想現実および拡張現実(VR/AR)において不可欠である
しかし、これらすべての面で最適なパフォーマンスを達成することは、非常に難しい課題である。
我々は,この課題に,システムとイベントカメラを併用したシナジスティックなソフトウェア/ハードウェアの共同設計を通じて対処する。
本システムでは,81%のp5精度,99.5%のp10精度,および3.71のMeanean Distanceを0.7msのレイテンシで実現し,1推論あたり2.29mJしか消費しない。
論文 参考訳(メタデータ) (2024-04-22T15:28:42Z) - Benchmarking the Robustness of LiDAR-Camera Fusion for 3D Object
Detection [58.81316192862618]
自律運転における3D知覚のための2つの重要なセンサーは、カメラとLiDARである。
これら2つのモダリティを融合させることで、3次元知覚モデルの性能を大幅に向上させることができる。
我々は、最先端の核融合法を初めてベンチマークした。
論文 参考訳(メタデータ) (2022-05-30T09:35:37Z) - HMD-EgoPose: Head-Mounted Display-Based Egocentric Marker-Less Tool and
Hand Pose Estimation for Augmented Surgical Guidance [0.0]
HMD-EgoPoseは、手動とオブジェクトのポーズ推定のための単発学習に基づくアプローチである。
マーカーレスハンドと手術器具のポーズトラッキングのためのベンチマークデータセット上で,最先端の性能を示す。
論文 参考訳(メタデータ) (2022-02-24T04:07:34Z) - Multi-modal 3D Human Pose Estimation with 2D Weak Supervision in
Autonomous Driving [74.74519047735916]
自動運転車(AV)における3次元ポーズ推定(HPE)は,多くの要因において他のユースケースと異なる。
他のユースケース(仮想現実、ゲーム、アニメーションなど)のために収集されたデータは、AVアプリケーションには使用できない可能性がある。
本稿では,この問題をAV設定で緩和するための最初のアプローチの1つを提案する。
論文 参考訳(メタデータ) (2021-12-22T18:57:16Z) - Towards Fast, Accurate and Stable 3D Dense Face Alignment [73.01620081047336]
本稿では,速度,精度,安定性のバランスをとる3DDFA-V2という新しい回帰フレームワークを提案する。
本研究では,静止画を平面内と面外の動きを取り入れた映像に変換する仮想合成法を提案する。
論文 参考訳(メタデータ) (2020-09-21T15:37:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。