論文の概要: EgoPoseFormer v2: Accurate Egocentric Human Motion Estimation for AR/VR
- arxiv url: http://arxiv.org/abs/2603.04090v1
- Date: Wed, 04 Mar 2026 14:01:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-05 21:29:15.334209
- Title: EgoPoseFormer v2: Accurate Egocentric Human Motion Estimation for AR/VR
- Title(参考訳): EgoPoseFormer v2:AR/VRのための正確な人間の動き推定
- Authors: Zhenyu Li, Sai Kumar Dwivedi, Filip Maric, Carlos Chacon, Nadine Bertsch, Filippo Arcadu, Tomas Hodan, Michael Ramamonjisoa, Peter Wonka, Amy Zhao, Robin Kips, Cem Keskin, Anastasia Tkach, Chenhongyi Yang,
- Abstract要約: 本稿では,時間的一貫した空間的ボディーポーズ推定のためのトランスフォーマーモデルを提案する。
また,大規模な未ラベルデータセットをトレーニングに利用するための自動ラベルシステムを提案する。
EgoBody3Mベンチマークでは、GPUの0.8msレイテンシで、2つの最先端メソッドを12.2%、19.4%精度で上回り、時間ジッタを22.2%、51.7%削減しています。
- 参考スコア(独自算出の注目度): 43.739084350055435
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Egocentric human motion estimation is essential for AR/VR experiences, yet remains challenging due to limited body coverage from the egocentric viewpoint, frequent occlusions, and scarce labeled data. We present EgoPoseFormer v2, a method that addresses these challenges through two key contributions: (1) a transformer-based model for temporally consistent and spatially grounded body pose estimation, and (2) an auto-labeling system that enables the use of large unlabeled datasets for training. Our model is fully differentiable, introduces identity-conditioned queries, multi-view spatial refinement, causal temporal attention, and supports both keypoints and parametric body representations under a constant compute budget. The auto-labeling system scales learning to tens of millions of unlabeled frames via uncertainty-aware semi-supervised training. The system follows a teacher-student schema to generate pseudo-labels and guide training with uncertainty distillation, enabling the model to generalize to different environments. On the EgoBody3M benchmark, with a 0.8 ms latency on GPU, our model outperforms two state-of-the-art methods by 12.2% and 19.4% in accuracy, and reduces temporal jitter by 22.2% and 51.7%. Furthermore, our auto-labeling system further improves the wrist MPJPE by 13.1%.
- Abstract(参考訳): Egocentric human motion estimation is essential for AR/VR experience, but still challenge because because limited body coverage from the egocentric perspective, often occlusions and littlece labeled data。
EgoPoseFormer v2は、(1)時間的に一貫した空間的に接地された身体のポーズ推定のためのトランスフォーマーベースモデル、(2)大規模なラベルなしデータセットをトレーニングに使用するための自動ラベルシステムである。
我々のモデルは、完全微分可能であり、一意条件付きクエリ、多視点空間改善、因果時間注意を導入し、一定の計算予算の下でキーポイントとパラメトリックボディ表現の両方をサポートする。
この自動ラベルシステムは、不確実性を認識した半教師付きトレーニングを通じて、数千万の未ラベルフレームに学習をスケールする。
このシステムは教師と学生のスキーマに従って擬似ラベルを生成し、不確実性蒸留による指導を行い、モデルが異なる環境に一般化できるようにする。
EgoBody3Mベンチマークでは、GPUの0.8msレイテンシで、2つの最先端メソッドを12.2%、19.4%精度で上回り、時間ジッタを22.2%、51.7%削減しています。
さらに,手首MPJPEを13.1%改善した。
関連論文リスト
- EgoPoseVR: Spatiotemporal Multi-Modal Reasoning for Egocentric Full-Body Pose in Virtual Reality [1.749869555855672]
EgoPoseVRは、バーチャルリアリティー(VR)における正確なエゴセントリックフルボディポーズ推定のためのエンドツーエンドフレームワーク
ヘッドセットのモーションキューとエゴセントリックなRGB-D観測を、デュアルモードの融合パイプラインを通じて統合する。
EgoPoseVRは、現実世界のシーンで、精度、安定性、体格、将来の使用に対する意図において、かなり高い主観評価を達成している。
論文 参考訳(メタデータ) (2026-02-05T12:17:35Z) - Smooth-Distill: A Self-distillation Framework for Multitask Learning with Wearable Sensor Data [0.0]
本稿では,人間の活動認識(HAR)とセンサ配置検出を同時に行うように設計された,新しい自己蒸留フレームワークであるSmooth-Distillを紹介する。
従来の蒸留法とは異なり, 提案手法では, モデル自体のスムーズな歴史バージョンを教師として利用している。
実験結果から,Smooth-Distill は異なる評価シナリオにおける代替手法よりも一貫して優れていた。
論文 参考訳(メタデータ) (2025-06-27T06:51:51Z) - LSM-2: Learning from Incomplete Wearable Sensor Data [65.58595667477505]
本稿では,Adaptive and Inherited Masking (AIM)を用いた第2世代Large Sensor Model (LSM-2)を紹介する。
AIMは明示的な計算を必要とせず、不完全なデータから直接堅牢な表現を学習する。
AIMを用いた LSM-2 は, 分類, 回帰, 生成モデルなど, 多様なタスクにまたがる最高の性能を実現する。
論文 参考訳(メタデータ) (2025-06-05T17:57:11Z) - MELON: Multimodal Mixture-of-Experts with Spectral-Temporal Fusion for Long-Term Mobility Estimation in Critical Care [1.5237145555729716]
MELONは、医療現場における12時間移動状態を予測するための新しいフレームワークである。
フロリダ州ゲインズビルにあるフロリダ・ヘルス・サンズ病院の9つの集中治療室を受診した126名の患者を対象に,MELONモデルを訓練・評価した。
その結果、MELONは従来の12時間移動状態推定手法よりも優れていた。
論文 参考訳(メタデータ) (2025-03-10T19:47:46Z) - Estimating Body and Hand Motion in an Ego-sensed World [62.61989004520802]
頭部装着装置から人体の動きを推定するシステムであるEgoAlloについて述べる。
エゴセントリックなSLAMポーズとイメージのみを使用して、EgoAlloは条件付き拡散モデルからサンプリングを行い、3Dボディポーズ、高さ、手のパラメータを推定する。
論文 参考訳(メタデータ) (2024-10-04T17:59:57Z) - Benchmarking Adaptive Intelligence and Computer Vision on Human-Robot Collaboration [0.0]
ヒューマンロボットコラボレーション(HRC)は、センサー、デジタル双生児、協調ロボット(コボット)、意図認識モデルを用いて、効率的な製造プロセスを持つ産業4.0において不可欠である。
本稿では,適応知能と自己ラベルを統合して,HRCシステムにおける意図認識のレジリエンスを向上させることにより,概念の漂流に対処する。
論文 参考訳(メタデータ) (2024-09-30T01:25:48Z) - Joint Spatial-Temporal Modeling and Contrastive Learning for Self-supervised Heart Rate Measurement [28.370473108391426]
本稿では,我々のチームであるHFUT-VUT(HFUT-VUT)による,自己監督型心拍数測定トラック1のソリューションについて紹介する。
目標は、ラベルなしの顔ビデオを用いた自己監督型心拍数生理学(HR)を開発することである。
提案手法は,テストデータセットのRMSEスコア8.85277を達成し,この課題のトラック1のbftext2位を確保した。
論文 参考訳(メタデータ) (2024-06-07T13:53:02Z) - Coordinate Transformer: Achieving Single-stage Multi-person Mesh
Recovery from Videos [91.44553585470688]
ビデオから複数人の3Dメッシュを回収することは、バーチャルリアリティーや理学療法などにおけるグループ行動の自動認識に向けた重要な第一歩である。
本稿では,複数人物の時空間関係を直接モデル化し,同時にエンドツーエンドでマルチ・メッシュ・リカバリを行うコーディネート・トランスフォーマーを提案する。
3DPWデータセットの実験では、CoordFormerが最先端の精度を大幅に向上し、MPJPE、PAMPJPE、PVEの計測値でそれぞれ4.2%、8.8%、そして4.7%を上回った。
論文 参考訳(メタデータ) (2023-08-20T18:23:07Z) - Self-Supervised Representation Learning from Temporal Ordering of
Automated Driving Sequences [49.91741677556553]
本研究では、認識タスクのための地域レベルの特徴表現を事前学習するための時間順述前文タスクであるTempOを提案する。
我々は各フレームを、オブジェクト検出やトラッキングシステムにとって自然な表現である、未順序な特徴ベクトルのセットで埋め込む。
BDD100K、nu Images、MOT17データセットの大規模な評価は、私たちのTempO事前学習アプローチがシングルフレームの自己教師型学習方法よりも優れていることを示している。
論文 参考訳(メタデータ) (2023-02-17T18:18:27Z) - Automatic Severity Classification of Dysarthric speech by using
Self-supervised Model with Multi-task Learning [4.947423926765435]
マルチタスク学習と連動した自己教師付きモデルを用いて,変形性音声の自動重大度評価手法を提案する。
Wav2vec 2.0 XLS-Rは重度分類と補助的自動音声認識(ASR)の2つのタスクで訓練される
本モデルでは,F1スコアの相対値が1.25%増加し,従来のベースライン法よりも優れていた。
論文 参考訳(メタデータ) (2022-10-27T12:48:10Z) - SODA10M: Towards Large-Scale Object Detection Benchmark for Autonomous
Driving [94.11868795445798]
我々は,SODA10Mという名の自律走行用大規模物体検出ベンチマークをリリースし,1000万枚の未ラベル画像と6つの代表対象カテゴリをラベル付けした20K画像を含む。
多様性を向上させるために、画像は32の異なる都市で、1フレームあたり10秒毎に異なる気象条件、期間、場所のシーンで収集される。
我々は、既存の教師付き最先端検出モデル、一般的な自己監督型および半教師付きアプローチ、および将来のモデルの開発方法に関するいくつかの知見について、広範な実験と詳細な分析を行った。
論文 参考訳(メタデータ) (2021-06-21T13:55:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。