論文の概要: Egocentric Visibility-Aware Human Pose Estimation
- arxiv url: http://arxiv.org/abs/2602.23618v1
- Date: Fri, 27 Feb 2026 02:50:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-02 19:48:24.214981
- Title: Egocentric Visibility-Aware Human Pose Estimation
- Title(参考訳): Egocentric Visibility-Aware Human Pose Estimation
- Authors: Peng Dai, Yu Zhang, Yiqiang Feng, Zhen Fan, Yang Zhang,
- Abstract要約: 大規模エゴセントリックな視界対応HPEデータセットであるEva-3Mを提案し,その内435Kにキーポイント可視性ラベルを付加した。
EvaPoseは、視覚情報を明示的に組み込んで、ポーズ推定精度を高める新しいエゴセントリックな視界認識型HPE手法である。
- 参考スコア(独自算出の注目度): 9.163792167334162
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Egocentric human pose estimation (HPE) using a head-mounted device is crucial for various VR and AR applications, but it faces significant challenges due to keypoint invisibility. Nevertheless, none of the existing egocentric HPE datasets provide keypoint visibility annotations, and the existing methods often overlook the invisibility problem, treating visible and invisible keypoints indiscriminately during estimation. As a result, their capacity to accurately predict visible keypoints is compromised. In this paper, we first present Eva-3M, a large-scale egocentric visibility-aware HPE dataset comprising over 3.0M frames, with 435K of them annotated with keypoint visibility labels. Additionally, we augment the existing EMHI dataset with keypoint visibility annotations to further facilitate the research in this direction. Furthermore, we propose EvaPose, a novel egocentric visibility-aware HPE method that explicitly incorporates visibility information to enhance pose estimation accuracy. Extensive experiments validate the significant value of ground-truth visibility labels in egocentric HPE settings, and demonstrate that our EvaPose achieves state-of-the-art performance in both Eva-3M and EMHI datasets.
- Abstract(参考訳): ヘッドマウントデバイスを用いた人間中心のポーズ推定(HPE)は、様々なVRおよびARアプリケーションにとって重要であるが、キーポイントの視認性のために大きな課題に直面している。
それでも、既存のエゴセントリックなHPEデータセットはいずれもキーポイントの可視性アノテーションを提供しておらず、既存のメソッドはしばしば可視性の問題を見落とし、推定中に目に見えないキーポイントを無差別に扱う。
その結果、目に見えるキーポイントを正確に予測する能力が損なわれる。
本稿では,3.0M以上のフレームからなる大規模エゴセントリックな視認性を考慮したHPEデータセットであるEva-3Mを,キーポイント可視性ラベルを付加した435Kで提示する。
さらに、キーポイント可視アノテーションで既存のEMHIデータセットを拡張して、この方向の研究をさらに促進します。
さらに,エゴセントリックな視界認識型HPE手法であるEvaPoseを提案する。
大規模な実験により、エゴセントリックなHPE設定における地表面の可視性ラベルの有意な価値が検証され、EvaPoseがEva-3MとEMHIの両方のデータセットで最先端のパフォーマンスを達成することが実証された。
関連論文リスト
- Gaze Beyond the Frame: Forecasting Egocentric 3D Visual Span [50.60002620855774]
EgoSpanLiftは、2次元画像平面から3次元シーンへ、エゴセントリックなビジュアルスパン予測を変換する手法である。
また、生のエゴセントリックなデータからベンチマークをキュレートし、3Dビジュアルスパン予測のための364.6Kサンプルを用いたテストベッドを作成します。
論文 参考訳(メタデータ) (2025-11-23T14:37:11Z) - Eyes on Target: Gaze-Aware Object Detection in Egocentric Video [1.3320917259299652]
我々は、エゴセントリックビデオのための新しい奥行き認識および視線誘導オブジェクト検出フレームワークであるEyes on Targetを提案する。
提案手法は視覚変換器(ViT)の注意機構に視線由来の特徴を注入し,空間的特徴選択を人間に適応した領域へ効果的にバイアスする。
我々は,人間の視覚的注意が課題評価に重要であるエゴセントリック・シミュレーター・データセット上で本手法の有効性を検証した。
論文 参考訳(メタデータ) (2025-11-03T05:21:58Z) - Neural Visibility of Point Sets [31.13434703858653]
本稿では,2進分類タスクとして定式化することで,点雲の可視性判定に新たなアプローチを提案する。
我々のネットワークは、レンダリングされた3Dモデルから生成された地味な可視性ラベルでエンドツーエンドに訓練されている。
提案手法は,HPRの精度と計算効率を両立させ,最大126倍の高速化を実現した。
論文 参考訳(メタデータ) (2025-09-29T00:54:00Z) - EOC-Bench: Can MLLMs Identify, Recall, and Forecast Objects in an Egocentric World? [52.99661576320663]
マルチモーダル・大規模言語モデル(MLLM)は、自我中心の視覚応用において画期的な進歩を遂げた。
EOC-Benchは、動的自我中心のシナリオにおいて、オブジェクト中心の具体的認識を体系的に評価するために設計された革新的なベンチマークである。
EOC-Benchに基づく各種プロプライエタリ,オープンソース,オブジェクトレベルのMLLMの総合評価を行う。
論文 参考訳(メタデータ) (2025-06-05T17:44:12Z) - ViewSpatial-Bench: Evaluating Multi-perspective Spatial Localization in Vision-Language Models [68.46716645478661]
視覚言語モデル (VLM) は視覚的内容の理解と推論において顕著な能力を示した。
現在のVLMは、主に自我中心の空間的推論(カメラの観点から)に優れるが、同中心の視点に一般化することができない。
マルチ視点空間位置認識評価に特化して設計された,初の総合的なベンチマークであるViewSpatial-Benchを紹介する。
論文 参考訳(メタデータ) (2025-05-27T17:59:26Z) - VAPO: Visibility-Aware Keypoint Localization for Efficient 6DoF Object Pose Estimation [52.81869878956534]
2次元画像における3Dキーポイントの局所化は、インスタンスレベルの6DoFオブジェクトのポーズ推定のための3D-2D対応を確立する効果的な方法である。
本稿では、重要なキーポイントを可視性の観点からローカライズすることでこの問題に対処する。
我々は、可視性を考慮した重要度と最先端のポーズ推定アルゴリズムを統合することにより、VAPO(Visibility-Aware POse estimator)を構築する。
論文 参考訳(メタデータ) (2024-03-21T16:59:45Z) - Instance-aware Multi-Camera 3D Object Detection with Structural Priors
Mining and Self-Boosting Learning [93.71280187657831]
カメラによる鳥眼視(BEV)知覚パラダイムは、自律運転分野において大きな進歩を遂げている。
画像平面のインスタンス認識をBEV検出器内の深度推定プロセスに統合するIA-BEVを提案する。
論文 参考訳(メタデータ) (2023-12-13T09:24:42Z) - Heterogeneous Contrastive Learning: Encoding Spatial Information for
Compact Visual Representations [183.03278932562438]
本稿では,エンコーディング段階に空間情報を加えることで,対照的な目的と強いデータ拡張操作の間の学習の不整合を緩和する効果的な手法を提案する。
提案手法は,視覚表現の効率を向上し,自己指導型視覚表現学習の今後の研究を刺激する鍵となるメッセージを提供する。
論文 参考訳(メタデータ) (2020-11-19T16:26:25Z) - Selective Spatio-Temporal Aggregation Based Pose Refinement System:
Towards Understanding Human Activities in Real-World Videos [8.571131862820833]
最先端のポーズ推定装置は、現実世界の無注釈ビデオにおいて、乱れと低解像度のために高品質な2Dまたは3Dポーズデータを取得するのに苦労している。
本稿では,複数の専門家のポーズ推定器によって抽出されたキーポイント位置を洗練・平滑化するSST-Aという選択的時空間アグリゲーション機構を提案する。
本研究では, Pose-Refinement System (SSTA-PRS) によって改良された骨格データが,既存の行動認識モデルの強化に有効であることを示す。
論文 参考訳(メタデータ) (2020-11-10T19:19:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。