論文の概要: PCIE_Pose Solution for EgoExo4D Pose and Proficiency Estimation Challenge
- arxiv url: http://arxiv.org/abs/2505.24411v1
- Date: Fri, 30 May 2025 09:51:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.885789
- Title: PCIE_Pose Solution for EgoExo4D Pose and Proficiency Estimation Challenge
- Title(参考訳): PCIE_Pose Solution for EgoExo4D Pose and Proficiency Estimation Challenge
- Authors: Feng Chen, Kanokphan Lertniphonphan, Qiancheng Yan, Xiaohui Fan, Jun Xie, Tao Zhang, Zhepeng Wang,
- Abstract要約: 本報告は,RGBエゴセントリックビデオから21個の手関節を推定する作業に焦点を当てる。
We developed the Hand Pose Vision Transformer (HPCIE-T+) to refine hand pose predictions。
EgoD Body Pose Challengeでは,マルチモーダル・シンテンポラル機能統合戦略を採用した。
提案手法は,Hand Pose Challengeで8.31 PA-MPJPE,Body Pose Challengeで11.25 MPJPEを達成した。
- 参考スコア(独自算出の注目度): 26.194108651583466
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This report introduces our team's (PCIE_EgoPose) solutions for the EgoExo4D Pose and Proficiency Estimation Challenges at CVPR2025. Focused on the intricate task of estimating 21 3D hand joints from RGB egocentric videos, which are complicated by subtle movements and frequent occlusions, we developed the Hand Pose Vision Transformer (HP-ViT+). This architecture synergizes a Vision Transformer and a CNN backbone, using weighted fusion to refine the hand pose predictions. For the EgoExo4D Body Pose Challenge, we adopted a multimodal spatio-temporal feature integration strategy to address the complexities of body pose estimation across dynamic contexts. Our methods achieved remarkable performance: 8.31 PA-MPJPE in the Hand Pose Challenge and 11.25 MPJPE in the Body Pose Challenge, securing championship titles in both competitions. We extended our pose estimation solutions to the Proficiency Estimation task, applying core technologies such as transformer-based architectures. This extension enabled us to achieve a top-1 accuracy of 0.53, a SOTA result, in the Demonstrator Proficiency Estimation competition.
- Abstract(参考訳): 本報告では,CVPR2025におけるEgoExo4D Pose and Proficiency Estimation Challengesに対するPCIE_EgoPoseソリューションについて紹介する。
RGBエゴセントリックビデオから21個の手関節を推定する複雑な作業に焦点をあてた上で,手探触覚変換器(HP-ViT+)を開発した。
このアーキテクチャはビジョントランスフォーマーとCNNバックボーンを同期させ、重み付き融合を用いて手ポーズ予測を洗練させる。
EgoExo4D Body Pose Challengeでは,動的文脈にまたがる身体ポーズ推定の複雑さに対処する多モーダル時空間機能統合戦略を採用した。
ハンドポーズチャレンジでは8.31 PA-MPJPE、ボディポーズチャレンジでは11.25 MPJPE、両大会ともタイトルを確保した。
提案手法は,提案手法を有能度推定タスクに拡張し,トランスフォーマーアーキテクチャなどのコア技術を適用した。
この拡張により、Demonstrator Proficiency Estimationコンペティションにおいて、トップ1の精度0.53、SOTA結果を達成することができた。
関連論文リスト
- DICE: End-to-end Deformation Capture of Hand-Face Interactions from a Single Image [98.29284902879652]
DICEは1枚の画像から変形認識による手と顔のインタラクションを再現する最初のエンドツーエンド手法である。
ローカルな変形場とグローバルなメッシュ位置の回帰を2つのネットワークブランチに切り離すことが特徴である。
標準的なベンチマークと、精度と物理的妥当性の点から見れば、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-06-26T00:08:29Z) - PCIE_EgoHandPose Solution for EgoExo4D Hand Pose Challenge [12.31892993103657]
課題の主な目的は、RGBエゴセントリックなビデオ画像を用いて、21個の3D関節を含む手ポーズを正確に推定することである。
タスクの複雑さに対処するため,Hand Pose Vision Transformer (HP-ViT)を提案する。
HP−ViTは、MPJPEおよびRLE損失関数を利用して、3Dにおける関節位置を推定するViTバックボーンとトランスフォーマーヘッドとを備える。
提案手法は25.51MPJPEと8.49PA-MPJPEでハンドポースの1位を獲得した。
論文 参考訳(メタデータ) (2024-06-18T02:41:32Z) - EgoPoseFormer: A Simple Baseline for Stereo Egocentric 3D Human Pose Estimation [15.590340765703893]
ステレオ・エゴセントリックな人物ポーズ推定のためのトランスフォーマーモデルであるEgoPoseFormerを提案する。
本手法は,ヘッドマウントカメラの自己閉塞性や視野制限(FOV)による関節視認性を克服する主な課題を克服する。
本手法をステレオUnrealEgoデータセット上で評価し,従来の手法よりも大幅に優れていたことを示す。
論文 参考訳(メタデータ) (2024-03-26T20:02:48Z) - Benchmarks and Challenges in Pose Estimation for Egocentric Hand Interactions with Objects [89.95728475983263]
ロボティクス、AR/VR、アクション認識、モーション生成といったタスクにおいて、自己中心的な視点からこのようなインタラクションを理解することが重要である。
我々は、AmblyHandsとARCTICデータセットに基づいたHANDS23チャレンジを、慎重に設計されたトレーニングとテストの分割に基づいて設計する。
提案手法の結果と近年のリーダーボードのベースラインに基づいて,3Dハンド(オブジェクト)再構成タスクの徹底的な解析を行う。
論文 参考訳(メタデータ) (2024-03-25T05:12:21Z) - Egocentric Whole-Body Motion Capture with FisheyeViT and Diffusion-Based
Motion Refinement [65.08165593201437]
本研究では,人体と手の動きを同時に推定する単一魚眼カメラを用いて,自我中心型全体モーションキャプチャーを探索する。
この課題は、高品質なデータセットの欠如、魚眼カメラの歪み、人間の身体の自己閉塞など、重大な課題を提起する。
そこで本研究では,魚眼画像の特徴を3次元人体ポーズ予測のための3次元熱マップ表現に変換した魚眼画像の特徴を抽出する手法を提案する。
論文 参考訳(メタデータ) (2023-11-28T07:13:47Z) - 1st Place Solution of Egocentric 3D Hand Pose Estimation Challenge 2023
Technical Report:A Concise Pipeline for Egocentric Hand Pose Reconstruction [11.551318550321938]
AssemblyHandsを使って、この課題は、単視点画像からエゴセントリックな3D手ポーズの推定に焦点を当てる。
ViTベースのバックボーンと、強力なモデルベースラインを提供する3Dキーポイント予測のためのシンプルな回帰器を採用しています。
提案手法は,テストデータセット上で12.21mmMPJPEを達成し,Egocentric 3D Hand Pose Estimation において第1位を獲得した。
論文 参考訳(メタデータ) (2023-10-07T10:25:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。