論文の概要: EgoPoseFormer: A Simple Baseline for Egocentric 3D Human Pose Estimation
- arxiv url: http://arxiv.org/abs/2403.18080v1
- Date: Tue, 26 Mar 2024 20:02:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-28 21:05:06.589804
- Title: EgoPoseFormer: A Simple Baseline for Egocentric 3D Human Pose Estimation
- Title(参考訳): EgoPoseFormer: Egocentric Human Pose Estimationのためのシンプルなベースライン
- Authors: Chenhongyi Yang, Anastasia Tkach, Shreyas Hampali, Linguang Zhang, Elliot J. Crowley, Cem Keskin,
- Abstract要約: EgoPoseFormerは、ステレオエゴセントリックな人間のポーズ推定のための、シンプルだが効果的なトランスフォーマーベースのモデルである。
本手法をステレオUnrealEgoデータセット上で評価し,従来の手法よりも大幅に優れていたことを示す。
意外なことに、適切なトレーニング手法により、私たちの第一段階のポーズ提案ネットワークでさえ、従来の技術よりも優れたパフォーマンスを達成できることがわかりました。
- 参考スコア(独自算出の注目度): 15.590340765703893
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present EgoPoseFormer, a simple yet effective transformer-based model for stereo egocentric human pose estimation. The main challenge in egocentric pose estimation is overcoming joint invisibility, which is caused by self-occlusion or a limited field of view (FOV) of head-mounted cameras. Our approach overcomes this challenge by incorporating a two-stage pose estimation paradigm: in the first stage, our model leverages the global information to estimate each joint's coarse location, then in the second stage, it employs a DETR style transformer to refine the coarse locations by exploiting fine-grained stereo visual features. In addition, we present a deformable stereo operation to enable our transformer to effectively process multi-view features, which enables it to accurately localize each joint in the 3D world. We evaluate our method on the stereo UnrealEgo dataset and show it significantly outperforms previous approaches while being computationally efficient: it improves MPJPE by 27.4mm (45% improvement) with only 7.9% model parameters and 13.1% FLOPs compared to the state-of-the-art. Surprisingly, with proper training techniques, we find that even our first-stage pose proposal network can achieve superior performance compared to previous arts. We also show that our method can be seamlessly extended to monocular settings, which achieves state-of-the-art performance on the SceneEgo dataset, improving MPJPE by 25.5mm (21% improvement) compared to the best existing method with only 60.7% model parameters and 36.4% FLOPs.
- Abstract(参考訳): EgoPoseFormerは、ステレオ・エゴセントリックな人間のポーズ推定のための、シンプルだが効果的なトランスフォーマーベースモデルである。
自己中心型ポーズ推定における主な課題は、自己隠蔽や頭部搭載カメラの視野制限(FOV)に起因する関節視認性を克服することである。
提案手法は,2段階のポーズ推定パラダイムを取り入れることで,この課題を克服する。第1段階では,大域的な情報を活用して各関節の粗い位置を推定し,第2段階では,細粒な立体視覚特徴を利用して粗い位置を洗練させるDETR方式のトランスフォーマーを用いる。
さらに,変形可能なステレオ操作により,変換器の多面的特徴を効果的に処理し,各関節を正確に3次元的にローカライズすることができる。
提案手法をステレオUnrealEgoデータセット上で評価し,計算効率が良く,MPJPEを27.4mm(45%改善),モデルパラメータが7.9%,FLOPが13.1%に改善した。
意外なことに、適切なトレーニング手法により、私たちの第一段階のポーズ提案ネットワークでさえ、従来の技術よりも優れたパフォーマンスを達成できることがわかりました。
また,SceneEgoデータセット上での最先端性能を実現し,60.7%のモデルパラメータと36.4%のFLOPを持つ既存手法と比較して,MPJPEを25.5mm(21%改善)改善した。
関連論文リスト
- 1st Place Solution of Multiview Egocentric Hand Tracking Challenge ECCV2024 [8.462982928029135]
マルチビュー入力画像とカメラパラメータを用いて手形状とポーズを推定する手法を提案する。
提案手法は,Umetrackデータセットで13.92mm MPJPE,HOT3Dデータセットで21.66mm MPJPEを実現する。
論文 参考訳(メタデータ) (2024-09-28T14:26:32Z) - SkelFormer: Markerless 3D Pose and Shape Estimation using Skeletal Transformers [57.46911575980854]
マルチビュー人間のポーズと形状推定のための新しいマーカーレスモーションキャプチャパイプラインであるSkelFormerを紹介する。
提案手法は,まず市販の2次元キーポイント推定器を用いて,大規模インザミルドデータに基づいて事前トレーニングを行い,3次元関節位置を求める。
次に、重雑音観測から、関節の位置をポーズと形状の表現にマッピングする回帰に基づく逆運動性骨格変換器を設計する。
論文 参考訳(メタデータ) (2024-04-19T04:51:18Z) - 3D Human Pose Perception from Egocentric Stereo Videos [67.9563319914377]
我々は,エゴセントリックな立体3次元ポーズ推定を改善するためのトランスフォーマーベースの新しいフレームワークを提案する。
本手法は, しゃがんだり座ったりといった困難なシナリオにおいても, 人間のポーズを正確に推定することができる。
私たちはUnrealEgo2、UnrealEgo-RW、およびトレーニングされたモデルをプロジェクトページでリリースします。
論文 参考訳(メタデータ) (2023-12-30T21:21:54Z) - 1st Place Solution of Egocentric 3D Hand Pose Estimation Challenge 2023
Technical Report:A Concise Pipeline for Egocentric Hand Pose Reconstruction [11.551318550321938]
AssemblyHandsを使って、この課題は、単視点画像からエゴセントリックな3D手ポーズの推定に焦点を当てる。
ViTベースのバックボーンと、強力なモデルベースラインを提供する3Dキーポイント予測のためのシンプルな回帰器を採用しています。
提案手法は,テストデータセット上で12.21mmMPJPEを達成し,Egocentric 3D Hand Pose Estimation において第1位を獲得した。
論文 参考訳(メタデータ) (2023-10-07T10:25:50Z) - UnrealEgo: A New Dataset for Robust Egocentric 3D Human Motion Capture [70.59984501516084]
UnrealEgoは、エゴセントリックな3Dポーズ推定のための、新しい大規模博物学データセットである。
これは、2台の魚眼カメラを備えた高度な眼鏡のコンセプトに基づいており、制約のない環境で使用することができる。
本稿では,ステレオ入力のための2次元キーポイント推定モジュールを考案し,人間のポーズ推定を改善するための簡易かつ効果的なベンチマーク手法を提案する。
論文 参考訳(メタデータ) (2022-08-02T17:59:54Z) - EATFormer: Improving Vision Transformer Inspired by Evolutionary Algorithm [111.17100512647619]
本稿では、実証された実用的な進化的アルゴリズム(EA)と類似したビジョントランスフォーマーの合理性を説明する。
本稿では,EA ベースのトランス (EAT) ブロックのみを含む新しいピラミッド EATFormer バックボーンを提案する。
画像分類,下流タスク,説明実験に関する大規模かつ定量的な実験は,我々のアプローチの有効性と優位性を示すものである。
論文 参考訳(メタデータ) (2022-06-19T04:49:35Z) - Building Spatio-temporal Transformers for Egocentric 3D Pose Estimation [9.569752078386006]
過去のフレームからの情報を活用して、自己注意に基づく3D推定手順であるEgo-STANをガイドします。
具体的には、セマンティックにリッチな畳み込みニューラルネットワークに基づく特徴マップに付随する時間変換モデルを構築する。
我々は,xR-EgoPoseデータセットにおいて,Ego-STANの優れた性能を示す。
論文 参考訳(メタデータ) (2022-06-09T22:33:27Z) - Investigating Spherical Epipolar Rectification for Multi-View Stereo 3D
Reconstruction [1.0152838128195467]
主線の違いによる歪みを最小限に抑えるために, エピポーラ補正のための球面モデルを提案する。
提案手法がフレームベースのエピポーラ補正よりも優れていることを示す定性的,定量的評価を行った。
論文 参考訳(メタデータ) (2022-04-08T15:50:20Z) - Direct Multi-view Multi-person 3D Pose Estimation [138.48139701871213]
マルチビュー画像からマルチパーソン3Dポーズを推定するためのMulti-view Pose Transformer(MvP)を提案する。
MvPは、中間タスクに頼ることなく、複数の人物の3Dポーズを直接クリーンで効率的な方法で回帰する。
我々は,MvPモデルがより効率的でありながら,いくつかのベンチマークにおいて最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-07T13:09:20Z) - SelfPose: 3D Egocentric Pose Estimation from a Headset Mounted Camera [97.0162841635425]
頭部装着型VR装置の縁に設置した下向きの魚眼カメラから撮影した単眼画像から,エゴセントリックな3Dボディポーズ推定法を提案する。
この特異な視点は、厳密な自己閉塞と視点歪みを伴う、独特の視覚的な外観のイメージに繋がる。
本稿では,2次元予測の不確実性を考慮した新しいマルチブランチデコーダを用いたエンコーダデコーダアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-11-02T16:18:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。