論文の概要: Building Spatio-temporal Transformers for Egocentric 3D Pose Estimation
- arxiv url: http://arxiv.org/abs/2206.04785v1
- Date: Thu, 9 Jun 2022 22:33:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-13 15:39:10.491372
- Title: Building Spatio-temporal Transformers for Egocentric 3D Pose Estimation
- Title(参考訳): エゴセントリック3次元ポーズ推定のための時空間変圧器の構築
- Authors: Jinman Park, Kimathi Kaai, Saad Hossain, Norikatsu Sumi, Sirisha
Rambhatla, Paul Fieguth
- Abstract要約: 過去のフレームからの情報を活用して、自己注意に基づく3D推定手順であるEgo-STANをガイドします。
具体的には、セマンティックにリッチな畳み込みニューラルネットワークに基づく特徴マップに付随する時間変換モデルを構築する。
我々は,xR-EgoPoseデータセットにおいて,Ego-STANの優れた性能を示す。
- 参考スコア(独自算出の注目度): 9.569752078386006
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Egocentric 3D human pose estimation (HPE) from images is challenging due to
severe self-occlusions and strong distortion introduced by the fish-eye view
from the head mounted camera. Although existing works use intermediate
heatmap-based representations to counter distortion with some success,
addressing self-occlusion remains an open problem. In this work, we leverage
information from past frames to guide our self-attention-based 3D HPE
estimation procedure -- Ego-STAN. Specifically, we build a spatio-temporal
Transformer model that attends to semantically rich convolutional neural
network-based feature maps. We also propose feature map tokens: a new set of
learnable parameters to attend to these feature maps. Finally, we demonstrate
Ego-STAN's superior performance on the xR-EgoPose dataset where it achieves a
30.6% improvement on the overall mean per-joint position error, while leading
to a 22% drop in parameters compared to the state-of-the-art.
- Abstract(参考訳): 頭部搭載カメラからの魚眼視による重度の自己遮蔽と強い歪みのため,画像からの自己中心性3次元人物ポーズ推定(hpe)は困難である。
既存の研究では、中間的な熱マップに基づく表現を用いて歪みに対処するが、自己閉塞に対処することは未解決の問題である。
本研究では,過去のフレームからの情報を活用し,自己注意に基づく3次元HPE推定手順であるEgo-STANを導出する。
具体的には、セマンティックにリッチな畳み込みニューラルネットワークに基づく特徴マップに付随する時空間変換モデルを構築する。
また,これらの特徴マップに対応するための新しい学習可能なパラメータセットとして,特徴マップトークンを提案する。
最後に、xr-egoposeデータセットにおけるego-stanの優れたパフォーマンスを実証し、ジョイント毎の平均位置誤差を30.6%改善し、最新データと比較してパラメータが22%減少することを示した。
関連論文リスト
- Attention-Propagation Network for Egocentric Heatmap to 3D Pose Lifting [8.134443548271301]
EgoTAPは,高度に高精度な立体エゴセントリックな3Dポーズ推定のためのヒートマップから3Dポーズリフト法である。
本手法は,従来の最先端技術よりも質的,定量的に優れていた。
論文 参考訳(メタデータ) (2024-02-28T13:50:39Z) - SimpleEgo: Predicting Probabilistic Body Pose from Egocentric Cameras [6.476948781728137]
ヘッドマウントデバイス(HMD)上の下向きカメラでは、人間中心のポーズ推定が困難である
これまでのソリューションでは、魚眼カメラのレンズを使ってより広い視野を捉えることで、この問題を最小限に抑えることができた。
従来のリチリニアカメラレンズで撮影した画像からポーズを予測する。これはハードウェア設計の問題を解決するが、ボディ部品はフレーム外になることが多い。
提案手法は, この難易度設定の最先端化を実現し, 平均接合位置誤差を23%減らし, 下半身では58%減らした。
論文 参考訳(メタデータ) (2024-01-26T11:19:13Z) - 1st Place Solution of Egocentric 3D Hand Pose Estimation Challenge 2023
Technical Report:A Concise Pipeline for Egocentric Hand Pose Reconstruction [11.551318550321938]
AssemblyHandsを使って、この課題は、単視点画像からエゴセントリックな3D手ポーズの推定に焦点を当てる。
ViTベースのバックボーンと、強力なモデルベースラインを提供する3Dキーポイント予測のためのシンプルな回帰器を採用しています。
提案手法は,テストデータセット上で12.21mmMPJPEを達成し,Egocentric 3D Hand Pose Estimation において第1位を獲得した。
論文 参考訳(メタデータ) (2023-10-07T10:25:50Z) - Ego3DPose: Capturing 3D Cues from Binocular Egocentric Views [9.476008200056082]
Ego3DPoseは、高度に高精度な両眼エゴ中心型3Dポーズ再構築システムである。
両眼熱マップと独立に手足のポーズを推定する経路を持つ2経路ネットワークアーキテクチャを提案する。
三角法を用いた新しい視点認識表現を提案し,手足の3次元方向を推定する。
論文 参考訳(メタデータ) (2023-09-21T10:34:35Z) - Uncertainty-aware State Space Transformer for Egocentric 3D Hand
Trajectory Forecasting [79.34357055254239]
ハンドトラジェクトリ予測は、AR/VRシステムと対話する際の人間の意図の迅速な理解を可能にするために不可欠である。
既存の方法では、現実の3Dアプリケーションでは不十分な2次元画像空間でこの問題に対処する。
初対人視点で観察されたRGBビデオから3次元空間のハンドトラジェクトリを予測することを目的とした,エゴセントリックな3Dハンドトラジェクトリ予測タスクを構築した。
論文 参考訳(メタデータ) (2023-07-17T04:55:02Z) - Zolly: Zoom Focal Length Correctly for Perspective-Distorted Human Mesh
Reconstruction [66.10717041384625]
Zollyは、視点歪みの画像に焦点を当てた最初の3DHMR法である。
人体の2次元密度ゆらぎスケールを記述した新しいカメラモデルと新しい2次元歪み画像を提案する。
このタスク用に調整された2つの現実世界のデータセットを拡張します。
論文 参考訳(メタデータ) (2023-03-24T04:22:41Z) - RiCS: A 2D Self-Occlusion Map for Harmonizing Volumetric Objects [68.85305626324694]
カメラ空間における光マーチング (RiCS) は、3次元における前景物体の自己閉塞を2次元の自己閉塞マップに表現する新しい手法である。
表現マップは画像の質を高めるだけでなく,時間的コヒーレントな複雑な影効果をモデル化できることを示す。
論文 参考訳(メタデータ) (2022-05-14T05:35:35Z) - Simple and Effective Synthesis of Indoor 3D Scenes [78.95697556834536]
1枚以上の画像から3D屋内シーンを没入する問題について検討する。
我々の狙いは、新しい視点から高解像度の画像とビデオを作成することである。
本稿では,不完全点雲の再投影から高解像度のRGB-D画像へ直接マップするイメージ・ツー・イメージのGANを提案する。
論文 参考訳(メタデータ) (2022-04-06T17:54:46Z) - SelfPose: 3D Egocentric Pose Estimation from a Headset Mounted Camera [97.0162841635425]
頭部装着型VR装置の縁に設置した下向きの魚眼カメラから撮影した単眼画像から,エゴセントリックな3Dボディポーズ推定法を提案する。
この特異な視点は、厳密な自己閉塞と視点歪みを伴う、独特の視覚的な外観のイメージに繋がる。
本稿では,2次元予測の不確実性を考慮した新しいマルチブランチデコーダを用いたエンコーダデコーダアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-11-02T16:18:06Z) - Synthetic Training for Monocular Human Mesh Recovery [100.38109761268639]
本稿では,RGB画像と大規模に異なる複数の身体部位の3次元メッシュを推定することを目的とする。
主な課題は、2D画像のすべての身体部分の3Dアノテーションを完備するトレーニングデータがないことである。
本稿では,D2S(Deep-to-scale)投影法を提案する。
論文 参考訳(メタデータ) (2020-10-27T03:31:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。