論文の概要: Egocentric Activity Recognition and Localization on a 3D Map
- arxiv url: http://arxiv.org/abs/2105.09544v1
- Date: Thu, 20 May 2021 06:58:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-21 13:35:32.727856
- Title: Egocentric Activity Recognition and Localization on a 3D Map
- Title(参考訳): Egocentric Activity Recognition and Localization on a 3D Map
- Authors: Miao Liu, Lingni Ma, Kiran Somasundaram, Yin Li, Kristen Grauman,
James M. Rehg and Chao Li
- Abstract要約: 我々は,エゴセントリックなビデオから既知の3Dマップ上で,モバイルユーザの行動を共同で認識し,位置決めする問題に対処する。
本モデルでは,環境の階層的容積表現(HVR)とエゴセントリックなビデオの入力を取得し,その3次元動作位置を潜在変数として推定し,その潜在的な位置を囲む映像および文脈的手がかりに基づいて動作を認識する。
- 参考スコア(独自算出の注目度): 94.30708825896727
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Given a video captured from a first person perspective and recorded in a
familiar environment, can we recognize what the person is doing and identify
where the action occurs in the 3D space? We address this challenging problem of
jointly recognizing and localizing actions of a mobile user on a known 3D map
from egocentric videos. To this end, we propose a novel deep probabilistic
model. Our model takes the inputs of a Hierarchical Volumetric Representation
(HVR) of the environment and an egocentric video, infers the 3D action location
as a latent variable, and recognizes the action based on the video and
contextual cues surrounding its potential locations. To evaluate our model, we
conduct extensive experiments on a newly collected egocentric video dataset, in
which both human naturalistic actions and photo-realistic 3D environment
reconstructions are captured. Our method demonstrates strong results on both
action recognition and 3D action localization across seen and unseen
environments. We believe our work points to an exciting research direction in
the intersection of egocentric vision, and 3D scene understanding.
- Abstract(参考訳): 初対面から撮影した映像が身近な環境で記録されている場合、その人が何をしているかを認識して、そのアクションが3D空間で起きているかを特定できますか?
自発的ビデオから既知の3dマップ上でモバイルユーザのアクションを認識・ローカライズするという,この課題に対処する。
そこで本研究では,新しい深部確率モデルを提案する。
本モデルは,環境の階層的ボリューム表現(hvr)とエゴセントリックビデオの入力を受け取り,その3次元動作位置を潜在変数として推定し,その潜在位置を取り巻く映像と文脈的手がかりに基づいて動作を認識する。
本モデルを評価するために,新たに収集したエゴセントリックなビデオデータセットを用いて,人間の自然主義行動と写真リアルな3D環境再構築の両方を捉える実験を行った。
本手法は,視認環境および視認環境における行動認識と3次元行動定位の両方において強い結果を示す。
私たちは、エゴセントリックな視覚の交差と3Dシーン理解におけるエキサイティングな研究方向を示していると信じています。
関連論文リスト
- Ego3DT: Tracking Every 3D Object in Ego-centric Videos [20.96550148331019]
本稿では,エゴ中心映像からの物体の3次元再構成と追跡のための新しいゼロショット手法を提案する。
Ego3DTは,エゴ環境内のオブジェクトの検出とセグメンテーション情報を最初に識別し,抽出する新しいフレームワークである。
また,エゴ中心ビデオにおける物体の3次元追跡軌道を安定的に作成するための動的階層化機構を革新した。
論文 参考訳(メタデータ) (2024-10-11T05:02:31Z) - Grounding 3D Scene Affordance From Egocentric Interactions [52.5827242925951]
接地型3Dシーンアベイランスは、3D環境におけるインタラクティブな領域を見つけることを目的としている。
我々は,エゴセントリックなインタラクションから3Dシーンの空き時間を確保するという,新しい課題を紹介した。
論文 参考訳(メタデータ) (2024-09-29T10:46:19Z) - 3D Human Pose Perception from Egocentric Stereo Videos [67.9563319914377]
我々は,エゴセントリックな立体3次元ポーズ推定を改善するためのトランスフォーマーベースの新しいフレームワークを提案する。
本手法は, しゃがんだり座ったりといった困難なシナリオにおいても, 人間のポーズを正確に推定することができる。
私たちはUnrealEgo2、UnrealEgo-RW、およびトレーニングされたモデルをプロジェクトページでリリースします。
論文 参考訳(メタデータ) (2023-12-30T21:21:54Z) - EgoHumans: An Egocentric 3D Multi-Human Benchmark [37.375846688453514]
EgoHumansは、エゴセントリックな人間の3Dポーズ推定と追跡の最先端化を図るために、新しいマルチビューマルチヒューマンビデオベンチマークである。
本研究では,エゴセントリックなマルチヒューマン・ベンチマークを構築するために,新しい3Dキャプチャ・セットアップを提案する。
コンシューマグレードのウェアラブルカメラ搭載メガネを、エゴセントリックな視点に活用することで、テニス、フェンシング、バレーボールなどのダイナミックな活動を捉えることができます。
論文 参考訳(メタデータ) (2023-05-25T21:37:36Z) - Scene-aware Egocentric 3D Human Pose Estimation [72.57527706631964]
頭部に1台の魚眼カメラを装着したエゴセントリックな3Dポーズ推定は、仮想現実や拡張現実における多くの応用により、近年注目を集めている。
既存の方法はまだ、人間の体が非常に隠蔽されている、あるいはシーンと密接な相互作用がある、挑戦的なポーズに苦慮している。
本研究では,シーン制約による自己中心型ポーズの予測を導くシーン認識型自己中心型ポーズ推定手法を提案する。
論文 参考訳(メタデータ) (2022-12-20T21:35:39Z) - UnrealEgo: A New Dataset for Robust Egocentric 3D Human Motion Capture [70.59984501516084]
UnrealEgoは、エゴセントリックな3Dポーズ推定のための、新しい大規模博物学データセットである。
これは、2台の魚眼カメラを備えた高度な眼鏡のコンセプトに基づいており、制約のない環境で使用することができる。
本稿では,ステレオ入力のための2次元キーポイント推定モジュールを考案し,人間のポーズ推定を改善するための簡易かつ効果的なベンチマーク手法を提案する。
論文 参考訳(メタデータ) (2022-08-02T17:59:54Z) - The One Where They Reconstructed 3D Humans and Environments in TV Shows [33.533207518342465]
テレビ番組には様々な人間の行動が描かれており、豊かなデータ源となる可能性について広く研究されている。
そこで本研究では,テレビ番組の全シーズンで動作し,情報を3Dで集約する自動アプローチを提案する。
我々は,人間とその環境を3次元で推論することで,下流の幅広い応用が可能になることを示す。
論文 参考訳(メタデータ) (2022-07-28T17:57:30Z) - Neural Groundplans: Persistent Neural Scene Representations from a
Single Image [90.04272671464238]
本稿では,シーンの2次元画像観察を永続的な3次元シーン表現にマッピングする手法を提案する。
本稿では,永続的でメモリ効率のよいシーン表現として,条件付きニューラルグラウンドプランを提案する。
論文 参考訳(メタデータ) (2022-07-22T17:41:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。