論文の概要: Spatial Cognition from Egocentric Video: Out of Sight, Not Out of Mind
- arxiv url: http://arxiv.org/abs/2404.05072v1
- Date: Sun, 7 Apr 2024 21:00:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-09 16:02:57.625238
- Title: Spatial Cognition from Egocentric Video: Out of Sight, Not Out of Mind
- Title(参考訳): エゴセントリックビデオからの空間認知: 視界外、心外ではない
- Authors: Chiara Plizzari, Shubham Goel, Toby Perrett, Jacob Chalk, Angjoo Kanazawa, Dima Damen,
- Abstract要約: 我々は、自我中心のカメラで捉えた観察により、アクティブな物体を3Dで追跡する。
本稿では, 部分的な2次元観測を3次元世界座標へ持ち上げる手法である Lift, Match and Keep (LMK) を紹介する。
EPIC-KITCHENSの100長ビデオ上でLMKをテストする。
- 参考スコア(独自算出の注目度): 39.226933837233744
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As humans move around, performing their daily tasks, they are able to recall where they have positioned objects in their environment, even if these objects are currently out of sight. In this paper, we aim to mimic this spatial cognition ability. We thus formulate the task of Out of Sight, Not Out of Mind - 3D tracking active objects using observations captured through an egocentric camera. We introduce Lift, Match and Keep (LMK), a method which lifts partial 2D observations to 3D world coordinates, matches them over time using visual appearance, 3D location and interactions to form object tracks, and keeps these object tracks even when they go out-of-view of the camera - hence keeping in mind what is out of sight. We test LMK on 100 long videos from EPIC-KITCHENS. Our results demonstrate that spatial cognition is critical for correctly locating objects over short and long time scales. E.g., for one long egocentric video, we estimate the 3D location of 50 active objects. Of these, 60% can be correctly positioned in 3D after 2 minutes of leaving the camera view.
- Abstract(参考訳): 人間が動き回って、毎日のタスクを実行すると、現在見えていないオブジェクトでも、環境に配置されたオブジェクトがどこにあるかを思い出すことができます。
本稿では,この空間認識能力を模倣することを目的とする。
そこで我々は、自我中心のカメラで捉えた観測から、アクティブな物体を3Dで追跡する、視界外ではなく視界外」というタスクを定式化する。
Lift, Match and Keep (LMK)は,3次元世界座標に部分的な2次元の観測値を持ち上げ,視覚的外観,3次元位置と相互作用を使ってオブジェクトのトラックを形成する手法である。
EPIC-KITCHENSの100長ビデオ上でLMKをテストする。
以上の結果から,空間認知は短期的・長期的な物体の正確な位置決定に重要であることが示唆された。
例えば、1つの長い自我中心のビデオでは、50個のアクティブな物体の3D位置を推定する。
そのうち60%は、カメラの視界を離れて2分後に3Dで正しく位置決めできる。
関連論文リスト
- Ego3DT: Tracking Every 3D Object in Ego-centric Videos [20.96550148331019]
本稿では,エゴ中心映像からの物体の3次元再構成と追跡のための新しいゼロショット手法を提案する。
Ego3DTは,エゴ環境内のオブジェクトの検出とセグメンテーション情報を最初に識別し,抽出する新しいフレームワークである。
また,エゴ中心ビデオにおける物体の3次元追跡軌道を安定的に作成するための動的階層化機構を革新した。
論文 参考訳(メタデータ) (2024-10-11T05:02:31Z) - TRACE: 5D Temporal Regression of Avatars with Dynamic Cameras in 3D
Environments [106.80978555346958]
現在の方法では、地球上の座標で動く人間を確実に推定することはできない。
TRACEは、ダイナミックカメラからグローバル座標における3D人間の共同回収と追跡を行う最初の1段階の手法である。
トラッキングとHPSベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-06-05T13:00:44Z) - 3D Cinemagraphy from a Single Image [73.09720823592092]
3Dシネマグラフィー(3D Cinemagraphy)は、3D画像と2Dアニメーションを融合させる新しい技術である。
静止画1枚を入力として、視覚コンテンツアニメーションとカメラモーションの両方を含むビデオを生成することを目標としています。
論文 参考訳(メタデータ) (2023-03-10T06:08:23Z) - EgoLoc: Revisiting 3D Object Localization from Egocentric Videos with
Visual Queries [68.75400888770793]
我々は、エゴセントリックなビデオから2次元オブジェクトを検索することで、3次元のマルチビュー幾何をよりうまく絡み合わせるパイプラインを定式化する。
具体的には、VQ3Dタスクにおける新しい最先端の成果を設定できる87.12%の総合的な成功率を達成する。
論文 参考訳(メタデータ) (2022-12-14T01:28:12Z) - 3D Moments from Near-Duplicate Photos [67.15199743223332]
3D Momentsは、新しい計算写真効果だ。
1枚目から2枚目までのシーンの動きを円滑に補間するビデオを作成する。
本システムは,モーションパララックスとシーンダイナミックスを併用したフォトリアリスティックな時空ビデオを生成する。
論文 参考訳(メタデータ) (2022-05-12T17:56:18Z) - D3D-HOI: Dynamic 3D Human-Object Interactions from Videos [49.38319295373466]
本稿では,D3D-HOIについて紹介する。D3D-HOIは3次元オブジェクトのポーズ,形状,動きを,人間と物体の相互作用の時,地上の真理アノテーションを付加したモノクロビデオのデータセットである。
我々のデータセットは、様々な現実世界のシーンとカメラの視点から捉えた、いくつかの共通したオブジェクトで構成されている。
我々は、推定された3次元人間のポーズを利用して、物体の空間的レイアウトとダイナミクスをより正確に推定する。
論文 参考訳(メタデータ) (2021-08-19T00:49:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。