Fugu-MT 論文翻訳(概要): Spatial Cognition from Egocentric Video: Out of Sight, Not Out of Mind

論文の概要: Spatial Cognition from Egocentric Video: Out of Sight, Not Out of Mind

arxiv url: http://arxiv.org/abs/2404.05072v2
Date: Tue, 21 Jan 2025 21:33:06 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-23 18:44:13.758388
Title: Spatial Cognition from Egocentric Video: Out of Sight, Not Out of Mind
Title（参考訳）: エゴセントリックビデオからの空間認知: 視界外、心外ではない
Authors: Chiara Plizzari, Shubham Goel, Toby Perrett, Jacob Chalk, Angjoo Kanazawa, Dima Damen,
Abstract要約: 我々は、自我中心のカメラで捉えた観察により、アクティブな物体を3Dで追跡する。我々は,この課題に対処するためのシンプルだが効果的なアプローチである Lift, Match, and Keep (LMK) を導入する。 LMKは、部分的な2D観察を3D世界座標に引き上げ、視覚的外観や3D位置、インタラクションを使って時間とともにマッチングしてオブジェクトのトラックを作り、カメラの外を見渡してもそれらのオブジェクトのトラックを維持できる。
参考スコア（独自算出の注目度）: 39.226933837233744
License: http://creativecommons.org/licenses/by/4.0/
Abstract: As humans move around, performing their daily tasks, they are able to recall where they have positioned objects in their environment, even if these objects are currently out of their sight. In this paper, we aim to mimic this spatial cognition ability. We thus formulate the task of Out of Sight, Not Out of Mind - 3D tracking active objects using observations captured through an egocentric camera. We introduce a simple but effective approach to address this challenging problem, called Lift, Match, and Keep (LMK). LMK lifts partial 2D observations to 3D world coordinates, matches them over time using visual appearance, 3D location and interactions to form object tracks, and keeps these object tracks even when they go out-of-view of the camera. We benchmark LMK on 100 long videos from EPIC-KITCHENS. Our results demonstrate that spatial cognition is critical for correctly locating objects over short and long time scales. E.g., for one long egocentric video, we estimate the 3D location of 50 active objects. After 120 seconds, 57% of the objects are correctly localised by LMK, compared to just 33% by a recent 3D method for egocentric videos and 17% by a general 2D tracking method.
Abstract（参考訳）: 人間が動き回って日常のタスクを実行すると、現在視界外にあるオブジェクトがどこにあるのかを思い出すことができます。本稿では,この空間認識能力を模倣することを目的とする。そこで我々は、自我中心のカメラで捉えた観測から、アクティブな物体を3Dで追跡する、視界外ではなく視界外」というタスクを定式化する。我々は,この課題に対処するためのシンプルで効果的なアプローチである Lift, Match, Keep (LMK) を導入する。 LMKは、部分的な2D観察を3D世界座標に引き上げ、視覚的外観や3D位置、インタラクションを使って時間とともにマッチングしてオブジェクトのトラックを作り、カメラの外を見渡してもそれらのオブジェクトのトラックを維持できる。 EPIC-KITCHENSの100長ビデオ上でLMKをベンチマークする。以上の結果から,空間認知は短期的・長期的な物体の正確な位置決定に重要であることが示唆された。例えば、1つの長い自我中心のビデオでは、50個のアクティブな物体の3D位置を推定する。 120秒後、オブジェクトの57%はLMKによって正しく位置決めされ、最近の3Dビデオでは33%、一般的な2Dトラッキングでは17%に過ぎなかった。

関連論文リスト

SpatialTrackerV2: 3D Point Tracking Made Easy [73.0350898700048]
SpaceTrackerV2はモノクロビデオのフィードフォワード3Dポイントトラッキング手法である。これは、世界空間の3Dモーションをシーン幾何学、カメラエゴモーション、ピクセルワイドオブジェクトモーションに分解する。このような異種データから幾何学と運動を共同で学習することで、SpatialTrackerV2は既存の3Dトラッキング方法よりも30%優れています。
論文参考訳（メタデータ） (2025-07-16T17:59:03Z)
HOT3D: Hand and Object Tracking in 3D from Egocentric Multi-View Videos [9.513100627302755]
データセットには833分(3.7M+画像)以上の記録があり、19人の被験者が33の多様な剛体物体と相互作用している。記録には、エゴセントリックなマルチビューRGB/モノクロ画像、目視信号、シーンポイント雲、カメラ、手、オブジェクトの3Dポーズを含む複数の同期データストリームが含まれている。実験では,3次元ハンドトラッキング,モデルベース6DoFオブジェクトポーズ推定,未知のインハンドオブジェクトの3次元持ち上げという3つの一般的なタスクに対して,マルチビュー・エゴセントリックデータの有効性を実証した。
論文参考訳（メタデータ） (2024-11-28T14:09:42Z)
Ego3DT: Tracking Every 3D Object in Ego-centric Videos [20.96550148331019]
本稿では,エゴ中心映像からの物体の3次元再構成と追跡のための新しいゼロショット手法を提案する。 Ego3DTは,エゴ環境内のオブジェクトの検出とセグメンテーション情報を最初に識別し,抽出する新しいフレームワークである。また,エゴ中心ビデオにおける物体の3次元追跡軌道を安定的に作成するための動的階層化機構を革新した。
論文参考訳（メタデータ） (2024-10-11T05:02:31Z)
3D-Aware Instance Segmentation and Tracking in Egocentric Videos [107.10661490652822]
エゴセントリックなビデオは、3Dシーンの理解にユニークな課題を提示する。本稿では,一対一のビデオにおけるインスタンスのセグメンテーションとトラッキングに対する新しいアプローチを提案する。空間的および時間的手がかりを取り入れることで、最先端の2D手法と比較して優れた性能が得られる。
論文参考訳（メタデータ） (2024-08-19T10:08:25Z)
TRACE: 5D Temporal Regression of Avatars with Dynamic Cameras in 3D Environments [106.80978555346958]
現在の方法では、地球上の座標で動く人間を確実に推定することはできない。 TRACEは、ダイナミックカメラからグローバル座標における3D人間の共同回収と追跡を行う最初の1段階の手法である。トラッキングとHPSベンチマークで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2023-06-05T13:00:44Z)
3D Cinemagraphy from a Single Image [73.09720823592092]
3Dシネマグラフィー(3D Cinemagraphy)は、3D画像と2Dアニメーションを融合させる新しい技術である。静止画1枚を入力として、視覚コンテンツアニメーションとカメラモーションの両方を含むビデオを生成することを目標としています。
論文参考訳（メタデータ） (2023-03-10T06:08:23Z)
EgoLoc: Revisiting 3D Object Localization from Egocentric Videos with Visual Queries [68.75400888770793]
我々は、エゴセントリックなビデオから2次元オブジェクトを検索することで、3次元のマルチビュー幾何をよりうまく絡み合わせるパイプラインを定式化する。具体的には、VQ3Dタスクにおける新しい最先端の成果を設定できる87.12%の総合的な成功率を達成する。
論文参考訳（メタデータ） (2022-12-14T01:28:12Z)
3D Moments from Near-Duplicate Photos [67.15199743223332]
3D Momentsは、新しい計算写真効果だ。 1枚目から2枚目までのシーンの動きを円滑に補間するビデオを作成する。本システムは,モーションパララックスとシーンダイナミックスを併用したフォトリアリスティックな時空ビデオを生成する。
論文参考訳（メタデータ） (2022-05-12T17:56:18Z)
D3D-HOI: Dynamic 3D Human-Object Interactions from Videos [49.38319295373466]
本稿では,D3D-HOIについて紹介する。D3D-HOIは3次元オブジェクトのポーズ,形状,動きを,人間と物体の相互作用の時,地上の真理アノテーションを付加したモノクロビデオのデータセットである。我々のデータセットは、様々な現実世界のシーンとカメラの視点から捉えた、いくつかの共通したオブジェクトで構成されている。我々は、推定された3次元人間のポーズを利用して、物体の空間的レイアウトとダイナミクスをより正確に推定する。
論文参考訳（メタデータ） (2021-08-19T00:49:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。