論文の概要: Instance Tracking in 3D Scenes from Egocentric Videos
- arxiv url: http://arxiv.org/abs/2312.04117v2
- Date: Fri, 7 Jun 2024 00:18:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-10 20:36:48.840660
- Title: Instance Tracking in 3D Scenes from Egocentric Videos
- Title(参考訳): エゴセントリックビデオからの3Dシーンのインスタンス追跡
- Authors: Yunhan Zhao, Haoyu Ma, Shu Kong, Charless Fowlkes,
- Abstract要約: AR/VRデバイスのようなエゴセントリックなセンサーは、人間とオブジェクトのインタラクションをキャプチャし、タスクアシストを提供する。
この機能は、エゴセントリックビデオ(IT3DEgo)の現実世界の3Dシーンのインスタンス追跡を必要とする
RGBと深度ビデオ、フレームごとのカメラポーズ、および2Dカメラと3Dワールド座標の両方におけるインスタンスレベルのアノテーションからなる新しいベンチマークデータセットを導入する。
- 参考スコア(独自算出の注目度): 18.02107257369472
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Egocentric sensors such as AR/VR devices capture human-object interactions and offer the potential to provide task-assistance by recalling 3D locations of objects of interest in the surrounding environment. This capability requires instance tracking in real-world 3D scenes from egocentric videos (IT3DEgo). We explore this problem by first introducing a new benchmark dataset, consisting of RGB and depth videos, per-frame camera pose, and instance-level annotations in both 2D camera and 3D world coordinates. We present an evaluation protocol which evaluates tracking performance in 3D coordinates with two settings for enrolling instances to track: (1) single-view online enrollment where an instance is specified on-the-fly based on the human wearer's interactions. and (2) multi-view pre-enrollment where images of an instance to be tracked are stored in memory ahead of time. To address IT3DEgo, we first re-purpose methods from relevant areas, e.g., single object tracking (SOT) -- running SOT methods to track instances in 2D frames and lifting them to 3D using camera pose and depth. We also present a simple method that leverages pretrained segmentation and detection models to generate proposals from RGB frames and match proposals with enrolled instance images. Our experiments show that our method (with no finetuning) significantly outperforms SOT-based approaches in the egocentric setting. We conclude by arguing that the problem of egocentric instance tracking is made easier by leveraging camera pose and using a 3D allocentric (world) coordinate representation.
- Abstract(参考訳): AR/VRデバイスのようなエゴセントリックなセンサーは、人間と物体の相互作用を捉え、周囲の環境に関心のある物体の3D位置をリコールすることでタスク支援を提供する。
この機能は、エゴセントリックビデオ(IT3DEgo)から現実世界の3Dシーンのインスタンス追跡を必要とする。
まず、RGBと深度ビデオ、フレームごとのカメラポーズ、そして2Dカメラと3Dワールド座標の両方でインスタンスレベルのアノテーションからなる新しいベンチマークデータセットを導入する。
1) ユーザのインタラクションに基づいて,インスタンスをオンザフライで指定した単一ビューオンライン登録を行う。
2) 追跡対象のインスタンスのイメージを事前にメモリに格納するマルチビュー事前登録。
IT3DEgoに対処するために、私たちは、SOTメソッドを実行して、2Dフレーム内のインスタンスを追跡し、カメラのポーズと深さを使って3Dに持ち上げるなど、関連する領域から、まずSOT(Single Object Tracking)メソッドを再利用しました。
また、事前訓練されたセグメンテーションと検出モデルを利用して、RGBフレームから提案を生成し、登録されたインスタンス画像とマッチングする簡単な方法を提案する。
実験の結果,本手法はエゴセントリックな設定において,SOTに基づくアプローチよりも有意に優れていることがわかった。
我々は、カメラのポーズを利用し、3Dアロセンティブ(世界)座標表現を使用することにより、自己中心型インスタンス追跡の問題はより容易である、と結論付けている。
関連論文リスト
- TAPVid-3D: A Benchmark for Tracking Any Point in 3D [63.060421798990845]
我々は,3Dにおける任意の点の追跡作業を評価するための新しいベンチマークTAPVid-3Dを導入する。
このベンチマークは、モノクロビデオから正確な3Dの動きと表面の変形を理解する能力を改善するためのガイドポストとして機能する。
論文 参考訳(メタデータ) (2024-07-08T13:28:47Z) - AutoInst: Automatic Instance-Based Segmentation of LiDAR 3D Scans [41.17467024268349]
3D環境を理解するには、きめ細かい風景を理解する必要がある。
教師なしの方法で3次元シーンのインスタンスセグメンテーションを予測することを提案する。
平均精度は13.3%,F1スコアは9.1%向上した。
論文 参考訳(メタデータ) (2024-03-24T22:53:16Z) - Tracking by 3D Model Estimation of Unknown Objects in Videos [122.56499878291916]
この表現は限定的であり、代わりに明示的なオブジェクト表現を用いて2次元追跡をガイドし改善することを提案する。
我々の表現は、全てのビデオフレームのオブジェクト上の全ての3Dポイント間の複雑な長期密度対応問題に取り組む。
提案手法は, 最適3次元形状, テクスチャ, 6DoFのポーズを推定するために, 新たな損失関数を最小化する。
論文 参考訳(メタデータ) (2023-04-13T11:32:36Z) - Scene-Aware 3D Multi-Human Motion Capture from a Single Camera [83.06768487435818]
静止カメラで記録された1枚のRGBビデオから、シーン内の複数の人間の3次元位置を推定し、その身体形状と調音を推定する問題を考察する。
コンピュータビジョンの最近の進歩を,2次元の人体関節,関節角度,正規化不均等マップ,人間のセグメンテーションマスクなど,様々なモダリティのための大規模事前訓練モデルを用いて活用している。
特に,2次元の関節と関節角度を用いた正規化不均等予測から,シーン深度とユニークな人格尺度を推定する。
論文 参考訳(メタデータ) (2023-01-12T18:01:28Z) - Enhancing Egocentric 3D Pose Estimation with Third Person Views [37.9683439632693]
本研究では,1台のウェアラブルカメラから撮影した映像から計算した人物の3次元身振り推定を強化する新しい手法を提案する。
First2Third-Poseは、最初の視点と第三視点の両方から捉えた人間の活動を描いた2000近いビデオからなる、ペア化された新しい同期データセットである。
実験により,データセットを用いて学習した多視点埋め込み空間は,任意の単視点自我中心ビデオから識別的特徴を抽出するのに有用であることが示された。
論文 参考訳(メタデータ) (2022-01-06T11:42:01Z) - M3DSSD: Monocular 3D Single Stage Object Detector [82.25793227026443]
特徴アライメントと非対称非局所的注意を有するモノクロ3次元単段物体検出器(M3DSSD)を提案する。
提案したM3DSSDは,KITTIデータセット上のモノラルな3Dオブジェクト検出手法よりも大幅に性能が向上する。
論文 参考訳(メタデータ) (2021-03-24T13:09:11Z) - Monocular Quasi-Dense 3D Object Tracking [99.51683944057191]
周囲の物体の将来の位置を予測し、自律運転などの多くのアプリケーションで観測者の行動を計画するためには、信頼性と正確な3D追跡フレームワークが不可欠である。
移動プラットフォーム上で撮影された2次元画像のシーケンスから,移動物体を時間とともに効果的に関連付け,その全3次元バウンディングボックス情報を推定するフレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-12T15:30:02Z) - 3D Registration for Self-Occluded Objects in Context [66.41922513553367]
このシナリオを効果的に処理できる最初のディープラーニングフレームワークを紹介します。
提案手法はインスタンスセグメンテーションモジュールとポーズ推定モジュールから構成される。
これにより、高価な反復手順を必要とせず、ワンショットで3D登録を行うことができます。
論文 参考訳(メタデータ) (2020-11-23T08:05:28Z) - Integration of the 3D Environment for UAV Onboard Visual Object Tracking [7.652259812856325]
無人航空機からの単一の視覚的物体追跡は、根本的な課題となる。
本研究では,モデルフリーのビジュアルオブジェクトトラッカー,スパース3D再構成,状態推定器を組み合わせたパイプラインを提案する。
画像空間ではなく3次元空間における目標位置を表現することにより,エゴモーション時のトラッキングを安定化させる。
論文 参考訳(メタデータ) (2020-08-06T18:37:29Z) - Tracking Emerges by Looking Around Static Scenes, with Neural 3D Mapping [23.456046776979903]
本稿では,任意の場面(静的あるいは動的)における静止点のマルチビューデータを利用して,ニューラル3Dマッピングモジュールを学習することを提案する。
ニューラル3Dマッパーは、RGB-Dデータを入力として消費し、深い特徴の3Dボクセルグリッドを出力として生成する。
教師なし3Dオブジェクトトラッカーは、教師なし2Dと2.5Dのトラッカーよりも優れており、教師なし3Dオブジェクトトラッカーの精度に近づいていることを示す。
論文 参考訳(メタデータ) (2020-08-04T02:59:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。