論文の概要: Tracking Emerges by Looking Around Static Scenes, with Neural 3D Mapping
- arxiv url: http://arxiv.org/abs/2008.01295v1
- Date: Tue, 4 Aug 2020 02:59:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-03 00:23:19.183445
- Title: Tracking Emerges by Looking Around Static Scenes, with Neural 3D Mapping
- Title(参考訳): ニューラル3次元マッピングによる静的シーンの追跡
- Authors: Adam W. Harley, Shrinidhi K. Lakshmikanth, Paul Schydlo, Katerina
Fragkiadaki
- Abstract要約: 本稿では,任意の場面(静的あるいは動的)における静止点のマルチビューデータを利用して,ニューラル3Dマッピングモジュールを学習することを提案する。
ニューラル3Dマッパーは、RGB-Dデータを入力として消費し、深い特徴の3Dボクセルグリッドを出力として生成する。
教師なし3Dオブジェクトトラッカーは、教師なし2Dと2.5Dのトラッカーよりも優れており、教師なし3Dオブジェクトトラッカーの精度に近づいていることを示す。
- 参考スコア(独自算出の注目度): 23.456046776979903
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We hypothesize that an agent that can look around in static scenes can learn
rich visual representations applicable to 3D object tracking in complex dynamic
scenes. We are motivated in this pursuit by the fact that the physical world
itself is mostly static, and multiview correspondence labels are relatively
cheap to collect in static scenes, e.g., by triangulation. We propose to
leverage multiview data of \textit{static points} in arbitrary scenes (static
or dynamic), to learn a neural 3D mapping module which produces features that
are correspondable across time. The neural 3D mapper consumes RGB-D data as
input, and produces a 3D voxel grid of deep features as output. We train the
voxel features to be correspondable across viewpoints, using a contrastive
loss, and correspondability across time emerges automatically. At test time,
given an RGB-D video with approximate camera poses, and given the 3D box of an
object to track, we track the target object by generating a map of each
timestep and locating the object's features within each map. In contrast to
models that represent video streams in 2D or 2.5D, our model's 3D scene
representation is disentangled from projection artifacts, is stable under
camera motion, and is robust to partial occlusions. We test the proposed
architectures in challenging simulated and real data, and show that our
unsupervised 3D object trackers outperform prior unsupervised 2D and 2.5D
trackers, and approach the accuracy of supervised trackers. This work
demonstrates that 3D object trackers can emerge without tracking labels,
through multiview self-supervision on static data.
- Abstract(参考訳): 静的なシーンで見回せるエージェントは、複雑な動的シーンで3dオブジェクト追跡に適用できるリッチなビジュアル表現を学習できると仮定する。
この追求の動機は、物理的な世界そのものがほとんど静的であり、マルチビュー対応ラベルは、三角測量によって、静的なシーンで比較的安価に収集できるという事実にある。
本稿では,任意のシーン(静的あるいは動的)におけるtextit{static point} のマルチビューデータを活用し,時間的に対応可能な特徴を生成するニューラル3Dマッピングモジュールを学習する。
ニューラル3Dマッパーは、RGB-Dデータを入力として消費し、深い特徴の3Dボクセルグリッドを出力として生成する。
ボクセルの特徴を対比的損失を用いて、視点をまたいで対応可能と訓練し、時間を越えた対応性が自動的に出現する。
テスト時には、rgb-dビデオに近似カメラのポーズが与えられ、追跡対象の3dボックスが与えられると、各タイムステップのマップを生成して対象オブジェクトを追跡し、各マップ内のオブジェクトの特徴を突き止めます。
映像ストリームを2Dまたは2.5Dで表現するモデルとは対照的に、我々のモデルの3Dシーン表現はプロジェクションアーティファクトから切り離され、カメラモーション下で安定であり、部分閉塞に対して堅牢である。
提案したアーキテクチャをシミュレーションおよび実データに挑戦して検証し、教師なしオブジェクトトラッカーが教師なし2Dおよび2.5Dトラッカーよりも優れていることを示す。
この研究は、静的データに対するマルチビューの自己監督を通じて、ラベルを追跡せずに3Dオブジェクトトラッカーが現れることを示す。
関連論文リスト
- TAPVid-3D: A Benchmark for Tracking Any Point in 3D [63.060421798990845]
我々は,3Dにおける任意の点の追跡作業を評価するための新しいベンチマークTAPVid-3Dを導入する。
このベンチマークは、モノクロビデオから正確な3Dの動きと表面の変形を理解する能力を改善するためのガイドポストとして機能する。
論文 参考訳(メタデータ) (2024-07-08T13:28:47Z) - Tracking Objects with 3D Representation from Videos [57.641129788552675]
P3DTrackと呼ばれる新しい2次元多目的追跡パラダイムを提案する。
モノクロビデオにおける擬似3Dオブジェクトラベルからの3次元オブジェクト表現学習により,P3DTrackと呼ばれる新しい2次元MOTパラダイムを提案する。
論文 参考訳(メタデータ) (2023-06-08T17:58:45Z) - Tracking by 3D Model Estimation of Unknown Objects in Videos [122.56499878291916]
この表現は限定的であり、代わりに明示的なオブジェクト表現を用いて2次元追跡をガイドし改善することを提案する。
我々の表現は、全てのビデオフレームのオブジェクト上の全ての3Dポイント間の複雑な長期密度対応問題に取り組む。
提案手法は, 最適3次元形状, テクスチャ, 6DoFのポーズを推定するために, 新たな損失関数を最小化する。
論文 参考訳(メタデータ) (2023-04-13T11:32:36Z) - SurroundOcc: Multi-Camera 3D Occupancy Prediction for Autonomous Driving [98.74706005223685]
3Dシーン理解は、視覚に基づく自動運転において重要な役割を果たす。
マルチカメラ画像を用いたSurroundOcc法を提案する。
論文 参考訳(メタデータ) (2023-03-16T17:59:08Z) - 3D Visual Tracking Framework with Deep Learning for Asteroid Exploration [22.808962211830675]
本稿では,3次元追跡のための高精度かつリアルタイムな手法について検討する。
両眼ビデオシーケンス、深度マップ、様々な小惑星の点雲を含む、新しい大規模な3D小惑星追跡データセットが提示されている。
深層学習に基づく3DトラッキングフレームワークTrack3Dを提案する。このフレームワークは,2次元単分子トラッカーと,新しい軽量アモーダル軸整合バウンディングボックスネットワークであるA3BoxNetを備える。
論文 参考訳(メタデータ) (2021-11-21T04:14:45Z) - Tracking People with 3D Representations [78.97070307547283]
ビデオ中の複数の人物を追跡する新しい手法を提案する。
従来の2次元表現を用いたアプローチとは違って,3次元空間における人物の3次元表現を用いる。
これらの環境下での3次元表現は2次元表現よりも効果的であることがわかった。
論文 参考訳(メタデータ) (2021-11-15T16:15:21Z) - CoCoNets: Continuous Contrastive 3D Scene Representations [21.906643302668716]
本稿では,RGBとRGB-Dの画像とビデオから非モーダルな3D特徴表現を自己監督的に学習する。
得られた3次元視覚特徴表現は,オブジェクトやシーンにまたがって効果的にスケールし,入力視点から逸脱した情報を想像し,時間とともにオブジェクトを追跡し,意味的に関連したオブジェクトを3dで調整し,3dオブジェクト検出を改善する。
論文 参考訳(メタデータ) (2021-04-08T15:50:47Z) - Monocular Quasi-Dense 3D Object Tracking [99.51683944057191]
周囲の物体の将来の位置を予測し、自律運転などの多くのアプリケーションで観測者の行動を計画するためには、信頼性と正確な3D追跡フレームワークが不可欠である。
移動プラットフォーム上で撮影された2次元画像のシーケンスから,移動物体を時間とともに効果的に関連付け,その全3次元バウンディングボックス情報を推定するフレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-12T15:30:02Z) - Learning 3D Dynamic Scene Representations for Robot Manipulation [21.6131570689398]
ロボット操作のための3Dシーン表現は、永続性、完全性、連続性という3つの重要なオブジェクト特性を捉えなければならない。
本研究では3次元動的表現(DSR)を導入し,オブジェクトを同時に検出,追跡,再構成し,そのダイナミクスを予測する。
本稿では,DSRを段階的に構築・洗練するために,複数の相互作用を通して視覚的観察を集約することを学ぶDSR-Netを提案する。
論文 参考訳(メタデータ) (2020-11-03T19:23:06Z) - Unsupervised object-centric video generation and decomposition in 3D [36.08064849807464]
本研究では,複数の3Dオブジェクトと3D背景を持つシーンを移動しながら映像を映像としてモデル化することを提案する。
我々のモデルは、監督なしに単眼ビデオから訓練されるが、複数の動く物体を含むコヒーレントな3Dシーンを生成することを学ぶ。
論文 参考訳(メタデータ) (2020-07-07T18:01:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。