論文の概要: Tracking Objects with 3D Representation from Videos
- arxiv url: http://arxiv.org/abs/2306.05416v1
- Date: Thu, 8 Jun 2023 17:58:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-09 12:57:40.843358
- Title: Tracking Objects with 3D Representation from Videos
- Title(参考訳): ビデオから3d表現でオブジェクトを追跡する
- Authors: Jiawei He, Lue Fan, Yuqi Wang, Yuntao Chen, Zehao Huang, Naiyan Wang,
Zhaoxiang Zhang
- Abstract要約: P3DTrackと呼ばれる新しい2次元多目的追跡パラダイムを提案する。
モノクロビデオにおける擬似3Dオブジェクトラベルからの3次元オブジェクト表現学習により,P3DTrackと呼ばれる新しい2次元MOTパラダイムを提案する。
- 参考スコア(独自算出の注目度): 57.641129788552675
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data association is a knotty problem for 2D Multiple Object Tracking due to
the object occlusion. However, in 3D space, data association is not so hard.
Only with a 3D Kalman Filter, the online object tracker can associate the
detections from LiDAR. In this paper, we rethink the data association in 2D MOT
and utilize the 3D object representation to separate each object in the feature
space. Unlike the existing depth-based MOT methods, the 3D object
representation can be jointly learned with the object association module.
Besides, the object's 3D representation is learned from the video and
supervised by the 2D tracking labels without additional manual annotations from
LiDAR or pretrained depth estimator. With 3D object representation learning
from Pseudo 3D object labels in monocular videos, we propose a new 2D MOT
paradigm, called P3DTrack. Extensive experiments show the effectiveness of our
method. We achieve new state-of-the-art performance on the large-scale Waymo
Open Dataset.
- Abstract(参考訳): データアソシエーションは、オブジェクトの閉塞による2次元多目的追跡の結びつきの問題である。
しかし、3D空間では、データアソシエーションはそれほど難しくない。
3Dカルマンフィルタでのみ、オンラインオブジェクトトラッカーはLiDARから検出を関連付けることができる。
本稿では,2次元MOTにおけるデータアソシエーションを再考し,特徴空間内の各オブジェクトを分離するために3次元オブジェクト表現を利用する。
既存の深度に基づくMOT法とは異なり、3Dオブジェクト表現はオブジェクト関連モジュールと共同で学習することができる。
さらに、オブジェクトの3D表現はビデオから学習され、LiDARや事前訓練された深さ推定器から追加の手動アノテーションなしで2D追跡ラベルによって教師される。
モノクロビデオにおける擬似3Dオブジェクトラベルからの3次元オブジェクト表現学習により,P3DTrackと呼ばれる新しい2次元MOTパラダイムを提案する。
広範な実験により,本手法の有効性が示された。
大規模なwaymo open dataset上で,新たな最先端のパフォーマンスを実現する。
関連論文リスト
- 3x2: 3D Object Part Segmentation by 2D Semantic Correspondences [33.99493183183571]
本稿では,いくつかのアノテーション付き3D形状やリッチアノテーション付き2Dデータセットを活用して3Dオブジェクト部分のセグメンテーションを実現することを提案する。
我々は,様々な粒度レベルのベンチマークでSOTA性能を実現する3-By-2という新しい手法を提案する。
論文 参考訳(メタデータ) (2024-07-12T19:08:00Z) - Improving Distant 3D Object Detection Using 2D Box Supervision [97.80225758259147]
遠方の物体の欠損した深さを回復するフレームワークであるLR3Dを提案する。
我々のフレームワークは汎用的であり、3D検出手法を広く活用する可能性がある。
論文 参考訳(メタデータ) (2024-03-14T09:54:31Z) - Weakly Supervised 3D Object Detection via Multi-Level Visual Guidance [72.6809373191638]
本稿では,3次元ラベルを必要とせずに2次元ドメインと3次元ドメイン間の制約を活用できるフレームワークを提案する。
具体的には、LiDARと画像特徴をオブジェクト認識領域に基づいて整列する特徴レベルの制約を設計する。
第二に、出力レベルの制約は、2Dと投影された3Dボックスの推定の重なりを強制するために開発される。
第3に、トレーニングレベルの制約は、視覚データと整合した正確で一貫した3D擬似ラベルを生成することによって利用される。
論文 参考訳(メタデータ) (2023-12-12T18:57:25Z) - Towards Learning Monocular 3D Object Localization From 2D Labels using
the Physical Laws of Motion [15.15687944002438]
本稿では,1枚のキャリブレーションカメラからの1枚の画像における2次元ラベルのみを用いた高精度な3次元物体位置決め手法を提案する。
3Dラベルを使う代わりに、我々のモデルは、物体の動きの物理的知識とともに、容易に注釈付けできる2Dラベルで訓練される。
論文 参考訳(メタデータ) (2023-10-26T15:10:10Z) - AutoShape: Real-Time Shape-Aware Monocular 3D Object Detection [15.244852122106634]
形状認識型2D/3D制約を3D検出フレームワークに組み込む手法を提案する。
具体的には、ディープニューラルネットワークを用いて、2次元画像領域の区別された2Dキーポイントを学習する。
2D/3Dキーポイントの基礎的真理を生成するために、自動的なモデル適合手法が提案されている。
論文 参考訳(メタデータ) (2021-08-25T08:50:06Z) - D3D-HOI: Dynamic 3D Human-Object Interactions from Videos [49.38319295373466]
本稿では,D3D-HOIについて紹介する。D3D-HOIは3次元オブジェクトのポーズ,形状,動きを,人間と物体の相互作用の時,地上の真理アノテーションを付加したモノクロビデオのデータセットである。
我々のデータセットは、様々な現実世界のシーンとカメラの視点から捉えた、いくつかの共通したオブジェクトで構成されている。
我々は、推定された3次元人間のポーズを利用して、物体の空間的レイアウトとダイナミクスをより正確に推定する。
論文 参考訳(メタデータ) (2021-08-19T00:49:01Z) - Monocular Quasi-Dense 3D Object Tracking [99.51683944057191]
周囲の物体の将来の位置を予測し、自律運転などの多くのアプリケーションで観測者の行動を計画するためには、信頼性と正確な3D追跡フレームワークが不可欠である。
移動プラットフォーム上で撮影された2次元画像のシーケンスから,移動物体を時間とともに効果的に関連付け,その全3次元バウンディングボックス情報を推定するフレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-12T15:30:02Z) - Tracking Emerges by Looking Around Static Scenes, with Neural 3D Mapping [23.456046776979903]
本稿では,任意の場面(静的あるいは動的)における静止点のマルチビューデータを利用して,ニューラル3Dマッピングモジュールを学習することを提案する。
ニューラル3Dマッパーは、RGB-Dデータを入力として消費し、深い特徴の3Dボクセルグリッドを出力として生成する。
教師なし3Dオブジェクトトラッカーは、教師なし2Dと2.5Dのトラッカーよりも優れており、教師なし3Dオブジェクトトラッカーの精度に近づいていることを示す。
論文 参考訳(メタデータ) (2020-08-04T02:59:23Z) - DSGN: Deep Stereo Geometry Network for 3D Object Detection [79.16397166985706]
画像ベースとLiDARベースの3Dオブジェクト検出器の間には大きなパフォーマンスギャップがある。
我々の手法であるDeep Stereo Geometry Network (DSGN)は,このギャップを著しく低減する。
初めて、シンプルで効果的な1段ステレオベースの3D検出パイプラインを提供する。
論文 参考訳(メタデータ) (2020-01-10T11:44:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。