論文の概要: Objects as Spatio-Temporal 2.5D points
- arxiv url: http://arxiv.org/abs/2212.02755v2
- Date: Wed, 7 Dec 2022 04:56:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 15:05:00.727196
- Title: Objects as Spatio-Temporal 2.5D points
- Title(参考訳): 時空間2.5D点としての物体
- Authors: Paridhi Singh, Gaurav Singh and Arun Kumar
- Abstract要約: 本研究では,ネットワークの単一フィードフォワードパスにおける2次元物体検出シーンの深度予測を協調学習することにより,物体の3次元位置を推定する弱い教師付き手法を提案する。
提案手法は,単点型オブジェクト検出装置を拡張し,各オブジェクトを時間的にBEVとしてモデル化し,クエリ時に3DやBEVアノテーションやLiDARデータを必要としない新しいオブジェクト表現を提案する。
- 参考スコア(独自算出の注目度): 5.588892124219713
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Determining accurate bird's eye view (BEV) positions of objects and tracks in
a scene is vital for various perception tasks including object interactions
mapping, scenario extraction etc., however, the level of supervision required
to accomplish that is extremely challenging to procure. We propose a
light-weight, weakly supervised method to estimate 3D position of objects by
jointly learning to regress the 2D object detections and scene's depth
prediction in a single feed-forward pass of a network. Our proposed method
extends a center-point based single-shot object detector, and introduces a
novel object representation where each object is modeled as a BEV point
spatio-temporally, without the need of any 3D or BEV annotations for training
and LiDAR data at query time. The approach leverages readily available 2D
object supervision along with LiDAR point clouds (used only during training) to
jointly train a single network, that learns to predict 2D object detection
alongside the whole scene's depth, to spatio-temporally model object tracks as
points in BEV. The proposed method is computationally over $\sim$10x efficient
compared to recent SOTA approaches while achieving comparable accuracies on
KITTI tracking benchmark.
- Abstract(参考訳): 映像中の物体やトラックの正確な鳥の視線(BEV)位置を決定することは、物体の相互作用マッピングやシナリオ抽出など様々な知覚タスクに不可欠であるが、それを達成するために必要な監督レベルは、調達が極めて困難である。
ネットワークの単一フィードフォワードパスにおける2次元物体検出とシーンの深度予測を共同で学習することにより,物体の3次元位置を推定する軽量で弱い教師付き手法を提案する。
提案手法は,中心点に基づく単発物体検出装置を拡張し,各オブジェクトを時空間的にBEVポイントとしてモデル化し,クエリ時に3DやBEVアノテーションやLiDARデータを必要としない新しいオブジェクト表現を提案する。
このアプローチでは、簡単に利用可能な2Dオブジェクトの監視とLiDARポイントクラウド(トレーニング時にのみ使用される)を活用して、単一のネットワークを共同でトレーニングすることで、シーン全体の深さとともに2Dオブジェクトの検出を予測し、BEVのポイントとして時空間的にオブジェクトトラックをモデル化する。
提案手法は,最近の sota 手法と比較して計算量的に 10 万ドル以上効率がよいが,kitti 追跡ベンチマークでは同等の精度が得られる。
関連論文リスト
- PatchContrast: Self-Supervised Pre-training for 3D Object Detection [14.603858163158625]
PatchContrastは、3Dオブジェクト検出のための新しい自己教師付きポイントクラウド事前学習フレームワークである。
提案手法は,3つの一般的な3次元検出データセットにおいて,既存の最先端モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-08-14T07:45:54Z) - OCBEV: Object-Centric BEV Transformer for Multi-View 3D Object Detection [29.530177591608297]
マルチビュー3Dオブジェクト検出は、高い有効性と低コストのため、自動運転において人気を博している。
現在の最先端検出器のほとんどは、クエリベースのバードアイビュー(BEV)パラダイムに従っている。
本稿では,移動対象の時間的・空間的手がかりをより効率的に彫ることができるOCBEVを提案する。
論文 参考訳(メタデータ) (2023-06-02T17:59:48Z) - DR-WLC: Dimensionality Reduction cognition for object detection and pose
estimation by Watching, Learning and Checking [30.58114448119465]
既存の物体検出法とポーズ推定法は、主に訓練に同次元のデータを用いる。
次元減少認知モデルであるDR-WLCは、物体検出と推定タスクを同時に行うことができる。
論文 参考訳(メタデータ) (2023-01-17T15:08:32Z) - OA-BEV: Bringing Object Awareness to Bird's-Eye-View Representation for
Multi-Camera 3D Object Detection [78.38062015443195]
OA-BEVは、BEVベースの3Dオブジェクト検出フレームワークにプラグインできるネットワークである。
提案手法は,BEV ベースラインに対する平均精度と nuScenes 検出スコアの両面で一貫した改善を実現する。
論文 参考訳(メタデータ) (2023-01-13T06:02:31Z) - CMR3D: Contextualized Multi-Stage Refinement for 3D Object Detection [57.44434974289945]
本稿では,3次元オブジェクト検出(CMR3D)フレームワークのためのコンテキスト型マルチステージリファインメントを提案する。
我々のフレームワークは3Dシーンを入力として取り、シーンの有用なコンテキスト情報を明示的に統合しようと試みている。
3Dオブジェクトの検出に加えて,3Dオブジェクトカウント問題に対するフレームワークの有効性について検討する。
論文 参考訳(メタデータ) (2022-09-13T05:26:09Z) - Weakly Supervised Learning of Keypoints for 6D Object Pose Estimation [73.40404343241782]
2次元キーポイント検出に基づく弱教師付き6次元オブジェクトポーズ推定手法を提案する。
提案手法は,最先端の完全教師付きアプローチと同等の性能を実現する。
論文 参考訳(メタデータ) (2022-03-07T16:23:47Z) - SASA: Semantics-Augmented Set Abstraction for Point-based 3D Object
Detection [78.90102636266276]
SASA(Semantics-Augmented Set Abstraction)と呼ばれる新しい集合抽象化手法を提案する。
そこで本研究では, 推定点前景スコアに基づいて, より重要な前景点の維持を支援するセマンティックス誘導点サンプリングアルゴリズムを提案する。
実際には、SASAは、前景オブジェクトに関連する貴重な点を識別し、ポイントベースの3D検出のための特徴学習を改善するのに有効である。
論文 参考訳(メタデータ) (2022-01-06T08:54:47Z) - 6D Object Pose Estimation using Keypoints and Part Affinity Fields [24.126513851779936]
RGB画像からの6Dオブジェクトのポーズ推定のタスクは、自律型サービスロボットが現実世界と対話できるための重要な要件である。
既知物体の6自由度変換と配向を推定するための2段階パイプラインを提案する。
論文 参考訳(メタデータ) (2021-07-05T14:41:19Z) - M3DSSD: Monocular 3D Single Stage Object Detector [82.25793227026443]
特徴アライメントと非対称非局所的注意を有するモノクロ3次元単段物体検出器(M3DSSD)を提案する。
提案したM3DSSDは,KITTIデータセット上のモノラルな3Dオブジェクト検出手法よりも大幅に性能が向上する。
論文 参考訳(メタデータ) (2021-03-24T13:09:11Z) - DOPS: Learning to Detect 3D Objects and Predict their 3D Shapes [54.239416488865565]
LIDARデータに対する高速な1段3次元物体検出法を提案する。
我々の手法の中核となる新規性は高速かつシングルパスアーキテクチャであり、どちらも3次元の物体を検出し、それらの形状を推定する。
提案手法は,ScanNetシーンのオブジェクト検出で5%,オープンデータセットでは3.4%の精度で結果が得られた。
論文 参考訳(メタデータ) (2020-04-02T17:48:50Z) - SMOKE: Single-Stage Monocular 3D Object Detection via Keypoint
Estimation [3.1542695050861544]
3Dの向きとオブジェクトの変換を推定することは、インフラストラクチャレスの自律走行と運転に不可欠である。
SMOKEと呼ばれる新しい3次元オブジェクト検出手法を提案する。
構造的単純さにもかかわらず、提案するSMOKEネットワークは、KITTIデータセット上の既存のモノクル3D検出方法よりも優れている。
論文 参考訳(メタデータ) (2020-02-24T08:15:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。