論文の概要: DOPS: Learning to Detect 3D Objects and Predict their 3D Shapes
- arxiv url: http://arxiv.org/abs/2004.01170v2
- Date: Tue, 7 Apr 2020 00:40:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-17 12:56:14.952426
- Title: DOPS: Learning to Detect 3D Objects and Predict their 3D Shapes
- Title(参考訳): DOPS:3Dオブジェクトの検出と3D形状の予測を学習する
- Authors: Mahyar Najibi, Guangda Lai, Abhijit Kundu, Zhichao Lu, Vivek Rathod,
Thomas Funkhouser, Caroline Pantofaru, David Ross, Larry S. Davis, Alireza
Fathi
- Abstract要約: LIDARデータに対する高速な1段3次元物体検出法を提案する。
我々の手法の中核となる新規性は高速かつシングルパスアーキテクチャであり、どちらも3次元の物体を検出し、それらの形状を推定する。
提案手法は,ScanNetシーンのオブジェクト検出で5%,オープンデータセットでは3.4%の精度で結果が得られた。
- 参考スコア(独自算出の注目度): 54.239416488865565
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose DOPS, a fast single-stage 3D object detection method for LIDAR
data. Previous methods often make domain-specific design decisions, for example
projecting points into a bird-eye view image in autonomous driving scenarios.
In contrast, we propose a general-purpose method that works on both indoor and
outdoor scenes. The core novelty of our method is a fast, single-pass
architecture that both detects objects in 3D and estimates their shapes. 3D
bounding box parameters are estimated in one pass for every point, aggregated
through graph convolutions, and fed into a branch of the network that predicts
latent codes representing the shape of each detected object. The latent shape
space and shape decoder are learned on a synthetic dataset and then used as
supervision for the end-to-end training of the 3D object detection pipeline.
Thus our model is able to extract shapes without access to ground-truth shape
information in the target dataset. During experiments, we find that our
proposed method achieves state-of-the-art results by ~5% on object detection in
ScanNet scenes, and it gets top results by 3.4% in the Waymo Open Dataset,
while reproducing the shapes of detected cars.
- Abstract(参考訳): LIDARデータの高速な1段3Dオブジェクト検出法であるDOPSを提案する。
以前の手法では、例えば、自律運転シナリオでポイントを鳥眼図に投影するなど、ドメイン固有の設計決定を行うことが多い。
対照的に,室内と屋外の両方のシーンで動作する汎用手法を提案する。
提案手法の中核となる特徴は,3dで物体を検出し,その形状を推定する高速単一パスアーキテクチャである。
3次元境界ボックスパラメータは、各点の1パスで推定され、グラフ畳み込みによって集約され、検出された各オブジェクトの形状を表す潜時符号を予測するネットワークの分岐に供給される。
潜在形状空間と形状デコーダは合成データセット上で学習され、3dオブジェクト検出パイプラインのエンドツーエンドトレーニングの監督に使用される。
したがって,本モデルでは,対象データセットの接地構造情報にアクセスせずに形状を抽出することができる。
実験中,提案手法はスキャンネットシーンの物体検出において5%程度,waymoオープンデータセットでは3.4%,検出された車の形状を再現することで,最先端の結果が得られることがわかった。
関連論文リスト
- VFMM3D: Releasing the Potential of Image by Vision Foundation Model for Monocular 3D Object Detection [80.62052650370416]
モノクル3Dオブジェクト検出は、自律運転やロボティクスなど、さまざまなアプリケーションにおいて重要な役割を担っている。
本稿では,VFMM3Dを提案する。VFMM3Dは,ビジョンファウンデーションモデル(VFM)の機能を利用して,単一ビュー画像を正確にLiDARポイントクラウド表現に変換する,革新的なフレームワークである。
論文 参考訳(メタデータ) (2024-04-15T03:12:12Z) - 3DiffTection: 3D Object Detection with Geometry-Aware Diffusion Features [70.50665869806188]
3DiffTectionは、単一の画像から3Dオブジェクトを検出する最先端の方法である。
拡散モデルを微調整し、単一の画像に条件付けされた新しいビュー合成を行う。
さらに、検出監視により、ターゲットデータ上でモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-11-07T23:46:41Z) - FCAF3D: Fully Convolutional Anchor-Free 3D Object Detection [3.330229314824913]
FCAF3D - 完全畳み込み型アンカーフリー屋内3D物体検出法を提案する。
これは、点雲のボクセル表現を使用し、スパース畳み込みでボクセルを処理する、単純で効果的な方法である。
単一の完全な畳み込みフィードフォワードパスを通じて、最小限のランタイムで大規模シーンを処理できる。
論文 参考訳(メタデータ) (2021-12-01T07:28:52Z) - Reinforced Axial Refinement Network for Monocular 3D Object Detection [160.34246529816085]
モノクロ3次元物体検出は、2次元入力画像から物体の位置と特性を抽出することを目的としている。
従来のアプローチでは、空間から3D境界ボックスをサンプリングし、対象オブジェクトと各オブジェクトの関係を推定するが、有効サンプルの確率は3D空間で比較的小さい。
我々は,まず最初の予測から始めて,各ステップで1つの3dパラメータだけを変えて,基礎的真理に向けて徐々に洗練することを提案する。
これは、いくつかのステップの後に報酬を得るポリシーを設計する必要があるため、最適化するために強化学習を採用します。
論文 参考訳(メタデータ) (2020-08-31T17:10:48Z) - PerMO: Perceiving More at Once from a Single Image for Autonomous
Driving [76.35684439949094]
単一画像から完全テクスチャ化された車両の3次元モデルを検出し,セグメント化し,再構成する新しい手法を提案する。
私たちのアプローチは、ディープラーニングの強みと従来のテクニックの優雅さを組み合わせています。
我々はこれらのアルゴリズムを自律運転システムに統合した。
論文 参考訳(メタデータ) (2020-07-16T05:02:45Z) - Single-Shot 3D Detection of Vehicles from Monocular RGB Images via
Geometry Constrained Keypoints in Real-Time [6.82446891805815]
単眼RGB画像における車両検出のための新しい3次元単発物体検出法を提案する。
提案手法は,3次元空間への2次元検出を付加回帰および分類パラメータの予測により引き上げる。
KITTI 3D Object Detection と新しい nuScenes Object Detection ベンチマークを用いて,自律走行のための異なるデータセットに対するアプローチを検証し,その評価を行った。
論文 参考訳(メタデータ) (2020-06-23T15:10:19Z) - Stereo RGB and Deeper LIDAR Based Network for 3D Object Detection [40.34710686994996]
3Dオブジェクト検出は、自動運転のシナリオにおいて新たな課題となっている。
以前の作業では、プロジェクションベースまたはボクセルベースのモデルを使用して3Dポイントクラウドを処理していた。
本稿では,意味情報と空間情報の同時利用が可能なStereo RGBおよびDeeper LIDARフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-09T11:19:24Z) - BirdNet+: End-to-End 3D Object Detection in LiDAR Bird's Eye View [117.44028458220427]
自動運転車のオンボード3Dオブジェクト検出は、LiDARデバイスが捉えた幾何学情報に依存することが多い。
本稿では,BEV画像のみから指向性3Dボックスを推測可能な,エンドツーエンドの3Dオブジェクト検出フレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-09T15:08:40Z) - SMOKE: Single-Stage Monocular 3D Object Detection via Keypoint
Estimation [3.1542695050861544]
3Dの向きとオブジェクトの変換を推定することは、インフラストラクチャレスの自律走行と運転に不可欠である。
SMOKEと呼ばれる新しい3次元オブジェクト検出手法を提案する。
構造的単純さにもかかわらず、提案するSMOKEネットワークは、KITTIデータセット上の既存のモノクル3D検出方法よりも優れている。
論文 参考訳(メタデータ) (2020-02-24T08:15:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。