論文の概要: Lifting 2D Object Locations to 3D by Discounting LiDAR Outliers across
Objects and Views
- arxiv url: http://arxiv.org/abs/2109.07945v1
- Date: Thu, 16 Sep 2021 13:01:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-17 20:31:12.514641
- Title: Lifting 2D Object Locations to 3D by Discounting LiDAR Outliers across
Objects and Views
- Title(参考訳): オブジェクトとビューをまたいだLiDAR出力値の分散化による2次元物体位置の3次元化
- Authors: Robert McCraith, Eldar Insafudinov, Lukas Neumann, Andrea Vedaldi
- Abstract要約: 本稿では,2次元マスクオブジェクトの予測と生のLiDAR点雲を自動的に3次元境界ボックスに変換するシステムを提案する。
これらの手法は, より複雑なパイプラインや3Dモデル, 付加的な人為的な事前情報ソースを使用するにもかかわらず, 従来よりもはるかに優れていた。
- 参考スコア(独自算出の注目度): 70.1586005070678
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a system for automatic converting of 2D mask object predictions
and raw LiDAR point clouds into full 3D bounding boxes of objects. Because the
LiDAR point clouds are partial, directly fitting bounding boxes to the point
clouds is meaningless. Instead, we suggest that obtaining good results requires
sharing information between \emph{all} objects in the dataset jointly, over
multiple frames. We then make three improvements to the baseline. First, we
address ambiguities in predicting the object rotations via direct optimization
in this space while still backpropagating rotation prediction through the
model. Second, we explicitly model outliers and task the network with learning
their typical patterns, thus better discounting them. Third, we enforce
temporal consistency when video data is available. With these contributions,
our method significantly outperforms previous work despite the fact that those
methods use significantly more complex pipelines, 3D models and additional
human-annotated external sources of prior information.
- Abstract(参考訳): 本稿では,2次元マスク物体予測と生lidar点雲を,物体のフル3次元バウンディングボックスに自動変換するシステムを提案する。
LiDAR点雲は部分的であるので、点雲に直結する境界ボックスは無意味である。
代わりに、良い結果を得るには、データセット内の \emph{all} オブジェクト間で情報を複数のフレームで共有する必要があると提案する。
次に、ベースラインを3つ改善します。
まず、この空間における直接最適化による物体の回転予測の曖昧さに対処し、モデルによる回転予測をバックプロパゲートする。
第2に、異常値を明示的にモデル化し、典型的なパターンを学習してネットワークをタスクする。
第3に,ビデオデータの入手時に時間的一貫性を強制する。
これらの貢献により,これらの手法は,より複雑なパイプライン,3次元モデル,付加的な人為的な事前情報ソースを使用するにもかかわらず,従来よりも優れていた。
関連論文リスト
- Inverse Neural Rendering for Explainable Multi-Object Tracking [35.072142773300655]
我々はRGBカメラから3Dマルチオブジェクト追跡をEmphInverse Rendering (IR)問題として再放送した。
我々は、本質的に形状と外観特性を歪ませる生成潜在空間上の画像損失を最適化する。
本手法の一般化とスケーリング能力は,合成データのみから生成前を学習することで検証する。
論文 参考訳(メタデータ) (2024-04-18T17:37:53Z) - Leveraging Large-Scale Pretrained Vision Foundation Models for
Label-Efficient 3D Point Cloud Segmentation [67.07112533415116]
本稿では3Dポイントクラウドセグメンテーションタスクに様々な基礎モデルを適用する新しいフレームワークを提案する。
我々のアプローチでは、異なる大きな視覚モデルを用いて2次元セマンティックマスクの初期予測を行う。
本研究では,ロバストな3Dセマンティックな擬似ラベルを生成するために,投票による全ての結果を効果的に組み合わせたセマンティックなラベル融合戦略を提案する。
論文 参考訳(メタデータ) (2023-11-03T15:41:15Z) - LEF: Late-to-Early Temporal Fusion for LiDAR 3D Object Detection [40.267769862404684]
時間的LiDAR点雲を用いた3次元物体検出のための特徴融合手法を提案する。
私たちの主な動機は、3Dオブジェクト検出器の初期段階にオブジェクト認識の潜伏埋め込みを融合させることです。
論文 参考訳(メタデータ) (2023-09-28T21:58:25Z) - CAGroup3D: Class-Aware Grouping for 3D Object Detection on Point Clouds [55.44204039410225]
本稿では,CAGroup3Dという新しい2段階完全スパース3Dオブジェクト検出フレームワークを提案する。
提案手法は,まず,オブジェクト表面のボクセル上でのクラス認識型局所群戦略を活用することによって,高品質な3D提案を生成する。
不正なボクセルワイドセグメンテーションにより欠落したボクセルの特徴を回復するために,完全にスパースな畳み込み型RoIプールモジュールを構築した。
論文 参考訳(メタデータ) (2022-10-09T13:38:48Z) - DETR3D: 3D Object Detection from Multi-view Images via 3D-to-2D Queries [43.02373021724797]
マルチカメラ3Dオブジェクト検出のためのフレームワークを提案する。
本手法は3次元空間での予測を直接操作する。
我々はnuScenes自動運転ベンチマークで最先端の性能を達成する。
論文 参考訳(メタデータ) (2021-10-13T17:59:35Z) - Cylindrical and Asymmetrical 3D Convolution Networks for LiDAR-based
Perception [122.53774221136193]
運転時のLiDARに基づく認識のための最先端の手法は、しばしば点雲を2D空間に投影し、2D畳み込みによって処理する。
自然な対策として、3Dボクセル化と3D畳み込みネットワークを利用する方法がある。
本研究では,3次元幾何学的パターンを探索するために,円筒状分割と非対称な3次元畳み込みネットワークを設計する,屋外LiDARセグメンテーションのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-12T06:25:11Z) - Cylindrical and Asymmetrical 3D Convolution Networks for LiDAR
Segmentation [81.02742110604161]
大規模運転シーンのLiDARセグメンテーションのための最先端の手法は、しばしば点雲を2次元空間に投影し、2D畳み込みによって処理する。
そこで我々は,3次元幾何学的パタンを探索するために,円筒分割と非対称な3次元畳み込みネットワークを設計する,屋外LiDARセグメンテーションのための新しいフレームワークを提案する。
提案手法はセマンティックKITTIのリーダーボードにおいて第1位を獲得し,既存のnuScenesの手法を約4%のマージンで上回っている。
論文 参考訳(メタデータ) (2020-11-19T18:53:11Z) - DOPS: Learning to Detect 3D Objects and Predict their 3D Shapes [54.239416488865565]
LIDARデータに対する高速な1段3次元物体検出法を提案する。
我々の手法の中核となる新規性は高速かつシングルパスアーキテクチャであり、どちらも3次元の物体を検出し、それらの形状を推定する。
提案手法は,ScanNetシーンのオブジェクト検出で5%,オープンデータセットでは3.4%の精度で結果が得られた。
論文 参考訳(メタデータ) (2020-04-02T17:48:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。