論文の概要: End-to-End Pseudo-LiDAR for Image-Based 3D Object Detection
- arxiv url: http://arxiv.org/abs/2004.03080v2
- Date: Thu, 14 May 2020 14:39:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-16 00:44:27.038466
- Title: End-to-End Pseudo-LiDAR for Image-Based 3D Object Detection
- Title(参考訳): 画像に基づく3次元物体検出のためのエンドツーエンド擬似LiDAR
- Authors: Rui Qian, Divyansh Garg, Yan Wang, Yurong You, Serge Belongie, Bharath
Hariharan, Mark Campbell, Kilian Q. Weinberger, Wei-Lun Chao
- Abstract要約: 擬似LiDAR(PL)は、LiDARセンサに基づく手法と安価なステレオカメラに基づく手法の精度ギャップを劇的に減らした。
PLは最先端のディープニューラルネットワークと2D深度マップ出力を3Dポイントクラウド入力に変換することで3Dオブジェクト検出のための3D深度推定を組み合わせている。
我々は、PLパイプライン全体をエンドツーエンドにトレーニングできるように、差別化可能なRepresentation (CoR)モジュールに基づく新しいフレームワークを導入します。
- 参考スコア(独自算出の注目度): 62.34374949726333
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reliable and accurate 3D object detection is a necessity for safe autonomous
driving. Although LiDAR sensors can provide accurate 3D point cloud estimates
of the environment, they are also prohibitively expensive for many settings.
Recently, the introduction of pseudo-LiDAR (PL) has led to a drastic reduction
in the accuracy gap between methods based on LiDAR sensors and those based on
cheap stereo cameras. PL combines state-of-the-art deep neural networks for 3D
depth estimation with those for 3D object detection by converting 2D depth map
outputs to 3D point cloud inputs. However, so far these two networks have to be
trained separately. In this paper, we introduce a new framework based on
differentiable Change of Representation (CoR) modules that allow the entire PL
pipeline to be trained end-to-end. The resulting framework is compatible with
most state-of-the-art networks for both tasks and in combination with PointRCNN
improves over PL consistently across all benchmarks -- yielding the highest
entry on the KITTI image-based 3D object detection leaderboard at the time of
submission. Our code will be made available at
https://github.com/mileyan/pseudo-LiDAR_e2e.
- Abstract(参考訳): 安全な自動運転には、信頼性と正確な3Dオブジェクト検出が不可欠である。
LiDARセンサーは環境の正確な3Dポイントクラウド推定を提供することができるが、多くの設定では非常に高価である。
近年,擬似LiDAR(PL)の導入により,LiDARセンサを用いた手法と安価なステレオカメラを用いた手法との精度差が大幅に減少している。
PLは最先端のディープニューラルネットワークを使って3D深度推定と2D深度マップ出力を3Dポイントクラウド入力に変換する3Dオブジェクト検出を組み合わせている。
しかし、今のところこれらの2つのネットワークは個別に訓練する必要がある。
本稿では,PLパイプライン全体をエンドツーエンドにトレーニング可能な,差別化可能なRepresentation (CoR)モジュールに基づく新しいフレームワークを提案する。
結果として得られたフレームワークは、どちらのタスクでも最先端のネットワークと互換性があり、pointrcnnと組み合わせることで、すべてのベンチマークで一貫してplを超えるパフォーマンスが向上する。
私たちのコードはhttps://github.com/mileyan/pseudo-LiDAR_e2eで公開されます。
関連論文リスト
- SpotNet: An Image Centric, Lidar Anchored Approach To Long Range Perception [3.627834388176496]
SpotNetは高速で単一ステージのイメージ中心だが、長距離3Dオブジェクト検出のためのLiDARアンロックアプローチである。
我々は,LiDAR/画像センサフュージョンへのアプローチと2次元および3次元検出タスクの連成学習が組み合わさって,LiDARの精度が低い3次元物体検出に繋がることを示した。
論文 参考訳(メタデータ) (2024-05-24T17:25:48Z) - Fully Sparse Fusion for 3D Object Detection [69.32694845027927]
現在広く使われているマルチモーダル3D検出法は、通常、密度の高いBird-Eye-View特徴マップを使用するLiDARベースの検出器上に構築されている。
完全にスパースなアーキテクチャは、長距離知覚において非常に効率的であるため、注目を集めている。
本稿では,新たに出現するフルスパースアーキテクチャにおいて,画像のモダリティを効果的に活用する方法を検討する。
論文 参考訳(メタデータ) (2023-04-24T17:57:43Z) - SM3D: Simultaneous Monocular Mapping and 3D Detection [1.2183405753834562]
本稿では,同時マッピングと3次元検出のための,革新的で効率的なマルチタスク深層学習フレームワーク(SM3D)を提案する。
両モジュールのエンドツーエンドのトレーニングにより、提案したマッピングと3D検出は、最先端のベースラインを10.0%、精度13.2%で上回っている。
我々の単分子マルチタスクSM3Dは純粋なステレオ3D検出器の2倍以上の速度で、2つのモジュールを別々に使用するより18.3%速い。
論文 参考訳(メタデータ) (2021-11-24T17:23:37Z) - Anchor-free 3D Single Stage Detector with Mask-Guided Attention for
Point Cloud [79.39041453836793]
我々は、点雲をアンカーフリーで検出する新しい1段3次元検出器を開発した。
ボクセルをベースとしたスパース3D特徴量からスパース2D特徴量マップに変換することでこれを克服する。
検出信頼度スコアとバウンディングボックス回帰の精度との相関性を改善するために,IoUに基づく検出信頼度再校正手法を提案する。
論文 参考訳(メタデータ) (2021-08-08T13:42:13Z) - Multi-Modality Task Cascade for 3D Object Detection [22.131228757850373]
多くの手法は2つのモデルを個別に訓練し、単純な特徴結合を用いて3Dセンサーデータを表現している。
本稿では,3次元ボックスの提案を利用して2次元セグメンテーション予測を改善する新しいマルチモードタスクカスケードネットワーク(MTC-RCNN)を提案する。
2段階の3次元モジュール間の2次元ネットワークを組み込むことで,2次元および3次元のタスク性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2021-07-08T17:55:01Z) - PC-DAN: Point Cloud based Deep Affinity Network for 3D Multi-Object
Tracking (Accepted as an extended abstract in JRDB-ACT Workshop at CVPR21) [68.12101204123422]
点雲は3次元座標における空間データの密集したコンパイルである。
我々は3次元多目的追跡(MOT)のためのPointNetベースのアプローチを提案する。
論文 参考訳(メタデータ) (2021-06-03T05:36:39Z) - Ground-aware Monocular 3D Object Detection for Autonomous Driving [6.5702792909006735]
1台のRGBカメラで環境中の物体の位置と向きを推定することは、低コストの都市自動運転と移動ロボットにとって難しい課題である。
既存のアルゴリズムのほとんどは、2D-3D対応における幾何学的制約に基づいており、これは一般的な6Dオブジェクトのポーズ推定に由来する。
深層学習の枠組みにおいて、そのようなアプリケーション固有の事前知識を完全に活用するための新しいニューラルネットワークモジュールを導入する。
論文 参考訳(メタデータ) (2021-02-01T08:18:24Z) - Deep Continuous Fusion for Multi-Sensor 3D Object Detection [103.5060007382646]
本稿では,LIDARとカメラを併用して高精度な位置検出を実現する3Dオブジェクト検出器を提案する。
我々は,連続畳み込みを利用して画像とlidar特徴マップを異なるレベルの解像度で融合する,エンドツーエンド学習可能なアーキテクチャを設計した。
論文 参考訳(メタデータ) (2020-12-20T18:43:41Z) - RoIFusion: 3D Object Detection from LiDAR and Vision [7.878027048763662]
本稿では,3次元関心領域(RoI)の集合を点雲から対応する画像の2次元ロIに投影することで,新しい融合アルゴリズムを提案する。
提案手法は,KITTI 3Dオブジェクト検出課題ベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2020-09-09T20:23:27Z) - Rethinking Pseudo-LiDAR Representation [70.29791705160203]
我々は、より一般化され、擬似LiDARベースの3D検出器としてインスタンス化できるPatch-Netという画像ベースCNN検出器を提案する。
提案するPatchNetは,既存の擬似LiDARベースデータセットよりも優れています。
論文 参考訳(メタデータ) (2020-08-11T08:44:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。