論文の概要: Li3DeTr: A LiDAR based 3D Detection Transformer
- arxiv url: http://arxiv.org/abs/2210.15365v1
- Date: Thu, 27 Oct 2022 12:23:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-28 13:19:07.831271
- Title: Li3DeTr: A LiDAR based 3D Detection Transformer
- Title(参考訳): Li3DeTr: LiDARベースの3D検出変換器
- Authors: Gopi Krishna Erabati and Helder Araujo
- Abstract要約: Li3DeTrは、自動運転のためのLiDARベースの3D検出トランスである。
Li3DeTrネットワークは61.3%のmAPと67.6%のNDSを達成した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Inspired by recent advances in vision transformers for object detection, we
propose Li3DeTr, an end-to-end LiDAR based 3D Detection Transformer for
autonomous driving, that inputs LiDAR point clouds and regresses 3D bounding
boxes. The LiDAR local and global features are encoded using sparse convolution
and multi-scale deformable attention respectively. In the decoder head,
firstly, in the novel Li3DeTr cross-attention block, we link the LiDAR global
features to 3D predictions leveraging the sparse set of object queries learnt
from the data. Secondly, the object query interactions are formulated using
multi-head self-attention. Finally, the decoder layer is repeated $L_{dec}$
number of times to refine the object queries. Inspired by DETR, we employ
set-to-set loss to train the Li3DeTr network. Without bells and whistles, the
Li3DeTr network achieves 61.3% mAP and 67.6% NDS surpassing the
state-of-the-art methods with non-maximum suppression (NMS) on the nuScenes
dataset and it also achieves competitive performance on the KITTI dataset. We
also employ knowledge distillation (KD) using a teacher and student model that
slightly improves the performance of our network.
- Abstract(参考訳): 物体検出のための視覚変換器の最近の進歩に触発されて,LiDARを用いた自律走行用3D検出トランスであるLi3DeTrを提案する。
LiDARの局所的特徴とグローバルな特徴はそれぞれスパース畳み込みとマルチスケールの変形可能な注意を使って符号化される。
このデコーダヘッドでは、まず、新しいLi3DeTrクロスアテンションブロックにおいて、データから学習したオブジェクトクエリのスパースセットを活用することで、LiDARのグローバルな特徴を3D予測にリンクする。
第二に、オブジェクトクエリの相互作用はマルチヘッド自己アテンションを用いて定式化される。
最後に、デコーダ層はオブジェクトクエリを洗練させるために、何度も$L_{dec}$の回数を繰り返す。
DETRにインスパイアされた私たちは、Li3DeTrネットワークのトレーニングにセット・ツー・セットの損失を採用しました。
ベルとホイッスルがなければ、Li3DeTrネットワークは61.3%のmAPと67.6%のNDSを達成し、nuScenesデータセット上で非最大抑圧(NMS)を伴う最先端の手法を上回り、KITTIデータセット上での競合性能も達成している。
また,ネットワークの性能をわずかに向上させる教師モデルと学生モデルを用いて知識蒸留(KD)を行っている。
関連論文リスト
- V-DETR: DETR with Vertex Relative Position Encoding for 3D Object
Detection [73.37781484123536]
DETRフレームワークを用いた点雲のための高性能な3次元物体検出器を提案する。
限界に対処するため,新しい3次元相対位置(3DV-RPE)法を提案する。
挑戦的なScanNetV2ベンチマークで例外的な結果を示す。
論文 参考訳(メタデータ) (2023-08-08T17:14:14Z) - LiDARFormer: A Unified Transformer-based Multi-task Network for LiDAR
Perception [15.919789515451615]
変換器に基づく新しいLiDARマルチタスク学習パラダイムを提案する。
LiDARFormerはクロスタスクのシナジーを利用して、LiDAR知覚タスクのパフォーマンスを向上させる。
LiDARFormerは3D検出とセマンティックセグメンテーションの両方のために、大規模なnuScenesとOpenデータセットで評価されている。
論文 参考訳(メタデータ) (2023-03-21T20:52:02Z) - MSF3DDETR: Multi-Sensor Fusion 3D Detection Transformer for Autonomous
Driving [0.0]
MSF3DDETR: 画像とLiDAR機能を融合して検出精度を向上させるマルチセンサフュージョン3D検出変換器アーキテクチャを提案する。
我々のエンドツーエンドのシングルステージ、アンカーフリー、NMSフリーネットワークは、マルチビューイメージとLiDARポイントクラウドを取り込み、3Dバウンディングボックスを予測する。
MSF3DDETRネットワークは、DeTRにインスパイアされたハンガリーのアルゴリズムに基づくバイパーティイトマッチングとセット・ツー・セット・ロスを使用して、nuScenesデータセット上でエンドツーエンドにトレーニングされている。
論文 参考訳(メタデータ) (2022-10-27T10:55:15Z) - Multimodal Transformer for Automatic 3D Annotation and Object Detection [27.92241487946078]
本稿では,弱い2次元境界ボックスから正確な3Dボックスアノテーションを生成するために,エンドツーエンドのマルチモーダルトランス(MTrans)自動ラベルラを提案する。
マルチタスク設計により、MTransはフォアグラウンド/バックグラウンドを分割し、LiDAR点雲を密度化し、3Dボックスを同時に再描画する。
スパース点雲を濃縮することにより,KITTI中等度試料および硬質試料に対して,それぞれ4.48%,4.03%良好な3次元APが得られる。
論文 参考訳(メタデータ) (2022-07-20T10:38:29Z) - Boosting 3D Object Detection by Simulating Multimodality on Point Clouds [51.87740119160152]
本稿では,LiDAR 画像検出器に追従する特徴や応答をシミュレートすることで,単一モダリティ (LiDAR) 3次元物体検出器を高速化する新しい手法を提案する。
このアプローチでは、単一モダリティ検出器をトレーニングする場合のみ、LiDARイメージデータを必要とし、十分にトレーニングされた場合には、推論時にのみLiDARデータが必要である。
nuScenesデータセットの実験結果から,本手法はSOTA LiDARのみの3D検出器よりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-06-30T01:44:30Z) - The Devil is in the Task: Exploiting Reciprocal Appearance-Localization
Features for Monocular 3D Object Detection [62.1185839286255]
低コストのモノクル3D物体検出は、自律運転において基本的な役割を果たす。
DFR-Netという動的特徴反射ネットワークを導入する。
我々は、KITTIテストセットの全ての単分子3D物体検出器の中で、第1位にランク付けする。
論文 参考訳(メタデータ) (2021-12-28T07:31:18Z) - Embracing Single Stride 3D Object Detector with Sparse Transformer [63.179720817019096]
自律走行のためのLiDARを用いた3次元物体検出では、物体サイズと入力シーンサイズとの比が2次元検出の場合に比べて有意に小さい。
多くの3D検出器は2D検出器の一般的な慣習に従っており、点雲の定量化後も特徴マップを分解する。
本稿では,SST(Single-stride Sparse Transformer)を提案する。
論文 参考訳(メタデータ) (2021-12-13T02:12:02Z) - SelfVoxeLO: Self-supervised LiDAR Odometry with Voxel-based Deep Neural
Networks [81.64530401885476]
本稿では,これら2つの課題に対処するために,自己教師型LiDARオドメトリー法(SelfVoxeLO)を提案する。
具体的には、生のLiDARデータを直接処理する3D畳み込みネットワークを提案し、3D幾何パターンをよりよく符号化する特徴を抽出する。
我々は,KITTIとApollo-SouthBayという2つの大規模データセット上での手法の性能を評価する。
論文 参考訳(メタデータ) (2020-10-19T09:23:39Z) - An LSTM Approach to Temporal 3D Object Detection in LiDAR Point Clouds [16.658604637005535]
LSTMを用いた多フレーム3dオブジェクト検出アルゴリズムを提案する。
我々は、U-Netスタイルのスパース畳み込みネットワークを用いて、各フレームのLiDAR点クラウドの特徴を抽出する。
論文 参考訳(メタデータ) (2020-07-24T07:34:15Z) - End-to-End Pseudo-LiDAR for Image-Based 3D Object Detection [62.34374949726333]
擬似LiDAR(PL)は、LiDARセンサに基づく手法と安価なステレオカメラに基づく手法の精度ギャップを劇的に減らした。
PLは最先端のディープニューラルネットワークと2D深度マップ出力を3Dポイントクラウド入力に変換することで3Dオブジェクト検出のための3D深度推定を組み合わせている。
我々は、PLパイプライン全体をエンドツーエンドにトレーニングできるように、差別化可能なRepresentation (CoR)モジュールに基づく新しいフレームワークを導入します。
論文 参考訳(メタデータ) (2020-04-07T02:18:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。