論文の概要: Li3DeTr: A LiDAR based 3D Detection Transformer
- arxiv url: http://arxiv.org/abs/2210.15365v1
- Date: Thu, 27 Oct 2022 12:23:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-28 13:19:07.831271
- Title: Li3DeTr: A LiDAR based 3D Detection Transformer
- Title(参考訳): Li3DeTr: LiDARベースの3D検出変換器
- Authors: Gopi Krishna Erabati and Helder Araujo
- Abstract要約: Li3DeTrは、自動運転のためのLiDARベースの3D検出トランスである。
Li3DeTrネットワークは61.3%のmAPと67.6%のNDSを達成した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Inspired by recent advances in vision transformers for object detection, we
propose Li3DeTr, an end-to-end LiDAR based 3D Detection Transformer for
autonomous driving, that inputs LiDAR point clouds and regresses 3D bounding
boxes. The LiDAR local and global features are encoded using sparse convolution
and multi-scale deformable attention respectively. In the decoder head,
firstly, in the novel Li3DeTr cross-attention block, we link the LiDAR global
features to 3D predictions leveraging the sparse set of object queries learnt
from the data. Secondly, the object query interactions are formulated using
multi-head self-attention. Finally, the decoder layer is repeated $L_{dec}$
number of times to refine the object queries. Inspired by DETR, we employ
set-to-set loss to train the Li3DeTr network. Without bells and whistles, the
Li3DeTr network achieves 61.3% mAP and 67.6% NDS surpassing the
state-of-the-art methods with non-maximum suppression (NMS) on the nuScenes
dataset and it also achieves competitive performance on the KITTI dataset. We
also employ knowledge distillation (KD) using a teacher and student model that
slightly improves the performance of our network.
- Abstract(参考訳): 物体検出のための視覚変換器の最近の進歩に触発されて,LiDARを用いた自律走行用3D検出トランスであるLi3DeTrを提案する。
LiDARの局所的特徴とグローバルな特徴はそれぞれスパース畳み込みとマルチスケールの変形可能な注意を使って符号化される。
このデコーダヘッドでは、まず、新しいLi3DeTrクロスアテンションブロックにおいて、データから学習したオブジェクトクエリのスパースセットを活用することで、LiDARのグローバルな特徴を3D予測にリンクする。
第二に、オブジェクトクエリの相互作用はマルチヘッド自己アテンションを用いて定式化される。
最後に、デコーダ層はオブジェクトクエリを洗練させるために、何度も$L_{dec}$の回数を繰り返す。
DETRにインスパイアされた私たちは、Li3DeTrネットワークのトレーニングにセット・ツー・セットの損失を採用しました。
ベルとホイッスルがなければ、Li3DeTrネットワークは61.3%のmAPと67.6%のNDSを達成し、nuScenesデータセット上で非最大抑圧(NMS)を伴う最先端の手法を上回り、KITTIデータセット上での競合性能も達成している。
また,ネットワークの性能をわずかに向上させる教師モデルと学生モデルを用いて知識蒸留(KD)を行っている。
関連論文リスト
- Sparse-to-Dense LiDAR Point Generation by LiDAR-Camera Fusion for 3D Object Detection [9.076003184833557]
2D画像特徴を融合させてLiDARポイントクラウドデータを再構成する新しいフレームワークであるLiDAR-Camera Augmentation Network (LCANet)を提案する。
LCANetは、画像特徴を3D空間に投影し、意味情報をポイントクラウドデータに統合することで、LiDARセンサーからのデータを融合する。
この融合は、しばしばスパースポイントで表される長距離物体の検出におけるLiDARの弱点を効果的に補う。
論文 参考訳(メタデータ) (2024-09-23T13:03:31Z) - Approaching Outside: Scaling Unsupervised 3D Object Detection from 2D Scene [22.297964850282177]
教師なし3次元検出のためのLiDAR-2D Self-paced Learning (LiSe)を提案する。
RGB画像は、正確な2Dローカライゼーションキューを提供するLiDARデータの貴重な補完となる。
本フレームワークでは,適応型サンプリングと弱いモデルアグリゲーション戦略を組み込んだ自己評価学習パイプラインを考案する。
論文 参考訳(メタデータ) (2024-07-11T14:58:49Z) - Multi-Modal Data-Efficient 3D Scene Understanding for Autonomous Driving [58.16024314532443]
我々は、異なるLiDARスキャンからレーザービーム操作を統合するフレームワークであるLaserMix++を導入し、データ効率の学習を支援するためにLiDAR-カメラ対応を組み込んだ。
結果は、LaserMix++が完全に教師付き代替よりも優れており、5倍のアノテーションで同等の精度を実現していることを示している。
この大幅な進歩は、LiDARベースの3Dシーン理解システムにおける広範囲なラベル付きデータへの依存を減らすための半教師付きアプローチの可能性を示している。
論文 参考訳(メタデータ) (2024-05-08T17:59:53Z) - V-DETR: DETR with Vertex Relative Position Encoding for 3D Object
Detection [73.37781484123536]
DETRフレームワークを用いた点雲のための高性能な3次元物体検出器を提案する。
限界に対処するため,新しい3次元相対位置(3DV-RPE)法を提案する。
挑戦的なScanNetV2ベンチマークで例外的な結果を示す。
論文 参考訳(メタデータ) (2023-08-08T17:14:14Z) - LiDARFormer: A Unified Transformer-based Multi-task Network for LiDAR
Perception [15.919789515451615]
変換器に基づく新しいLiDARマルチタスク学習パラダイムを提案する。
LiDARFormerはクロスタスクのシナジーを利用して、LiDAR知覚タスクのパフォーマンスを向上させる。
LiDARFormerは3D検出とセマンティックセグメンテーションの両方のために、大規模なnuScenesとOpenデータセットで評価されている。
論文 参考訳(メタデータ) (2023-03-21T20:52:02Z) - MSF3DDETR: Multi-Sensor Fusion 3D Detection Transformer for Autonomous
Driving [0.0]
MSF3DDETR: 画像とLiDAR機能を融合して検出精度を向上させるマルチセンサフュージョン3D検出変換器アーキテクチャを提案する。
我々のエンドツーエンドのシングルステージ、アンカーフリー、NMSフリーネットワークは、マルチビューイメージとLiDARポイントクラウドを取り込み、3Dバウンディングボックスを予測する。
MSF3DDETRネットワークは、DeTRにインスパイアされたハンガリーのアルゴリズムに基づくバイパーティイトマッチングとセット・ツー・セット・ロスを使用して、nuScenesデータセット上でエンドツーエンドにトレーニングされている。
論文 参考訳(メタデータ) (2022-10-27T10:55:15Z) - Multimodal Transformer for Automatic 3D Annotation and Object Detection [27.92241487946078]
本稿では,弱い2次元境界ボックスから正確な3Dボックスアノテーションを生成するために,エンドツーエンドのマルチモーダルトランス(MTrans)自動ラベルラを提案する。
マルチタスク設計により、MTransはフォアグラウンド/バックグラウンドを分割し、LiDAR点雲を密度化し、3Dボックスを同時に再描画する。
スパース点雲を濃縮することにより,KITTI中等度試料および硬質試料に対して,それぞれ4.48%,4.03%良好な3次元APが得られる。
論文 参考訳(メタデータ) (2022-07-20T10:38:29Z) - Boosting 3D Object Detection by Simulating Multimodality on Point Clouds [51.87740119160152]
本稿では,LiDAR 画像検出器に追従する特徴や応答をシミュレートすることで,単一モダリティ (LiDAR) 3次元物体検出器を高速化する新しい手法を提案する。
このアプローチでは、単一モダリティ検出器をトレーニングする場合のみ、LiDARイメージデータを必要とし、十分にトレーニングされた場合には、推論時にのみLiDARデータが必要である。
nuScenesデータセットの実験結果から,本手法はSOTA LiDARのみの3D検出器よりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-06-30T01:44:30Z) - Embracing Single Stride 3D Object Detector with Sparse Transformer [63.179720817019096]
自律走行のためのLiDARを用いた3次元物体検出では、物体サイズと入力シーンサイズとの比が2次元検出の場合に比べて有意に小さい。
多くの3D検出器は2D検出器の一般的な慣習に従っており、点雲の定量化後も特徴マップを分解する。
本稿では,SST(Single-stride Sparse Transformer)を提案する。
論文 参考訳(メタデータ) (2021-12-13T02:12:02Z) - SelfVoxeLO: Self-supervised LiDAR Odometry with Voxel-based Deep Neural
Networks [81.64530401885476]
本稿では,これら2つの課題に対処するために,自己教師型LiDARオドメトリー法(SelfVoxeLO)を提案する。
具体的には、生のLiDARデータを直接処理する3D畳み込みネットワークを提案し、3D幾何パターンをよりよく符号化する特徴を抽出する。
我々は,KITTIとApollo-SouthBayという2つの大規模データセット上での手法の性能を評価する。
論文 参考訳(メタデータ) (2020-10-19T09:23:39Z) - End-to-End Pseudo-LiDAR for Image-Based 3D Object Detection [62.34374949726333]
擬似LiDAR(PL)は、LiDARセンサに基づく手法と安価なステレオカメラに基づく手法の精度ギャップを劇的に減らした。
PLは最先端のディープニューラルネットワークと2D深度マップ出力を3Dポイントクラウド入力に変換することで3Dオブジェクト検出のための3D深度推定を組み合わせている。
我々は、PLパイプライン全体をエンドツーエンドにトレーニングできるように、差別化可能なRepresentation (CoR)モジュールに基づく新しいフレームワークを導入します。
論文 参考訳(メタデータ) (2020-04-07T02:18:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。