論文の概要: LiDARFormer: A Unified Transformer-based Multi-task Network for LiDAR
Perception
- arxiv url: http://arxiv.org/abs/2303.12194v2
- Date: Sat, 2 Mar 2024 22:18:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 21:15:19.846828
- Title: LiDARFormer: A Unified Transformer-based Multi-task Network for LiDAR
Perception
- Title(参考訳): LiDARFormer: LiDAR知覚のための統一トランスフォーマーベースのマルチタスクネットワーク
- Authors: Zixiang Zhou, Dongqiangzi Ye, Weijia Chen, Yufei Xie, Yu Wang, Panqu
Wang, Hassan Foroosh
- Abstract要約: 変換器に基づく新しいLiDARマルチタスク学習パラダイムを提案する。
LiDARFormerはクロスタスクのシナジーを利用して、LiDAR知覚タスクのパフォーマンスを向上させる。
LiDARFormerは3D検出とセマンティックセグメンテーションの両方のために、大規模なnuScenesとOpenデータセットで評価されている。
- 参考スコア(独自算出の注目度): 15.919789515451615
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: There is a recent trend in the LiDAR perception field towards unifying
multiple tasks in a single strong network with improved performance, as opposed
to using separate networks for each task. In this paper, we introduce a new
LiDAR multi-task learning paradigm based on the transformer. The proposed
LiDARFormer utilizes cross-space global contextual feature information and
exploits cross-task synergy to boost the performance of LiDAR perception tasks
across multiple large-scale datasets and benchmarks. Our novel
transformer-based framework includes a cross-space transformer module that
learns attentive features between the 2D dense Bird's Eye View (BEV) and 3D
sparse voxel feature maps. Additionally, we propose a transformer decoder for
the segmentation task to dynamically adjust the learned features by leveraging
the categorical feature representations. Furthermore, we combine the
segmentation and detection features in a shared transformer decoder with
cross-task attention layers to enhance and integrate the object-level and
class-level features. LiDARFormer is evaluated on the large-scale nuScenes and
the Waymo Open datasets for both 3D detection and semantic segmentation tasks,
and it outperforms all previously published methods on both tasks. Notably,
LiDARFormer achieves the state-of-the-art performance of 76.4% L2 mAPH and
74.3% NDS on the challenging Waymo and nuScenes detection benchmarks for a
single model LiDAR-only method.
- Abstract(参考訳): 個々のタスクに個別のネットワークを使用するのとは対照的に、パフォーマンスが向上した単一強ネットワークにおいて、複数のタスクを統一するLiDAR認識分野の最近のトレンドがある。
本稿では、トランスフォーマーに基づく新しいlidarマルチタスク学習パラダイムを提案する。
提案するLiDARFormerは,空間的グローバルなコンテキスト特徴情報を利用して,複数の大規模データセットとベンチマーク間でのLiDAR認識タスクのパフォーマンス向上を図る。
我々の新しいトランスフォーマーベースのフレームワークは、2D高密度バードアイビュー(BEV)と3Dスパース・ボクセル特徴マップの間の注意深い特徴を学習するクロススペーストランスフォーマーモジュールを含んでいる。
さらに、分類的特徴表現を利用して学習した特徴を動的に調整するセグメンテーションタスク用トランスフォーマーデコーダを提案する。
さらに,共用トランスデコーダのセグメンテーションと検出機能をクロスタスクアテンション層と組み合わせることで,オブジェクトレベルおよびクラスレベルの機能を強化・統合する。
LiDARFormerは、大規模なnuScenesとWaymo Openデータセットで3D検出とセマンティックセグメンテーションタスクの両方で評価されており、以前公開されたすべてのメソッドよりもパフォーマンスが高い。
特に、LiDARFormerは、単一のモデルLiDARのみの方法のWaymoおよびnuScenes検出ベンチマークにおいて76.4%のL2 mAPHと74.3%のNDSの最先端性能を達成する。
関連論文リスト
- Multi-Modal Data-Efficient 3D Scene Understanding for Autonomous Driving [58.16024314532443]
我々は、異なるLiDARスキャンからレーザービーム操作を統合するフレームワークであるLaserMix++を導入し、データ効率の学習を支援するためにLiDAR-カメラ対応を組み込んだ。
結果は、LaserMix++が完全に教師付き代替よりも優れており、5倍のアノテーションで同等の精度を実現していることを示している。
この大幅な進歩は、LiDARベースの3Dシーン理解システムにおける広範囲なラベル付きデータへの依存を減らすための半教師付きアプローチの可能性を示している。
論文 参考訳(メタデータ) (2024-05-08T17:59:53Z) - A Point-Based Approach to Efficient LiDAR Multi-Task Perception [49.91741677556553]
PAttFormerは、ポイントクラウドにおける共同セマンティックセグメンテーションとオブジェクト検出のための効率的なマルチタスクアーキテクチャである。
他のLiDARベースのマルチタスクアーキテクチャとは異なり、提案したPAttFormerはタスク固有のポイントクラウド表現のために別の機能エンコーダを必要としない。
マルチタスク学習では,mIouでは+1.7%,mAPでは3Dオブジェクト検出では+1.7%,LiDARセマンティックセマンティックセグメンテーションは+1.7%向上した。
論文 参考訳(メタデータ) (2024-04-19T11:24:34Z) - Small, Versatile and Mighty: A Range-View Perception Framework [13.85089181673372]
本稿では,LiDARデータの3次元検出のための新しいマルチタスクフレームワークを提案する。
我々のフレームワークは,LiDARポイントクラウドのためのセグメンテーションとパノプティクスセグメンテーションタスクを統合している。
レンジビューに基づく手法の中で,本モデルでは,Openデータセット上での新たな最先端検出性能を実現する。
論文 参考訳(メタデータ) (2024-03-01T07:02:42Z) - LiDAR-BEVMTN: Real-Time LiDAR Bird's-Eye View Multi-Task Perception
Network for Autonomous Driving [7.137567622606353]
本稿では,LiDARに基づくオブジェクト検出,意味論,動作セグメンテーションのためのリアルタイムマルチタスク畳み込みニューラルネットワークを提案する。
オブジェクト検出を選択的に改善するためのセマンティック・ウェイト・アンド・ガイダンス(SWAG)モジュールを提案する。
我々は,2つのタスク,セマンティックとモーションセグメンテーション,および3Dオブジェクト検出のための最先端性能に近い2つのタスクに対して,最先端の結果を得る。
論文 参考訳(メタデータ) (2023-07-17T21:22:17Z) - AOP-Net: All-in-One Perception Network for Joint LiDAR-based 3D Object
Detection and Panoptic Segmentation [9.513467995188634]
AOP-NetはLiDARベースのマルチタスクフレームワークで、3Dオブジェクトの検出とパノプティクスのセグメンテーションを組み合わせたものである。
AOP-Netは、nuScenesベンチマークにおける3Dオブジェクト検出とパノプティクスセグメンテーションの両タスクについて、最先端のパフォーマンスを達成している。
論文 参考訳(メタデータ) (2023-02-02T05:31:53Z) - LidarMultiNet: Towards a Unified Multi-Task Network for LiDAR Perception [15.785527155108966]
LidarMultiNetは、LiDARベースのマルチタスクネットワークで、3Dオブジェクトの検出、セマンティックセグメンテーション、およびパノプティックセグメンテーションを統合する。
LidarMultiNetの中核には、Global Context Pooling (GCP)モジュールを備えた強力な3Dボクセルベースのエンコーダデコーダアーキテクチャがある。
LidarMultiNetはOpenデータセットとnuScenesデータセットの両方で広くテストされている。
論文 参考訳(メタデータ) (2022-09-19T23:39:15Z) - Boosting 3D Object Detection by Simulating Multimodality on Point Clouds [51.87740119160152]
本稿では,LiDAR 画像検出器に追従する特徴や応答をシミュレートすることで,単一モダリティ (LiDAR) 3次元物体検出器を高速化する新しい手法を提案する。
このアプローチでは、単一モダリティ検出器をトレーニングする場合のみ、LiDARイメージデータを必要とし、十分にトレーニングされた場合には、推論時にのみLiDARデータが必要である。
nuScenesデータセットの実験結果から,本手法はSOTA LiDARのみの3D検出器よりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-06-30T01:44:30Z) - MulT: An End-to-End Multitask Learning Transformer [66.52419626048115]
我々はMulTと呼ばれるエンドツーエンドのマルチタスク学習トランスフォーマフレームワークを提案し、複数のハイレベル視覚タスクを同時に学習する。
本フレームワークは,入力画像を共有表現にエンコードし,タスク固有のトランスフォーマーベースのデコーダヘッドを用いて各視覚タスクの予測を行う。
論文 参考訳(メタデータ) (2022-05-17T13:03:18Z) - LiDAR-based 4D Panoptic Segmentation via Dynamic Shifting Network [56.71765153629892]
本稿では,ポイントクラウド領域における効果的な単視分割フレームワークとして機能する動的シフトネットワーク(DS-Net)を提案する。
提案するDS-Netは,両タスクの現在の最先端手法よりも優れた精度を実現する。
DS-Netを4次元パノプティカルLiDARセグメンテーションに拡張し、一列のLiDARフレーム上で時間的に統一されたインスタンスクラスタリングを行う。
論文 参考訳(メタデータ) (2022-03-14T15:25:42Z) - The Devil is in the Task: Exploiting Reciprocal Appearance-Localization
Features for Monocular 3D Object Detection [62.1185839286255]
低コストのモノクル3D物体検出は、自律運転において基本的な役割を果たす。
DFR-Netという動的特徴反射ネットワークを導入する。
我々は、KITTIテストセットの全ての単分子3D物体検出器の中で、第1位にランク付けする。
論文 参考訳(メタデータ) (2021-12-28T07:31:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。