論文の概要: LidarMultiNet: Towards a Unified Multi-task Network for LiDAR Perception
- arxiv url: http://arxiv.org/abs/2209.09385v1
- Date: Mon, 19 Sep 2022 23:39:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-21 18:27:04.341065
- Title: LidarMultiNet: Towards a Unified Multi-task Network for LiDAR Perception
- Title(参考訳): LidarMultiNet:LiDAR知覚のための統一マルチタスクネットワークを目指して
- Authors: Dongqiangzi Ye, Zixiang Zhou, Weijia Chen, Yufei Xie, Yu Wang, Panqu
Wang and Hassan Foroosh
- Abstract要約: LidarMultiNetは、LiDARベースのマルチタスクネットワークで、3Dオブジェクトの検出、セマンティックセグメンテーション、およびパノプティックセグメンテーションを統合する。
LidarMultiNetの中核には、Global Context Pooling (GCP)モジュールを備えた強力な3Dボクセルベースのエンコーダデコーダアーキテクチャがある。
LidarMultiNetはOpenデータセットとnuScenesデータセットの両方で広くテストされている。
- 参考スコア(独自算出の注目度): 15.785527155108966
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LiDAR-based 3D object detection, semantic segmentation, and panoptic
segmentation are usually implemented in specialized networks with distinctive
architectures that are difficult to adapt to each other. This paper presents
LidarMultiNet, a LiDAR-based multi-task network that unifies these three major
LiDAR perception tasks. Among its many benefits, a multi-task network can
reduce the overall cost by sharing weights and computation among multiple
tasks. However, it typically underperforms compared to independently combined
single-task models. The proposed LidarMultiNet aims to bridge the performance
gap between the multi-task network and multiple single-task networks. At the
core of LidarMultiNet is a strong 3D voxel-based encoder-decoder architecture
with a Global Context Pooling (GCP) module extracting global contextual
features from a LiDAR frame. Task-specific heads are added on top of the
network to perform the three LiDAR perception tasks. More tasks can be
implemented simply by adding new task-specific heads while introducing little
additional cost. A second stage is also proposed to refine the first-stage
segmentation and generate accurate panoptic segmentation results. LidarMultiNet
is extensively tested on both Waymo Open Dataset and nuScenes dataset,
demonstrating for the first time that major LiDAR perception tasks can be
unified in a single strong network that is trained end-to-end and achieves
state-of-the-art performance. Notably, LidarMultiNet reaches the official 1st
place in the Waymo Open Dataset 3D semantic segmentation challenge 2022 with
the highest mIoU and the best accuracy for most of the 22 classes on the test
set, using only LiDAR points as input. It also sets the new state-of-the-art
for a single model on the Waymo 3D object detection benchmark and three
nuScenes benchmarks.
- Abstract(参考訳): LiDARベースの3Dオブジェクト検出、セマンティックセグメンテーション、およびパノプティックセグメンテーションは通常、互いに適応しづらい独特のアーキテクチャを持つ特殊なネットワークで実装される。
本稿では,LiDARをベースとしたマルチタスクネットワークであるLidarMultiNetについて述べる。
その多くの利点のうち、マルチタスクネットワークは、重みと計算を複数のタスク間で共有することで、全体のコストを削減できる。
しかし、通常は独立に結合されたシングルタスクモデルと比較して性能が劣る。
提案されたlidarmultinetは、マルチタスクネットワークと複数のシングルタスクネットワークのパフォーマンスギャップを埋めることを目的としている。
LidarMultiNetの中核には、強力な3Dボクセルベースのエンコーダデコーダアーキテクチャがあり、LiDARフレームからグローバルなコンテキスト特徴を抽出するグローバルコンテキストプーリング(GCP)モジュールがある。
3つのLiDAR知覚タスクを実行するために、ネットワーク上にタスク固有のヘッドが追加される。
新しいタスク固有のヘッドを追加するだけで、さらに多くのタスクを実装できる。
第2段階も提案され、第1段階のセグメンテーションを洗練し、正確なパノプティクスセグメンテーション結果を生成する。
LidarMultiNetはWaymo Open DatasetとnuScenesのデータセットで広くテストされており、主要なLiDAR認識タスクがエンドツーエンドにトレーニングされ、最先端のパフォーマンスを達成する単一の強力なネットワークに統合可能であることを初めて実証している。
特に、LidarMultiNetは、Waymo Open Dataset 3Dセマンティックセマンティックセグメンテーションチャレンジ2022において、最も高いmIoUとテストセット上の22クラスのほとんどにおいて、入力としてLiDARポイントのみを使用して、最高の精度で1位に達した。
また、waymo 3d object detection benchmarkと3つのnuscenesベンチマークに、単一のモデルのための新しい最新技術を設定する。
関連論文リスト
- LiDAR-BEVMTN: Real-Time LiDAR Bird's-Eye View Multi-Task Perception
Network for Autonomous Driving [7.137567622606353]
本稿では,LiDARに基づくオブジェクト検出,意味論,動作セグメンテーションのためのリアルタイムマルチタスク畳み込みニューラルネットワークを提案する。
オブジェクト検出を選択的に改善するためのセマンティック・ウェイト・アンド・ガイダンス(SWAG)モジュールを提案する。
我々は,2つのタスク,セマンティックとモーションセグメンテーション,および3Dオブジェクト検出のための最先端性能に近い2つのタスクに対して,最先端の結果を得る。
論文 参考訳(メタデータ) (2023-07-17T21:22:17Z) - General-Purpose Multimodal Transformer meets Remote Sensing Semantic
Segmentation [35.100738362291416]
マルチモーダルAIは、特にセマンティックセグメンテーションのような複雑なタスクのために、補完的なデータソースを活用する。
汎用マルチモーダルネットワークの最近のトレンドは、最先端の性能を達成する大きな可能性を示している。
本稿では,3次元畳み込みを利用して重要なローカル情報をエンコードし,同時にモーダルな特徴を学習するUNet型モジュールを提案する。
論文 参考訳(メタデータ) (2023-07-07T04:58:34Z) - LiDARFormer: A Unified Transformer-based Multi-task Network for LiDAR
Perception [15.919789515451615]
変換器に基づく新しいLiDARマルチタスク学習パラダイムを提案する。
LiDARFormerはクロスタスクのシナジーを利用して、LiDAR知覚タスクのパフォーマンスを向上させる。
LiDARFormerは3D検出とセマンティックセグメンテーションの両方のために、大規模なnuScenesとOpenデータセットで評価されている。
論文 参考訳(メタデータ) (2023-03-21T20:52:02Z) - Prompt Tuning with Soft Context Sharing for Vision-Language Models [56.628198024857056]
本稿では,複数目的の複数ショットタスクに対して,事前学習した視覚言語モデルを同時に微調整する手法を提案する。
実験では、SoftCPTは、代表的なシングルタスクプロンプトチューニング手法であるCoOpを大きなマージンで上回る。
論文 参考訳(メタデータ) (2022-08-29T10:19:10Z) - LidarMultiNet: Unifying LiDAR Semantic Segmentation, 3D Object
Detection, and Panoptic Segmentation in a Single Multi-task Network [15.785527155108966]
LidarMultiNetは強力な3Dボクセルベースのエンコーダデコーダネットワークであり、新しいGlobal Context Poolingモジュールを備えている。
我々の解は71.13のmIoUを達成し、3Dセマンティックセグメンテーションテストセットの22クラスのほとんどでベストである。
論文 参考訳(メタデータ) (2022-06-23T00:22:13Z) - LiDAR-based 4D Panoptic Segmentation via Dynamic Shifting Network [56.71765153629892]
本稿では,ポイントクラウド領域における効果的な単視分割フレームワークとして機能する動的シフトネットワーク(DS-Net)を提案する。
提案するDS-Netは,両タスクの現在の最先端手法よりも優れた精度を実現する。
DS-Netを4次元パノプティカルLiDARセグメンテーションに拡張し、一列のLiDARフレーム上で時間的に統一されたインスタンスクラスタリングを行う。
論文 参考訳(メタデータ) (2022-03-14T15:25:42Z) - The Devil is in the Task: Exploiting Reciprocal Appearance-Localization
Features for Monocular 3D Object Detection [62.1185839286255]
低コストのモノクル3D物体検出は、自律運転において基本的な役割を果たす。
DFR-Netという動的特徴反射ネットワークを導入する。
我々は、KITTIテストセットの全ての単分子3D物体検出器の中で、第1位にランク付けする。
論文 参考訳(メタデータ) (2021-12-28T07:31:18Z) - A Simple and Efficient Multi-task Network for 3D Object Detection and
Road Understanding [20.878931360708343]
シンプルで効率的なマルチタスクネットワークを通じて、すべての知覚タスクを実行できることを示します。
提案するネットワークであるLidarMTLは、生のLiDAR点雲を入力とし、3次元物体検出と道路理解のための6つの知覚出力を予測する。
論文 参考訳(メタデータ) (2021-03-06T08:00:26Z) - LiDAR-based Panoptic Segmentation via Dynamic Shifting Network [56.71765153629892]
LiDARベースのパノプティカルセグメンテーションは、オブジェクトとシーンを統一的に解析することを目的としている。
本稿では,ポイントクラウド領域における効果的な単視分割フレームワークとして機能する動的シフトネットワーク(DS-Net)を提案する。
提案するDS-Netは,現在の最先端手法よりも優れた精度を実現する。
論文 参考訳(メタデータ) (2020-11-24T08:44:46Z) - Deep Multimodal Neural Architecture Search [178.35131768344246]
様々なマルチモーダル学習タスクのための一般化された深層マルチモーダルニューラルアーキテクチャサーチ(MMnas)フレームワークを考案する。
マルチモーダル入力が与えられたら、まずプリミティブ演算のセットを定義し、その後、ディープエンコーダ-デコーダベースの統一バックボーンを構築する。
統合されたバックボーンの上にタスク固有のヘッドをアタッチして、異なるマルチモーダル学習タスクに取り組む。
論文 参考訳(メタデータ) (2020-04-25T07:00:32Z) - MTI-Net: Multi-Scale Task Interaction Networks for Multi-Task Learning [82.62433731378455]
特定のスケールで高い親和性を持つタスクは、他のスケールでこの動作を維持することが保証されていないことを示す。
本稿では,この発見に基づく新しいアーキテクチャ MTI-Net を提案する。
論文 参考訳(メタデータ) (2020-01-19T21:02:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。