論文の概要: LidarMultiNet: Unifying LiDAR Semantic Segmentation, 3D Object
Detection, and Panoptic Segmentation in a Single Multi-task Network
- arxiv url: http://arxiv.org/abs/2206.11428v2
- Date: Fri, 24 Jun 2022 00:38:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-27 09:31:46.087318
- Title: LidarMultiNet: Unifying LiDAR Semantic Segmentation, 3D Object
Detection, and Panoptic Segmentation in a Single Multi-task Network
- Title(参考訳): lidarmultinet:単一マルチタスクネットワークにおけるlidarセマンティクスセグメンテーション、3dオブジェクト検出、およびpanopticセグメンテーションの統合
- Authors: Dongqiangzi Ye, Weijia Chen, Zixiang Zhou, Yufei Xie, Yu Wang, Panqu
Wang and Hassan Foroosh
- Abstract要約: LidarMultiNetは強力な3Dボクセルベースのエンコーダデコーダネットワークであり、新しいGlobal Context Poolingモジュールを備えている。
我々の解は71.13のmIoUを達成し、3Dセマンティックセグメンテーションテストセットの22クラスのほとんどでベストである。
- 参考スコア(独自算出の注目度): 15.785527155108966
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This technical report presents the 1st place winning solution for the Waymo
Open Dataset 3D semantic segmentation challenge 2022. Our network, termed
LidarMultiNet, unifies the major LiDAR perception tasks such as 3D semantic
segmentation, object detection, and panoptic segmentation in a single
framework. At the core of LidarMultiNet is a strong 3D voxel-based
encoder-decoder network with a novel Global Context Pooling (GCP) module
extracting global contextual features from a LiDAR frame to complement its
local features. An optional second stage is proposed to refine the first-stage
segmentation or generate accurate panoptic segmentation results. Our solution
achieves a mIoU of 71.13 and is the best for most of the 22 classes on the
Waymo 3D semantic segmentation test set, outperforming all the other 3D
semantic segmentation methods on the official leaderboard. We demonstrate for
the first time that major LiDAR perception tasks can be unified in a single
strong network that can be trained end-to-end.
- Abstract(参考訳): 本報告では,waymo open dataset 3d semantic segmentation challenge 2022の1位入賞ソリューションを提案する。
我々のネットワークはLidarMultiNetと呼ばれ、3Dセマンティックセグメンテーション、オブジェクト検出、単眼セグメンテーションといったLiDARの主要な認識タスクを単一のフレームワークに統合する。
LidarMultiNetのコアには、強力な3Dボクセルベースのエンコーダ-デコーダネットワークがあり、そのローカル機能を補完するためにLiDARフレームからグローバルなコンテキスト特徴を抽出する新しいGCPモジュールがある。
任意の第2段階が提案され、第1段階のセグメンテーションを洗練したり、正確なパノプティクスセグメンテーション結果を生成する。
私たちのソリューションは71.13のmiouを実現し、waymo 3dセマンティックセグメンテーションテストセットの22クラスの大半で最良であり、公式のリーダーボード上の他の3dセマンティックセグメンテーションメソッドよりも優れています。
私たちは初めて、主要なLiDAR知覚タスクを、エンドツーエンドでトレーニング可能な単一の強力なネットワークに統合できることを示します。
関連論文リスト
- 3D-GRES: Generalized 3D Referring Expression Segmentation [77.10044505645064]
3D参照式(3D-RES)は、自然言語の記述に基づいて、特定のインスタンスを3D空間内にセグメント化することを目的としている。
一般化された3D参照式(3D-GRES)は、自然言語命令に基づいて任意の数のインスタンスをセグメントする機能を拡張する。
論文 参考訳(メタデータ) (2024-07-30T08:59:05Z) - SegPoint: Segment Any Point Cloud via Large Language Model [62.69797122055389]
我々は,多種多様なタスクにまたがるポイントワイドセグメンテーションマスクを生成するSegPointと呼ばれるモデルを提案する。
SegPointは、単一のフレームワーク内でさまざまなセグメンテーションタスクに対処する最初のモデルである。
論文 参考訳(メタデータ) (2024-07-18T17:58:03Z) - Segment Any 3D Object with Language [58.471327490684295]
本稿では,Segment any 3D Object with LanguagE (SOLE)を紹介した。
具体的には、バックボーンとデコーダの両方にマルチモーダル意味を組み込むマルチモーダル融合ネットワークを提案する。
我々のSOLEは、ScanNetv2、ScanNet200、Replicaベンチマークにおいて、従来の方法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2024-04-02T17:59:10Z) - LiDAR-BEVMTN: Real-Time LiDAR Bird's-Eye View Multi-Task Perception Network for Autonomous Driving [12.713417063678335]
本稿では,LiDARに基づくオブジェクト検出,意味論,動作セグメンテーションのためのリアルタイムマルチタスク畳み込みニューラルネットワークを提案する。
オブジェクト検出を選択的に改善するためのセマンティック・ウェイト・アンド・ガイダンス(SWAG)モジュールを提案する。
我々は,2つのタスク,セマンティックとモーションセグメンテーション,および3Dオブジェクト検出のための最先端性能に近い2つのタスクに対して,最先端の結果を得る。
論文 参考訳(メタデータ) (2023-07-17T21:22:17Z) - A Simple Framework for Open-Vocabulary Segmentation and Detection [85.21641508535679]
我々は,異なるセグメンテーションと検出データセットから共同で学習する,シンプルなオープン語彙検出フレームワークOpenSeeDを提案する。
まず、事前学習されたテキストエンコーダを導入し、視覚概念を2つのタスクにエンコードし、それらの共通意味空間を学習する。
プレトレーニング後,本モデルでは,セグメンテーションと検出の両方において,競争力あるいは強いゼロショット転送性を示す。
論文 参考訳(メタデータ) (2023-03-14T17:58:34Z) - AOP-Net: All-in-One Perception Network for Joint LiDAR-based 3D Object
Detection and Panoptic Segmentation [9.513467995188634]
AOP-NetはLiDARベースのマルチタスクフレームワークで、3Dオブジェクトの検出とパノプティクスのセグメンテーションを組み合わせたものである。
AOP-Netは、nuScenesベンチマークにおける3Dオブジェクト検出とパノプティクスセグメンテーションの両タスクについて、最先端のパフォーマンスを達成している。
論文 参考訳(メタデータ) (2023-02-02T05:31:53Z) - LidarMultiNet: Towards a Unified Multi-Task Network for LiDAR Perception [15.785527155108966]
LidarMultiNetは、LiDARベースのマルチタスクネットワークで、3Dオブジェクトの検出、セマンティックセグメンテーション、およびパノプティックセグメンテーションを統合する。
LidarMultiNetの中核には、Global Context Pooling (GCP)モジュールを備えた強力な3Dボクセルベースのエンコーダデコーダアーキテクチャがある。
LidarMultiNetはOpenデータセットとnuScenesデータセットの両方で広くテストされている。
論文 参考訳(メタデータ) (2022-09-19T23:39:15Z) - (AF)2-S3Net: Attentive Feature Fusion with Adaptive Feature Selection
for Sparse Semantic Segmentation Network [3.6967381030744515]
3次元LiDARセマンティックセマンティックセグメンテーションのためのエンコーダ-デコーダCNNネットワークであるAF2-S3Netを提案する。
本稿では、エンコーダに新しいマルチブランチ注意機能融合モジュール、デコーダに特徴マップを再重み付けしたユニークな適応機能選択モジュールを提案する。
実験の結果,提案手法は大規模セマンティックKITTIベンチマークにおける最先端手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-02-08T21:04:21Z) - LiDAR-based Panoptic Segmentation via Dynamic Shifting Network [56.71765153629892]
LiDARベースのパノプティカルセグメンテーションは、オブジェクトとシーンを統一的に解析することを目的としている。
本稿では,ポイントクラウド領域における効果的な単視分割フレームワークとして機能する動的シフトネットワーク(DS-Net)を提案する。
提案するDS-Netは,現在の最先端手法よりも優れた精度を実現する。
論文 参考訳(メタデータ) (2020-11-24T08:44:46Z) - DoDNet: Learning to segment multi-organ and tumors from multiple
partially labeled datasets [102.55303521877933]
本稿では,複数の臓器と腫瘍を部分的にラベル付けしたデータセット上に分割する動的オンデマンドネットワーク(DoDNet)を提案する。
DoDNetは共有エンコーダデコーダアーキテクチャ、タスク符号化モジュール、動的畳み込みフィルタを生成するコントローラ、そして単一だが動的セグメンテーションヘッドで構成されている。
論文 参考訳(メタデータ) (2020-11-20T04:56:39Z) - JSENet: Joint Semantic Segmentation and Edge Detection Network for 3D
Point Clouds [37.703770427574476]
本稿では,初めて3次元意味的エッジ検出タスクに取り組む。
本稿では,2つのタスクを共同で行う2ストリーム完全畳み込みネットワークを提案する。
特に,両タスクの性能向上のために,領域情報とエッジ情報を明示的に関連付ける共同改良モジュールを設計する。
論文 参考訳(メタデータ) (2020-07-14T08:00:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。