論文の概要: MASS: Multi-Attentional Semantic Segmentation of LiDAR Data for Dense
Top-View Understanding
- arxiv url: http://arxiv.org/abs/2107.00346v1
- Date: Thu, 1 Jul 2021 10:19:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-02 13:36:20.766335
- Title: MASS: Multi-Attentional Semantic Segmentation of LiDAR Data for Dense
Top-View Understanding
- Title(参考訳): 高密度トップビュー理解のためのlidarデータの多視点意味セグメンテーション
- Authors: Kunyu Peng, Juncong Fei, Kailun Yang, Alina Roitberg, Jiaming Zhang,
Frank Bieder, Philipp Heidenreich, Christoph Stiller, Rainer Stiefelhagen
- Abstract要約: 運転シーンの高密度トップビュー理解のためのマルチアテンショナルセマンティックモデルMASSを紹介する。
本フレームワークは柱状および占有的特徴に基づいており、3つの注目型ビルディングブロックから構成されている。
本モデルは,KITTI-3Dデータセット上での3次元物体検出に極めて有効であることが示されている。
- 参考スコア(独自算出の注目度): 27.867824780748606
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: At the heart of all automated driving systems is the ability to sense the
surroundings, e.g., through semantic segmentation of LiDAR sequences, which
experienced a remarkable progress due to the release of large datasets such as
SemanticKITTI and nuScenes-LidarSeg. While most previous works focus on sparse
segmentation of the LiDAR input, dense output masks provide self-driving cars
with almost complete environment information. In this paper, we introduce MASS
- a Multi-Attentional Semantic Segmentation model specifically built for dense
top-view understanding of the driving scenes. Our framework operates on pillar-
and occupancy features and comprises three attention-based building blocks: (1)
a keypoint-driven graph attention, (2) an LSTM-based attention computed from a
vector embedding of the spatial input, and (3) a pillar-based attention,
resulting in a dense 360-degree segmentation mask. With extensive experiments
on both, SemanticKITTI and nuScenes-LidarSeg, we quantitatively demonstrate the
effectiveness of our model, outperforming the state of the art by 19.0% on
SemanticKITTI and reaching 32.7% in mIoU on nuScenes-LidarSeg, where MASS is
the first work addressing the dense segmentation task. Furthermore, our
multi-attention model is shown to be very effective for 3D object detection
validated on the KITTI-3D dataset, showcasing its high generalizability to
other tasks related to 3D vision.
- Abstract(参考訳): すべての自動運転システムの中心には、例えばLiDARシーケンスのセマンティックセグメンテーションを通じて周囲を検知する機能があり、これはSemanticKITTIやnuScenes-LidarSegのような大規模なデータセットのリリースによって顕著に進歩した。
これまでのほとんどの研究は、LiDAR入力のスパースセグメンテーションに焦点を当てていたが、高密度出力マスクは、ほぼ完全な環境情報を備えた自動運転車を提供する。
本稿では,運転シーンの高精細なトップビュー理解のために特別に構築されたマルチアテンショナルセマンティクスセグメンテーションモデルであるmassを提案する。
本フレームワークは,(1)キーポイント駆動型グラフアテンション,(2)空間入力のベクトル埋め込みから計算したLSTMベースのアテンション,(3)柱ベースのアテンションという3つのアテンションベースビルディングブロックで構成され,それによって高密度な360度セグメンテーションマスクが生成される。
SemanticKITTI と nuScenes-LidarSeg の双方に関する広範な実験により、我々のモデルの有効性を定量的に証明し、SemanticKITTI では 19.0% 、nuScenes-LidarSeg では 32.7% に到達した。
さらに,このマルチアテンションモデルは,KITTI-3Dデータセット上で検証された3次元物体検出に非常に有効であることが示され,その高一般化性を示す。
関連論文リスト
- S3PT: Scene Semantics and Structure Guided Clustering to Boost Self-Supervised Pre-Training for Autonomous Driving [12.406655155106424]
そこで本稿では,S3PTによるシーンセマンティクスと構造案内クラスタリングを提案する。
まず、セマンティックな分布一貫したクラスタリングを取り入れて、オートバイや動物のような稀なクラスをよりよく表現できるようにします。
第2に,広い背景領域から歩行者や交通標識などの小さな物体まで,不均衡で多様な物体の大きさを扱うために,一貫した空間クラスタリングを導入する。
第3に,シーンの幾何学的情報に基づいて学習を規則化するための深度誘導空間クラスタリングを提案する。
論文 参考訳(メタデータ) (2024-10-30T15:00:06Z) - Leveraging Large-Scale Pretrained Vision Foundation Models for
Label-Efficient 3D Point Cloud Segmentation [67.07112533415116]
本稿では3Dポイントクラウドセグメンテーションタスクに様々な基礎モデルを適用する新しいフレームワークを提案する。
我々のアプローチでは、異なる大きな視覚モデルを用いて2次元セマンティックマスクの初期予測を行う。
本研究では,ロバストな3Dセマンティックな擬似ラベルを生成するために,投票による全ての結果を効果的に組み合わせたセマンティックなラベル融合戦略を提案する。
論文 参考訳(メタデータ) (2023-11-03T15:41:15Z) - LiDAR-BEVMTN: Real-Time LiDAR Bird's-Eye View Multi-Task Perception Network for Autonomous Driving [12.713417063678335]
本稿では,LiDARに基づくオブジェクト検出,意味論,動作セグメンテーションのためのリアルタイムマルチタスク畳み込みニューラルネットワークを提案する。
オブジェクト検出を選択的に改善するためのセマンティック・ウェイト・アンド・ガイダンス(SWAG)モジュールを提案する。
我々は,2つのタスク,セマンティックとモーションセグメンテーション,および3Dオブジェクト検出のための最先端性能に近い2つのタスクに対して,最先端の結果を得る。
論文 参考訳(メタデータ) (2023-07-17T21:22:17Z) - Semi-Weakly Supervised Object Kinematic Motion Prediction [56.282759127180306]
3Dオブジェクトが与えられた場合、運動予測は移動部と対応する運動パラメータを識別することを目的としている。
階層的部分分割と移動部パラメータのマップを学習するグラフニューラルネットワークを提案する。
ネットワーク予測は、擬似ラベル付き移動情報を持つ大規模な3Dオブジェクトを生成する。
論文 参考訳(メタデータ) (2023-03-31T02:37:36Z) - LWSIS: LiDAR-guided Weakly Supervised Instance Segmentation for
Autonomous Driving [34.119642131912485]
より巧妙なフレームワークであるLiDAR誘導弱監視インスタンス(LWSIS)を提示する。
LWSISは市販の3Dデータ、すなわちポイントクラウドと3Dボックスを2Dイメージインスタンスセグメンテーションモデルをトレーニングするための自然な弱い監督手段として使用している。
我々のLWSISは、訓練中のマルチモーダルデータの補完情報を利用するだけでなく、密集した2Dマスクのコストを大幅に削減します。
論文 参考訳(メタデータ) (2022-12-07T08:08:01Z) - Towards Multimodal Multitask Scene Understanding Models for Indoor
Mobile Agents [49.904531485843464]
本稿では,現実世界の屋内環境におけるラベル付きデータの不十分,あるいは不可能,といった主な課題について論じる。
MMISM (Multi-modality input Multi-task output Indoor Scene Understanding Model) について述べる。
MMISMは、RGB画像だけでなく、スパースライダーポイントを入力と3Dオブジェクト検出、深さ完了、人間のポーズ推定、セマンティックセグメンテーションを出力タスクとみなしている。
MMISMはシングルタスクモデルよりも同等かそれ以上の性能を示す。
論文 参考訳(メタデータ) (2022-09-27T04:49:19Z) - Three Ways to Improve Semantic Segmentation with Self-Supervised Depth
Estimation [90.87105131054419]
ラベルなし画像列からの自己教師付き単眼深度推定により強化された半教師付きセマンティックセマンティックセマンティックセマンティクスのフレームワークを提案する。
提案されたモデルをCityscapesデータセット上で検証する。
論文 参考訳(メタデータ) (2020-12-19T21:18:03Z) - LiDAR-based Panoptic Segmentation via Dynamic Shifting Network [56.71765153629892]
LiDARベースのパノプティカルセグメンテーションは、オブジェクトとシーンを統一的に解析することを目的としている。
本稿では,ポイントクラウド領域における効果的な単視分割フレームワークとして機能する動的シフトネットワーク(DS-Net)を提案する。
提案するDS-Netは,現在の最先端手法よりも優れた精度を実現する。
論文 参考訳(メタデータ) (2020-11-24T08:44:46Z) - Improving Point Cloud Semantic Segmentation by Learning 3D Object
Detection [102.62963605429508]
ポイントクラウドセマンティックセグメンテーションは、自動運転において重要な役割を果たす。
現在の3Dセマンティックセグメンテーションネットワークは、よく表現されたクラスに対して優れた性能を発揮する畳み込みアーキテクチャに焦点を当てている。
Aware 3D Semantic Detection (DASS) フレームワークを提案する。
論文 参考訳(メタデータ) (2020-09-22T14:17:40Z) - SegVoxelNet: Exploring Semantic Context and Depth-aware Features for 3D
Vehicle Detection from Point Cloud [39.99118618229583]
上記の2つの問題に対処する統合モデルSegVoxelNetを提案する。
鳥の視線における自由電荷セマンティックセグメンテーションマスクを活用するために,セマンティックコンテクストエンコーダを提案する。
分布差を明示的にモデル化する新規な深度認識ヘッドを設計し、深度認識ヘッドの各部分を目標検出範囲に集中させる。
論文 参考訳(メタデータ) (2020-02-13T02:42:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。