論文の概要: MSeg3D: Multi-modal 3D Semantic Segmentation for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2303.08600v1
- Date: Wed, 15 Mar 2023 13:13:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-16 13:40:48.447687
- Title: MSeg3D: Multi-modal 3D Semantic Segmentation for Autonomous Driving
- Title(参考訳): mseg3d: 自動運転のためのマルチモーダル3dセマンティクスセグメンテーション
- Authors: Jiale Li, Hang Dai, Hao Han, Yong Ding
- Abstract要約: マルチモーダルな3次元セマンティックセグメンテーションモデル(MSeg3D)を提案する。
MSeg3Dは依然として堅牢性を示し、LiDARのみのベースラインを改善している。
- 参考スコア(独自算出の注目度): 15.36416000750147
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LiDAR and camera are two modalities available for 3D semantic segmentation in
autonomous driving. The popular LiDAR-only methods severely suffer from
inferior segmentation on small and distant objects due to insufficient laser
points, while the robust multi-modal solution is under-explored, where we
investigate three crucial inherent difficulties: modality heterogeneity,
limited sensor field of view intersection, and multi-modal data augmentation.
We propose a multi-modal 3D semantic segmentation model (MSeg3D) with joint
intra-modal feature extraction and inter-modal feature fusion to mitigate the
modality heterogeneity. The multi-modal fusion in MSeg3D consists of
geometry-based feature fusion GF-Phase, cross-modal feature completion, and
semantic-based feature fusion SF-Phase on all visible points. The multi-modal
data augmentation is reinvigorated by applying asymmetric transformations on
LiDAR point cloud and multi-camera images individually, which benefits the
model training with diversified augmentation transformations. MSeg3D achieves
state-of-the-art results on nuScenes, Waymo, and SemanticKITTI datasets. Under
the malfunctioning multi-camera input and the multi-frame point clouds input,
MSeg3D still shows robustness and improves the LiDAR-only baseline. Our code is
publicly available at \url{https://github.com/jialeli1/lidarseg3d}.
- Abstract(参考訳): LiDARとカメラは、自律運転における3Dセマンティックセグメンテーションのための2つのモダリティである。
広汎なlidarのみの手法は,レーザ点不足による小・遠方の物体のセグメンテーションの低下に苦しむが,ロバストなマルチモーダル溶液は未検討であり,モダリティの不均一性,センサ領域の制限,マルチモーダルデータ拡張の3つの重要な本質的困難について検討する。
本稿では,モーダル内特徴抽出とモーダル間特徴融合を併用したマルチモーダル3次元意味セグメンテーションモデル(mseg3d)を提案する。
MSeg3Dのマルチモーダル融合は、幾何に基づく特徴融合GF-Phase、クロスモーダル特徴完備化、およびすべての可視点における意味に基づく特徴融合SF-Phaseからなる。
マルチモーダルデータ拡張は、LiDARポイントクラウドとマルチカメライメージに非対称変換を個別に適用することで再活性化され、多様化された拡張変換によるモデルトレーニングの恩恵を受ける。
MSeg3Dは、nuScenes、Waymo、SemanticKITTIデータセットに関する最先端の結果を達成する。
故障するマルチカメラ入力とマルチフレームのクラウド入力では、MSeg3Dはロバスト性を示し、LiDARのみのベースラインを改善する。
我々のコードは \url{https://github.com/jialeli1/lidarseg3d} で公開されている。
関連論文リスト
- Multi-modal Relation Distillation for Unified 3D Representation Learning [30.942281325891226]
マルチモーダルリレーショナル蒸留(Multi-modal Relation Distillation、MRD)は、3次元バックボーンに再生可能な大型ビジョンランゲージモデル(VLM)を蒸留するために設計された3次元事前学習フレームワークである。
MRDは、各モダリティ内の関係と異なるモダリティ間の相互関係をキャプチャし、より差別的な3D形状表現を作り出すことを目的としている。
論文 参考訳(メタデータ) (2024-07-19T03:43:48Z) - mmFUSION: Multimodal Fusion for 3D Objects Detection [18.401155770778757]
マルチセンサー融合は、自動運転システムにおける正確な3次元物体検出に不可欠である。
本稿では,これらの課題を克服するために,新たな中間レベルマルチモーダル融合手法を提案する。
mmdetection3Dプロジェクトプラグインのコードは近く公開される予定だ。
論文 参考訳(メタデータ) (2023-11-07T15:11:27Z) - UniM$^2$AE: Multi-modal Masked Autoencoders with Unified 3D Representation for 3D Perception in Autonomous Driving [47.590099762244535]
Masked Autoencoders (MAE)は、強力な表現の学習において重要な役割を担い、様々な3D知覚タスクにおいて優れた結果をもたらす。
この研究は、自律運転における統一された表現空間に適したマルチモーダルのMasked Autoencodersに展開する。
画像に固有のセマンティクスとLiDAR点雲の幾何学的複雑さを複雑に結合するため,UniM$2$AEを提案する。
論文 参考訳(メタデータ) (2023-08-21T02:13:40Z) - Beyond First Impressions: Integrating Joint Multi-modal Cues for
Comprehensive 3D Representation [72.94143731623117]
既存の方法は、単に3D表現を単一ビューの2D画像と粗い親カテゴリテキストに整列させる。
十分でないシナジーは、堅牢な3次元表現は共同視覚言語空間と一致すべきという考えを無視している。
我々は,JM3Dと呼ばれる多視点共同モダリティモデリング手法を提案し,点雲,テキスト,画像の統一表現を求める。
論文 参考訳(メタデータ) (2023-08-06T01:11:40Z) - SimDistill: Simulated Multi-modal Distillation for BEV 3D Object
Detection [56.24700754048067]
多視点カメラによる3Dオブジェクト検出は低コストで普及しているが、カメラデータのみから正確に3D形状を推定することは依然として困難である。
モデルアーキテクチャと蒸留戦略を慎重に構築し,シミュレートされたマルチモーダル蒸留(SimDistill)法を提案する。
我々のSimDistillは、コスト効率のよいカメラのみの配置を維持しながら、3Dオブジェクト検出のためのより良い特徴表現を学習することができる。
論文 参考訳(メタデータ) (2023-03-29T16:08:59Z) - Homogeneous Multi-modal Feature Fusion and Interaction for 3D Object
Detection [16.198358858773258]
マルチモーダル3D物体検出は、自律運転において活発な研究課題となっている。
スパース3D点と高密度2Dピクセルの相互特徴融合を探索するのは簡単ではない。
最近のアプローチでは、画像特徴と2次元画像平面に投影される点雲の特徴を融合させるか、スパース点雲と高密度画像画素を組み合わせるかのどちらかである。
論文 参考訳(メタデータ) (2022-10-18T06:15:56Z) - MSMDFusion: Fusing LiDAR and Camera at Multiple Scales with Multi-Depth
Seeds for 3D Object Detection [89.26380781863665]
自律運転システムにおける高精度で信頼性の高い3次元物体検出を実現するためには,LiDARとカメラ情報の融合が不可欠である。
近年のアプローチでは、2次元カメラ画像の3次元空間への昇華点によるカメラ特徴のセマンティックな密度の探索が試みられている。
マルチグラニュラリティLiDARとカメラ機能とのマルチスケールなプログレッシブインタラクションに焦点を当てた,新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-09-07T12:29:29Z) - DeepFusion: Lidar-Camera Deep Fusion for Multi-Modal 3D Object Detection [83.18142309597984]
ライダーとカメラは、自動運転における3D検出を補完する情報を提供する重要なセンサーである。
我々はDeepFusionという名前の汎用マルチモーダル3D検出モデル群を開発した。
論文 参考訳(メタデータ) (2022-03-15T18:46:06Z) - Exploring Data Augmentation for Multi-Modality 3D Object Detection [82.9988604088494]
ポイントクラウドとイメージに基づくマルチモダリティメソッドは、ポイントクラウドのみを使用するアプローチよりも、わずかに良いか、時には悪いだけである。
トランスフォーメーションフローと呼ばれるパイプラインを提案し、トランスフォーメーションのリバースとリプレイによってシングルモードとマルチモードのデータ拡張のギャップを埋める。
また,本手法は第3回nuScenes検出チャレンジでPKL賞を受賞した。
論文 参考訳(メタデータ) (2020-12-23T15:23:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。