論文の概要: MSeg3D: Multi-modal 3D Semantic Segmentation for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2303.08600v1
- Date: Wed, 15 Mar 2023 13:13:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-16 13:40:48.447687
- Title: MSeg3D: Multi-modal 3D Semantic Segmentation for Autonomous Driving
- Title(参考訳): mseg3d: 自動運転のためのマルチモーダル3dセマンティクスセグメンテーション
- Authors: Jiale Li, Hang Dai, Hao Han, Yong Ding
- Abstract要約: マルチモーダルな3次元セマンティックセグメンテーションモデル(MSeg3D)を提案する。
MSeg3Dは依然として堅牢性を示し、LiDARのみのベースラインを改善している。
- 参考スコア(独自算出の注目度): 15.36416000750147
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LiDAR and camera are two modalities available for 3D semantic segmentation in
autonomous driving. The popular LiDAR-only methods severely suffer from
inferior segmentation on small and distant objects due to insufficient laser
points, while the robust multi-modal solution is under-explored, where we
investigate three crucial inherent difficulties: modality heterogeneity,
limited sensor field of view intersection, and multi-modal data augmentation.
We propose a multi-modal 3D semantic segmentation model (MSeg3D) with joint
intra-modal feature extraction and inter-modal feature fusion to mitigate the
modality heterogeneity. The multi-modal fusion in MSeg3D consists of
geometry-based feature fusion GF-Phase, cross-modal feature completion, and
semantic-based feature fusion SF-Phase on all visible points. The multi-modal
data augmentation is reinvigorated by applying asymmetric transformations on
LiDAR point cloud and multi-camera images individually, which benefits the
model training with diversified augmentation transformations. MSeg3D achieves
state-of-the-art results on nuScenes, Waymo, and SemanticKITTI datasets. Under
the malfunctioning multi-camera input and the multi-frame point clouds input,
MSeg3D still shows robustness and improves the LiDAR-only baseline. Our code is
publicly available at \url{https://github.com/jialeli1/lidarseg3d}.
- Abstract(参考訳): LiDARとカメラは、自律運転における3Dセマンティックセグメンテーションのための2つのモダリティである。
広汎なlidarのみの手法は,レーザ点不足による小・遠方の物体のセグメンテーションの低下に苦しむが,ロバストなマルチモーダル溶液は未検討であり,モダリティの不均一性,センサ領域の制限,マルチモーダルデータ拡張の3つの重要な本質的困難について検討する。
本稿では,モーダル内特徴抽出とモーダル間特徴融合を併用したマルチモーダル3次元意味セグメンテーションモデル(mseg3d)を提案する。
MSeg3Dのマルチモーダル融合は、幾何に基づく特徴融合GF-Phase、クロスモーダル特徴完備化、およびすべての可視点における意味に基づく特徴融合SF-Phaseからなる。
マルチモーダルデータ拡張は、LiDARポイントクラウドとマルチカメライメージに非対称変換を個別に適用することで再活性化され、多様化された拡張変換によるモデルトレーニングの恩恵を受ける。
MSeg3Dは、nuScenes、Waymo、SemanticKITTIデータセットに関する最先端の結果を達成する。
故障するマルチカメラ入力とマルチフレームのクラウド入力では、MSeg3Dはロバスト性を示し、LiDARのみのベースラインを改善する。
我々のコードは \url{https://github.com/jialeli1/lidarseg3d} で公開されている。
関連論文リスト
- Homogeneous Multi-modal Feature Fusion and Interaction for 3D Object
Detection [16.198358858773258]
マルチモーダル3D物体検出は、自律運転において活発な研究課題となっている。
スパース3D点と高密度2Dピクセルの相互特徴融合を探索するのは簡単ではない。
最近のアプローチでは、画像特徴と2次元画像平面に投影される点雲の特徴を融合させるか、スパース点雲と高密度画像画素を組み合わせるかのどちらかである。
論文 参考訳(メタデータ) (2022-10-18T06:15:56Z) - MSMDFusion: Fusing LiDAR and Camera at Multiple Scales with Multi-Depth
Seeds for 3D Object Detection [89.26380781863665]
自律運転システムにおける高精度で信頼性の高い3次元物体検出を実現するためには,LiDARとカメラ情報の融合が不可欠である。
近年のアプローチでは、2次元カメラ画像の3次元空間への昇華点によるカメラ特徴のセマンティックな密度の探索が試みられている。
マルチグラニュラリティLiDARとカメラ機能とのマルチスケールなプログレッシブインタラクションに焦点を当てた,新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-09-07T12:29:29Z) - Unifying Voxel-based Representation with Transformer for 3D Object
Detection [143.91910747605107]
マルチモード3Dオブジェクト検出のための統一フレームワークUVTRを提案する。
提案手法は, ボクセル空間におけるマルチモーダリティ表現を統一し, 高精度かつ堅牢な単一モード・クロスモーダリティ3D検出を実現することを目的とする。
UVTRは、69.7%、55.1%、71.1%のNDSで、それぞれLiDAR、カメラ、マルチモダリティの入力を行う。
論文 参考訳(メタデータ) (2022-06-01T17:02:40Z) - Weakly Aligned Feature Fusion for Multimodal Object Detection [52.15436349488198]
マルチモーダルデータはしばしば位置ずれの問題に悩まされます。つまり、イメージペアは厳密に一致していません。
この問題により、マルチモーダルな特徴を融合させることが難しくなり、畳み込みニューラルネットワーク(CNN)のトレーニングが難解になる。
本稿では、位置ずれ問題に対処するために、アライメント領域CNN(AR-CNN)と呼ばれる汎用マルチモーダル検出器を提案する。
論文 参考訳(メタデータ) (2022-04-21T02:35:23Z) - CAT-Det: Contrastively Augmented Transformer for Multi-modal 3D Object
Detection [32.06145370498289]
マルチモーダル3Dオブジェクト検出(CAT-Det)のためのコントラスト変換器を提案する。
CAT-DetはPointformer (PT) ブランチと Imageformer (IT) ブランチとCMT (Cross-Modal Transformer) モジュールで構成される2ストリーム構造を採用している。
本稿では,一方向マルチモーダルデータ拡張(OMDA)手法を提案する。
論文 参考訳(メタデータ) (2022-04-01T10:07:25Z) - DeepFusion: Lidar-Camera Deep Fusion for Multi-Modal 3D Object Detection [83.18142309597984]
ライダーとカメラは、自動運転における3D検出を補完する情報を提供する重要なセンサーである。
我々はDeepFusionという名前の汎用マルチモーダル3D検出モデル群を開発した。
論文 参考訳(メタデータ) (2022-03-15T18:46:06Z) - EPNet++: Cascade Bi-directional Fusion for Multi-Modal 3D Object
Detection [56.03081616213012]
本稿では,新しいCasscade Bi-directional Fusion(CB-Fusion)モジュールを導入することで,マルチモーダル3Dオブジェクト検出のためのEPNet++を提案する。
提案したCB-Fusionモジュールは、カスケード双方向相互作用融合方式で画像特徴と点特徴の豊富な意味情報を高める。
KITTI、JRDB、SUN-RGBDデータセットの実験結果は、最先端の手法よりもEPNet++の方が優れていることを示している。
論文 参考訳(メタデータ) (2021-12-21T10:48:34Z) - Sparse-to-dense Feature Matching: Intra and Inter domain Cross-modal
Learning in Domain Adaptation for 3D Semantic Segmentation [46.110739803985076]
ドメイン適応のための多モード情報相互作用の十分性を高めるために,動的スパース・ツー・ディエンス・クロスモーダル学習(DsCML)を提案する。
ドメイン間クロスモーダル学習では,2次元および3次元データ上でのクロスモーダル適応学習(CMAL)をさらに進める。
本研究では,日中・日中・日中・日中・データセットなど,多目的領域適応設定によるモデルの評価を行った。
論文 参考訳(メタデータ) (2021-07-30T15:55:55Z) - FusionPainting: Multimodal Fusion with Adaptive Attention for 3D Object
Detection [15.641616738865276]
本稿では,2次元RGB画像と3次元点群をセマンティックレベルで融合させて3次元物体検出タスクを増強する汎用多モード核融合フレームワークFusionPaintingを提案する。
特にFusionPaintingフレームワークは、マルチモーダルセマンティックセグメンテーションモジュール、アダプティブアテンションベースのセマンティックフュージョンモジュール、および3Dオブジェクト検出器の3つの主要モジュールで構成されている。
提案手法の有効性を,大規模なnuScenes検出ベンチマークで検証した。
論文 参考訳(メタデータ) (2021-06-23T14:53:22Z) - Exploring Data Augmentation for Multi-Modality 3D Object Detection [82.9988604088494]
ポイントクラウドとイメージに基づくマルチモダリティメソッドは、ポイントクラウドのみを使用するアプローチよりも、わずかに良いか、時には悪いだけである。
トランスフォーメーションフローと呼ばれるパイプラインを提案し、トランスフォーメーションのリバースとリプレイによってシングルモードとマルチモードのデータ拡張のギャップを埋める。
また,本手法は第3回nuScenes検出チャレンジでPKL賞を受賞した。
論文 参考訳(メタデータ) (2020-12-23T15:23:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。