論文の概要: Multi-Space Alignments Towards Universal LiDAR Segmentation
- arxiv url: http://arxiv.org/abs/2405.01538v1
- Date: Thu, 2 May 2024 17:59:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-03 15:25:48.820733
- Title: Multi-Space Alignments Towards Universal LiDAR Segmentation
- Title(参考訳): ユニバーサルLiDARセグメンテーションに向けたマルチスペースアライメント
- Authors: Youquan Liu, Lingdong Kong, Xiaoyang Wu, Runnan Chen, Xin Li, Liang Pan, Ziwei Liu, Yuexin Ma,
- Abstract要約: M3Netはマルチタスク、マルチデータセット、マルチモダリティのLiDARセグメンテーションを実現するための1対1のフレームワークである。
まず、さまざまなシーンから異なるタイプのセンサーによって取得された大規模な運転データセットを組み合わせる。
次に、トレーニング中にデータ、特徴、ラベル空間という3つの空間でアライメントを行います。
- 参考スコア(独自算出の注目度): 50.992103482269016
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: A unified and versatile LiDAR segmentation model with strong robustness and generalizability is desirable for safe autonomous driving perception. This work presents M3Net, a one-of-a-kind framework for fulfilling multi-task, multi-dataset, multi-modality LiDAR segmentation in a universal manner using just a single set of parameters. To better exploit data volume and diversity, we first combine large-scale driving datasets acquired by different types of sensors from diverse scenes and then conduct alignments in three spaces, namely data, feature, and label spaces, during the training. As a result, M3Net is capable of taming heterogeneous data for training state-of-the-art LiDAR segmentation models. Extensive experiments on twelve LiDAR segmentation datasets verify our effectiveness. Notably, using a shared set of parameters, M3Net achieves 75.1%, 83.1%, and 72.4% mIoU scores, respectively, on the official benchmarks of SemanticKITTI, nuScenes, and Waymo Open.
- Abstract(参考訳): 強力な堅牢性と一般化性を備えた統一的で汎用的なLiDARセグメンテーションモデルは、安全な自律運転知覚に望ましい。
本研究は,マルチタスク,マルチデータセット,マルチモダリティのLiDARセグメンテーションを,単一のパラメータセットを用いて普遍的に実現するためのフレームワークであるM3Netを提案する。
データ量と多様性をよりうまく活用するために、私たちはまず、さまざまなシーンから異なるタイプのセンサーによって取得された大規模な運転データセットを組み合わせて、トレーニング中にデータ、特徴、ラベル空間という3つの空間でアライメントを実行します。
その結果、M3Netは、最先端のLiDARセグメンテーションモデルをトレーニングするために異種データを使用することができる。
12のLiDARセグメンテーションデータセットに関する大規模な実験により、我々の有効性が確認された。
特に、M3Netは共有パラメータセットを使用して、SemanticKITTI、nuScenes、Waymo Openの公式ベンチマークでそれぞれ75.1%、83.1%、72.4%のmIoUスコアを達成している。
関連論文リスト
- 3DLabelProp: Geometric-Driven Domain Generalization for LiDAR Semantic Segmentation in Autonomous Driving [7.35996217853436]
ドメインの一般化は、トレーニングと推論データセット間のドメインシフトにもかかわらず、ディープラーニングモデルがパフォーマンスを維持する方法を見つけることを目的としている。
これは、堅牢である必要があるモデルや、トレーニングにコストがかかるモデルにとって特に重要です。
本研究は,LiDARセンサの逐次構造を利用した幾何学的アプローチを提案する。
論文 参考訳(メタデータ) (2025-01-24T16:22:35Z) - LiMoE: Mixture of LiDAR Representation Learners from Automotive Scenes [55.33167217384738]
LiMoEは、Mixture of Experts(MoE)パラダイムをLiDARデータ表現学習に統合するフレームワークである。
我々のアプローチは3つの段階からなる: Image-to-LiDAR Pretraining, Contrastive Mixture Learning (CML), Semantic Mixture Supervision (SMS)。
論文 参考訳(メタデータ) (2025-01-07T18:59:58Z) - SM3Det: A Unified Model for Multi-Modal Remote Sensing Object Detection [73.49799596304418]
本稿では,リモートセンシングのためのマルチモーダルデータセットとマルチタスクオブジェクト検出(M2Det)という新しいタスクを提案する。
水平方向または指向方向の物体を、あらゆるセンサーから正確に検出するように設計されている。
この課題は、1)マルチモーダルモデリングの管理に関わるトレードオフ、2)マルチタスク最適化の複雑さに起因する。
論文 参考訳(メタデータ) (2024-12-30T02:47:51Z) - Uni$^2$Det: Unified and Universal Framework for Prompt-Guided Multi-dataset 3D Detection [64.08296187555095]
Uni$2$Detは3D検出のための統一的で普遍的なマルチデータセットトレーニングのためのフレームワークである。
マルチデータセット3D検出のためのマルチステージプロンプトモジュールを提案する。
ゼロショットクロスデータセット転送の結果は,提案手法の一般化能力を検証する。
論文 参考訳(メタデータ) (2024-09-30T17:57:50Z) - MergeOcc: Bridge the Domain Gap between Different LiDARs for Robust Occupancy Prediction [8.993992124170624]
MergeOccは、複数のデータセットを活用することで、異なるLiDARを同時に扱うように開発されている。
MergeOccの有効性は、自動運転車のための2つの顕著なデータセットの実験を通じて検証される。
論文 参考訳(メタデータ) (2024-03-13T13:23:05Z) - Single-Model and Any-Modality for Video Object Tracking [85.83753760853142]
任意のモダリティに対して単一のパラメータセットの統一トラッカーUn-Trackを導入する。
任意のモダリティを扱うために,低ランク因子化および再構成手法を用いて,それらの共通潜時空間を学習する。
我々のUn-Trackは、+6.6M(93M以上)のパラメータを持つ+2.14(21.50以上)のGFLOPを導入することで、DepthTrackデータセット上で、+8.1絶対Fスコアゲインを達成する。
論文 参考訳(メタデータ) (2023-11-27T14:17:41Z) - MV-JAR: Masked Voxel Jigsaw and Reconstruction for LiDAR-Based
Self-Supervised Pre-Training [58.07391711548269]
Masked Voxel Jigsaw and Reconstruction (MV-JAR) method for LiDAR-based self-supervised pre-training
Masked Voxel Jigsaw and Reconstruction (MV-JAR) method for LiDAR-based self-supervised pre-training
論文 参考訳(メタデータ) (2023-03-23T17:59:02Z) - Shared Manifold Learning Using a Triplet Network for Multiple Sensor
Translation and Fusion with Missing Data [2.452410403088629]
コントラスト学習に基づくマルチモーダルアライメントネットワーク(CoMMANet)を提案する。
提案アーキテクチャでは,マルチモーダルな三重項オートエンコーダを用いて,各不均一なモジュラリティの同一クラスのサンプルが互いに近接してマッピングされるように潜在空間をクラスタリングする。
論文 参考訳(メタデータ) (2022-10-25T20:22:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。