論文の概要: Multi-Modal Data-Efficient 3D Scene Understanding for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2405.05258v1
- Date: Wed, 8 May 2024 17:59:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-09 13:45:01.143173
- Title: Multi-Modal Data-Efficient 3D Scene Understanding for Autonomous Driving
- Title(参考訳): 自律運転のための多モードデータ効率3次元シーン理解
- Authors: Lingdong Kong, Xiang Xu, Jiawei Ren, Wenwei Zhang, Liang Pan, Kai Chen, Wei Tsang Ooi, Ziwei Liu,
- Abstract要約: 我々は、異なるLiDARスキャンからレーザービーム操作を統合するフレームワークであるLaserMix++を導入し、データ効率の学習を支援するためにLiDAR-カメラ対応を組み込んだ。
結果は、LaserMix++が完全に教師付き代替よりも優れており、5倍のアノテーションで同等の精度を実現していることを示している。
この大幅な進歩は、LiDARベースの3Dシーン理解システムにおける広範囲なラベル付きデータへの依存を減らすための半教師付きアプローチの可能性を示している。
- 参考スコア(独自算出の注目度): 58.16024314532443
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Efficient data utilization is crucial for advancing 3D scene understanding in autonomous driving, where reliance on heavily human-annotated LiDAR point clouds challenges fully supervised methods. Addressing this, our study extends into semi-supervised learning for LiDAR semantic segmentation, leveraging the intrinsic spatial priors of driving scenes and multi-sensor complements to augment the efficacy of unlabeled datasets. We introduce LaserMix++, an evolved framework that integrates laser beam manipulations from disparate LiDAR scans and incorporates LiDAR-camera correspondences to further assist data-efficient learning. Our framework is tailored to enhance 3D scene consistency regularization by incorporating multi-modality, including 1) multi-modal LaserMix operation for fine-grained cross-sensor interactions; 2) camera-to-LiDAR feature distillation that enhances LiDAR feature learning; and 3) language-driven knowledge guidance generating auxiliary supervisions using open-vocabulary models. The versatility of LaserMix++ enables applications across LiDAR representations, establishing it as a universally applicable solution. Our framework is rigorously validated through theoretical analysis and extensive experiments on popular driving perception datasets. Results demonstrate that LaserMix++ markedly outperforms fully supervised alternatives, achieving comparable accuracy with five times fewer annotations and significantly improving the supervised-only baselines. This substantial advancement underscores the potential of semi-supervised approaches in reducing the reliance on extensive labeled data in LiDAR-based 3D scene understanding systems.
- Abstract(参考訳): 効率的なデータ利用は自動運転車における3Dシーン理解の促進に不可欠である。
そこで本研究では,LDARセマンティックセマンティックセマンティックセマンティクスの半教師付き学習に展開し,運転シーンの空間的先入観とマルチセンサ・コンプリメンテーションを活用して,ラベルなしデータセットの有効性を高めることを目的とした。
我々は、異なるLiDARスキャンからレーザービーム操作を統合する進化したフレームワークであるLaserMix++を紹介し、さらにデータ効率の学習を支援するためにLiDAR-カメラ対応を組み込んだ。
私たちのフレームワークは,マルチモダリティを取り入れた3次元シーンの整合性向上を目的としている。
1) 微細なクロスセンサインタラクションのためのマルチモーダルレーザーMix演算
2)LiDAR特徴学習を強化したカメラ対LiDAR特徴蒸留
3)オープン語彙モデルを用いた言語駆動型知識指導による補助的指導
LaserMix++の汎用性は、LiDAR表現をまたいだアプリケーションを可能にし、広く適用可能なソリューションとして確立する。
我々のフレームワークは、理論解析と一般的な駆動認識データセットに関する広範な実験を通じて、厳密に検証されている。
結果は、LaserMix++が完全に教師付きされた代替案よりも優れており、アノテーションの5倍少ない精度で同等の精度を実現し、教師付きのみのベースラインを大幅に改善していることを示している。
この大幅な進歩は、LiDARベースの3Dシーン理解システムにおける広範囲なラベル付きデータへの依存を減らすための半教師付きアプローチの可能性を示している。
関連論文リスト
- 4D Contrastive Superflows are Dense 3D Representation Learners [62.433137130087445]
我々は,LiDARとカメラのペアを連続的に利用して事前学習の目的を確立するための,新しいフレームワークであるSuperFlowを紹介する。
学習効率をさらに向上するため,カメラビューから抽出した知識の整合性を高めるプラグイン・アンド・プレイ・ビュー・一貫性モジュールを組み込んだ。
論文 参考訳(メタデータ) (2024-07-08T17:59:54Z) - Talk to Parallel LiDARs: A Human-LiDAR Interaction Method Based on 3D Visual Grounding [16.01111155569546]
並列LiDARに3D視覚グラウンドタスクを導入し、LiDARシステムのための新しいヒューマン・コンピュータインタラクションパラダイムを提案する。
本研究では,自律運転における3次元視覚的接地に適した大規模ベンチマークデータセットであるTalk2LiDARを提案する。
Talk2Car-3DおよびTalk2LiDARデータセットに関する実験は、BEVの優れた性能を示す。
論文 参考訳(メタデータ) (2024-05-24T07:00:45Z) - ODM3D: Alleviating Foreground Sparsity for Semi-Supervised Monocular 3D
Object Detection [15.204935788297226]
ODM3Dフレームワークは、トレーニング中にLiDARドメインの知識を単分子検出器に注入するために、様々なレベルでのクロスモーダルな知識蒸留を必要とする。
既存手法の準最適トレーニングの主要因として,前景の空間空間を同定することにより,LiDAR点に埋め込まれた正確な位置化情報を活用する。
KITTI検証とテストベンチマークの両方で1位にランクインし、教師付きまたは半教師付きである既存のモノクラー手法をはるかに上回っている。
論文 参考訳(メタデータ) (2023-10-28T07:12:09Z) - Monocular 3D Object Detection with LiDAR Guided Semi Supervised Active
Learning [2.16117348324501]
LiDAR誘導を用いたモノクロ3次元物体検出のための新しい半教師付き能動学習フレームワーク(SSAL)を提案する。
我々はLiDARを用いて、単分子型3D検出器のデータ選択とトレーニングを、推論フェーズのオーバーヘッドを伴わずにガイドする。
トレーニング戦略は,BEV平均精度(AP)を2.02倍に向上させることで,KITTI 3Dと鳥眼視(BEV)単眼物体検出の公式ベンチマークでトップとなる。
論文 参考訳(メタデータ) (2023-07-17T11:55:27Z) - Efficient Spatial-Temporal Information Fusion for LiDAR-Based 3D Moving
Object Segmentation [23.666607237164186]
本稿では,LiDAR-MOSの性能向上のために,空間時空間情報とLiDARスキャンの異なる表現モダリティを併用した新しいディープニューラルネットワークを提案する。
具体的には、まず、空間情報と時間情報とを別々に扱うために、レンジ画像に基づくデュアルブランチ構造を用いる。
また、3次元スパース畳み込みによるポイントリファインメントモジュールを使用して、LiDAR範囲の画像とポイントクラウド表現の両方からの情報を融合する。
論文 参考訳(メタデータ) (2022-07-05T17:59:17Z) - LaserMix for Semi-Supervised LiDAR Semantic Segmentation [56.73779694312137]
We study the underexplored semi-supervised learning (SSL) in LiDAR segmentation。
当社の中核となる考え方は、LiDAR点雲の強い空間的手がかりを活用して、ラベルのないデータをうまく活用することです。
我々は、異なるLiDARスキャンからレーザービームを混合し、一貫性と自信のある予測を行うことを奨励するLaserMixを提案する。
論文 参考訳(メタデータ) (2022-06-30T18:00:04Z) - Boosting 3D Object Detection by Simulating Multimodality on Point Clouds [51.87740119160152]
本稿では,LiDAR 画像検出器に追従する特徴や応答をシミュレートすることで,単一モダリティ (LiDAR) 3次元物体検出器を高速化する新しい手法を提案する。
このアプローチでは、単一モダリティ検出器をトレーニングする場合のみ、LiDARイメージデータを必要とし、十分にトレーニングされた場合には、推論時にのみLiDARデータが必要である。
nuScenesデータセットの実験結果から,本手法はSOTA LiDARのみの3D検出器よりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-06-30T01:44:30Z) - LiDAR Distillation: Bridging the Beam-Induced Domain Gap for 3D Object
Detection [96.63947479020631]
多くの現実世界の応用において、大量生産されたロボットや車両が使用するLiDARポイントは通常、大規模な公開データセットよりもビームが少ない。
異なるLiDARビームによって誘導される領域ギャップをブリッジして3次元物体検出を行うLiDAR蒸留法を提案する。
論文 参考訳(メタデータ) (2022-03-28T17:59:02Z) - Learning Moving-Object Tracking with FMCW LiDAR [53.05551269151209]
新たに開発したLiDARセンサである周波数変調連続波(FMCW)を用いた学習型移動物体追跡手法を提案する。
ラベルが与えられた場合,同じインスタンスから機能を埋め込みスペースにまとめて,異なるインスタンスから機能を分離してトラッキング品質を向上させる,対照的な学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-02T09:11:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。