論文の概要: Domain Adaptation-Based Crossmodal Knowledge Distillation for 3D Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2509.00379v1
- Date: Sat, 30 Aug 2025 06:34:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.204953
- Title: Domain Adaptation-Based Crossmodal Knowledge Distillation for 3D Semantic Segmentation
- Title(参考訳): ドメイン適応に基づく3次元セマンティックセグメンテーションのためのクロスモーダル知識蒸留
- Authors: Jialiang Kang, Jiawen Wang, Dingsheng Luo,
- Abstract要約: 従来のアプローチは、注釈付きポイントクラウド分析のための広範なデータに依存している。
実世界のイメージデータセットは、十分な可用性と相当なスケールを提供する。
非教師付きドメイン知識蒸留(UDAKD)と特徴と意味に基づく知識蒸留(FSKD)の2つのクロスモーダルな知識蒸留法を提案する。
- 参考スコア(独自算出の注目度): 3.6903284283843942
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Semantic segmentation of 3D LiDAR data plays a pivotal role in autonomous driving. Traditional approaches rely on extensive annotated data for point cloud analysis, incurring high costs and time investments. In contrast, realworld image datasets offer abundant availability and substantial scale. To mitigate the burden of annotating 3D LiDAR point clouds, we propose two crossmodal knowledge distillation methods: Unsupervised Domain Adaptation Knowledge Distillation (UDAKD) and Feature and Semantic-based Knowledge Distillation (FSKD). Leveraging readily available spatio-temporally synchronized data from cameras and LiDARs in autonomous driving scenarios, we directly apply a pretrained 2D image model to unlabeled 2D data. Through crossmodal knowledge distillation with known 2D-3D correspondence, we actively align the output of the 3D network with the corresponding points of the 2D network, thereby obviating the necessity for 3D annotations. Our focus is on preserving modality-general information while filtering out modality-specific details during crossmodal distillation. To achieve this, we deploy self-calibrated convolution on 3D point clouds as the foundation of our domain adaptation module. Rigorous experimentation validates the effectiveness of our proposed methods, consistently surpassing the performance of state-of-the-art approaches in the field.
- Abstract(参考訳): 3次元LiDARデータのセマンティックセグメンテーションは、自動運転において重要な役割を果たす。
従来のアプローチは、ポイントクラウド分析のための広範な注釈付きデータに依存しており、高いコストと時間的投資をもたらしている。
対照的に、現実世界の画像データセットは、十分な可用性と相当なスケールを提供する。
3次元LiDAR点雲の注釈付けの負担を軽減するため,非教師付きドメイン適応知識蒸留 (UDAKD) と特徴と意味に基づく知識蒸留 (FSKD) という2つのクロスモーダルな知識蒸留法を提案する。
自律走行シナリオにおいて、カメラやLiDARから簡単に利用できる時空間同期データを活用することにより、未ラベルの2Dデータに直接事前訓練された2D画像モデルを適用する。
2D-3D対応のクロスモーダルな知識蒸留により、3Dネットワークの出力を2Dネットワークの対応する点と積極的に一致させることで、3Dアノテーションの必要性を回避できる。
我々は, クロスモーダル蒸留において, モーダル比の詳細をフィルタリングしながら, モーダル一般情報の保存に重点を置いている。
これを実現するために、ドメイン適応モジュールの基礎として、3Dポイントクラウドに自己校正された畳み込みをデプロイします。
厳密な実験により提案手法の有効性が検証され、この分野における最先端手法の性能を一貫して上回っている。
関連論文リスト
- CMF-IoU: Multi-Stage Cross-Modal Fusion 3D Object Detection with IoU Joint Prediction [29.7092783661859]
カメラとLiDARセンサーに基づくマルチモーダル手法は、3D検出の分野で大きな注目を集めている。
CMF-IOUと呼ばれる多段階の相互融合3D検出フレームワークを導入し,3次元空間情報と2次元意味情報を整合させることの課題に対処する。
論文 参考訳(メタデータ) (2025-08-18T13:32:07Z) - xMOD: Cross-Modal Distillation for 2D/3D Multi-Object Discovery from 2D motion [4.878192303432336]
DIOD-3Dは2Dモーションを用いた3Dデータにおけるマルチオブジェクト発見のための最初のベースラインである。
xMODは、常に2Dモーションキューを使用しながら、2Dと3Dデータを統合したクロスプラットフォームのトレーニングフレームワークである。
提案手法は,全データセットの2次元オブジェクト発見状態と比較すると,大幅な性能向上をもたらす。
論文 参考訳(メタデータ) (2025-03-19T09:20:35Z) - CleverDistiller: Simple and Spatially Consistent Cross-modal Distillation [7.246959698735599]
CleverDistillerは、自己監督型の2D-to-3D KDフレームワークである。
セマンティックセグメンテーションと3Dオブジェクト検出の両方において、最大10% mIoUで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-03-12T22:18:29Z) - LargeAD: Large-Scale Cross-Sensor Data Pretraining for Autonomous Driving [52.83707400688378]
LargeADは多用途でスケーラブルなフレームワークで、さまざまな現実世界の運転データセットにわたる大規模3D事前トレーニング用に設計されている。
我々のフレームワークは、VFMを利用して2次元画像から意味的にリッチなスーパーピクセルを抽出し、LiDAR点雲に整列して高品質なコントラストサンプルを生成する。
提案手法は,LDARに基づくセグメント化とオブジェクト検出の両面において,線形探索と微調整の両作業において,最先端の手法よりも大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2025-01-07T18:59:59Z) - Cross-modal & Cross-domain Learning for Unsupervised LiDAR Semantic
Segmentation [82.47872784972861]
対象領域における3次元LiDARセマンティックセマンティックセグメンテーション(DLSS)のラベル付けコストを軽減するため、ペア化された2次元画像と3次元LiDARデータに対して、クロスモーダルドメイン適応について検討した。
本稿では,セマンティックアノテーションを持つ2次元データセットとペアだが注釈のない2次元画像と3次元LiDARデータ(ターゲット)が利用できる新しい3DLSS設定について検討する。
このシナリオで3DLSSを実現するために,クロスモーダル・クロスドメイン学習(CoMoDaL)を提案する。
論文 参考訳(メタデータ) (2023-08-05T14:00:05Z) - 3D Point Cloud Pre-training with Knowledge Distillation from 2D Images [128.40422211090078]
本稿では,2次元表現学習モデルから直接知識を取得するために,3次元ポイントクラウド事前学習モデルの知識蒸留手法を提案する。
具体的には、3Dポイントクラウドから概念特徴を抽出し、2D画像からの意味情報と比較するクロスアテンション機構を提案する。
このスキームでは,2次元教師モデルに含まれるリッチな情報から,クラウド事前学習モデルを直接学習する。
論文 参考訳(メタデータ) (2022-12-17T23:21:04Z) - Homography Loss for Monocular 3D Object Detection [54.04870007473932]
ホログラフィーロス(Homography Loss)と呼ばれる,2次元情報と3次元情報の両方を利用する識別可能なロス関数を提案する。
提案手法は,KITTI 3Dデータセットにおいて,他の最先端技術と比較して高い性能を示す。
論文 参考訳(メタデータ) (2022-04-02T03:48:03Z) - Cylindrical and Asymmetrical 3D Convolution Networks for LiDAR-based
Perception [122.53774221136193]
運転時のLiDARに基づく認識のための最先端の手法は、しばしば点雲を2D空間に投影し、2D畳み込みによって処理する。
自然な対策として、3Dボクセル化と3D畳み込みネットワークを利用する方法がある。
本研究では,3次元幾何学的パターンを探索するために,円筒状分割と非対称な3次元畳み込みネットワークを設計する,屋外LiDARセグメンテーションのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-12T06:25:11Z) - Cylinder3D: An Effective 3D Framework for Driving-scene LiDAR Semantic
Segmentation [87.54570024320354]
大規模運転シーンのLiDARセマンティックセマンティックセグメンテーションのための最先端の手法は、しばしば2D空間の点雲を投影して処理する。
3D-to-2Dプロジェクションの問題に取り組むための簡単な解決策は、3D表現を保ち、3D空間の点を処理することである。
我々は3次元シリンダー分割と3次元シリンダー畳み込みに基づくフレームワークをCylinder3Dとして開発し,3次元トポロジの関係と運転シーンの点雲の構造を利用する。
論文 参考訳(メタデータ) (2020-08-04T13:56:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。