論文の概要: CMDFusion: Bidirectional Fusion Network with Cross-modality Knowledge
Distillation for LIDAR Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2307.04091v1
- Date: Sun, 9 Jul 2023 04:24:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-11 15:27:47.193142
- Title: CMDFusion: Bidirectional Fusion Network with Cross-modality Knowledge
Distillation for LIDAR Semantic Segmentation
- Title(参考訳): CMDFusion: LIDARセマンティックセマンティックセグメンテーションのための双方向融合ネットワーク
- Authors: Jun Cen, Shiwei Zhang, Yixuan Pei, Kun Li, Hang Zheng, Maochun Luo,
Yingya Zhang, Qifeng Chen
- Abstract要約: 2D RGB画像と3D LIDAR点雲は、自動運転車の知覚システムに補完的な知識を提供する。
LIDARセマンティックセグメンテーションタスクのために、いくつかの2Dおよび3D融合法が検討されているが、それらは異なる問題に悩まされている。
本稿では,クロスモーダル知識蒸留(CMDFusion)を用いた双方向核融合ネットワークを提案する。
- 参考スコア(独自算出の注目度): 44.44327357717908
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: 2D RGB images and 3D LIDAR point clouds provide complementary knowledge for
the perception system of autonomous vehicles. Several 2D and 3D fusion methods
have been explored for the LIDAR semantic segmentation task, but they suffer
from different problems. 2D-to-3D fusion methods require strictly paired data
during inference, which may not be available in real-world scenarios, while
3D-to-2D fusion methods cannot explicitly make full use of the 2D information.
Therefore, we propose a Bidirectional Fusion Network with Cross-Modality
Knowledge Distillation (CMDFusion) in this work. Our method has two
contributions. First, our bidirectional fusion scheme explicitly and implicitly
enhances the 3D feature via 2D-to-3D fusion and 3D-to-2D fusion, respectively,
which surpasses either one of the single fusion schemes. Second, we distillate
the 2D knowledge from a 2D network (Camera branch) to a 3D network (2D
knowledge branch) so that the 3D network can generate 2D information even for
those points not in the FOV (field of view) of the camera. In this way, RGB
images are not required during inference anymore since the 2D knowledge branch
provides 2D information according to the 3D LIDAR input. We show that our
CMDFusion achieves the best performance among all fusion-based methods on
SemanticKITTI and nuScenes datasets. The code will be released at
https://github.com/Jun-CEN/CMDFusion.
- Abstract(参考訳): 2D RGB画像と3D LIDAR点雲は、自動運転車の知覚システムに補完的な知識を提供する。
LIDARセマンティックセグメンテーションタスクのためにいくつかの2Dおよび3D融合法が検討されているが、それらは異なる問題に悩まされている。
2D-to-3D融合法は、実世界のシナリオでは利用できないが、3D-to-2D融合法は2D情報を完全に利用できない。
そこで本研究では,クロスモーダル知識蒸留(CMDFusion)を用いた双方向融合ネットワークを提案する。
我々の方法には2つの貢献がある。
まず,2次元から3次元への融合と3次元から2次元への融合により,両方向の融合スキームは2次元の融合スキームのいずれかを上回る3次元特徴を明確かつ暗黙的に拡張する。
次に、2dネットワーク(カメラブランチ)から3dネットワーク(2d知識ブランチ)への2d知識を蒸留することにより、3dネットワークがカメラのfov(視野領域)にない点でも2d情報を生成することができる。
このようにして、2D知識ブランチは3D LIDAR入力に従って2D情報を提供するため、推論中にRGB画像は不要になる。
我々のCMDFusionは、SemanticKITTIとnuScenesデータセット上のすべてのフュージョンベースのメソッドの中で、最高のパフォーマンスを実現していることを示す。
コードはhttps://github.com/jun-cen/cmdfusionでリリースされる。
関連論文リスト
- Cross-modal & Cross-domain Learning for Unsupervised LiDAR Semantic
Segmentation [82.47872784972861]
対象領域における3次元LiDARセマンティックセマンティックセグメンテーション(DLSS)のラベル付けコストを軽減するため、ペア化された2次元画像と3次元LiDARデータに対して、クロスモーダルドメイン適応について検討した。
本稿では,セマンティックアノテーションを持つ2次元データセットとペアだが注釈のない2次元画像と3次元LiDARデータ(ターゲット)が利用できる新しい3DLSS設定について検討する。
このシナリオで3DLSSを実現するために,クロスモーダル・クロスドメイン学習(CoMoDaL)を提案する。
論文 参考訳(メタデータ) (2023-08-05T14:00:05Z) - Joint-MAE: 2D-3D Joint Masked Autoencoders for 3D Point Cloud
Pre-training [65.75399500494343]
Masked Autoencoders (MAE) は、2Dおよび3Dコンピュータビジョンのための自己教師型学習において有望な性能を示した。
自己監督型3次元点雲事前学習のための2D-3DジョイントMAEフレームワークであるJoint-MAEを提案する。
論文 参考訳(メタデータ) (2023-02-27T17:56:18Z) - Multi-Sem Fusion: Multimodal Semantic Fusion for 3D Object Detection [11.575945934519442]
LiDARとカメラ融合技術は、自律運転において3次元物体検出を実現することを約束している。
多くのマルチモーダルな3Dオブジェクト検出フレームワークは、2D画像からのセマンティック知識を3D LiDARポイントクラウドに統合する。
本稿では2次元画像と3次元ポイントシーン解析結果の両方から意味情報を融合する汎用多モード融合フレームワークであるMulti-Sem Fusion(MSF)を提案する。
論文 参考訳(メタデータ) (2022-12-10T10:54:41Z) - Frustum Fusion: Pseudo-LiDAR and LiDAR Fusion for 3D Detection [0.0]
本稿では,立体対から得られる高精度な点雲と,密度が高いが精度の低い点雲を結合する新しいデータ融合アルゴリズムを提案する。
我々は複数の3次元物体検出法を訓練し、核融合戦略が検出器の性能を継続的に改善することを示す。
論文 参考訳(メタデータ) (2021-11-08T19:29:59Z) - Multi-Modality Task Cascade for 3D Object Detection [22.131228757850373]
多くの手法は2つのモデルを個別に訓練し、単純な特徴結合を用いて3Dセンサーデータを表現している。
本稿では,3次元ボックスの提案を利用して2次元セグメンテーション予測を改善する新しいマルチモードタスクカスケードネットワーク(MTC-RCNN)を提案する。
2段階の3次元モジュール間の2次元ネットワークを組み込むことで,2次元および3次元のタスク性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2021-07-08T17:55:01Z) - FCOS3D: Fully Convolutional One-Stage Monocular 3D Object Detection [78.00922683083776]
一般的な2D検出器をこの3Dタスクで動作させることは簡単ではない。
本報告では,完全畳み込み型単段検出器を用いた手法を用いてこの問題を考察する。
私たちのソリューションは、NeurIPS 2020のnuScenes 3D検出チャレンジのすべてのビジョンのみの方法の中で1位を獲得します。
論文 参考訳(メタデータ) (2021-04-22T09:35:35Z) - 3D-to-2D Distillation for Indoor Scene Parsing [78.36781565047656]
大規模3次元データリポジトリから抽出した3次元特徴を有効活用し,RGB画像から抽出した2次元特徴を向上する手法を提案する。
まず,事前学習した3Dネットワークから3D知識を抽出して2Dネットワークを監督し,トレーニング中の2D特徴からシミュレーションされた3D特徴を学習する。
次に,2次元の正規化方式を設計し,2次元特徴と3次元特徴のキャリブレーションを行った。
第3に,非ペアの3dデータを用いたトレーニングのフレームワークを拡張するために,意味を意識した対向的トレーニングモデルを設計した。
論文 参考訳(メタデータ) (2021-04-06T02:22:24Z) - Cross-Modality 3D Object Detection [63.29935886648709]
本稿では,3次元物体検出のための新しい2段階多モード融合ネットワークを提案する。
アーキテクチャ全体が2段階の融合を促進する。
KITTIデータセットを用いた実験により,提案したマルチステージ融合により,ネットワークがより良い表現を学習できることが示唆された。
論文 参考訳(メタデータ) (2020-08-16T11:01:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。