論文の概要: Selective Transfer Learning of Cross-Modality Distillation for Monocular 3D Object Detection
- arxiv url: http://arxiv.org/abs/2603.07464v1
- Date: Sun, 08 Mar 2026 05:05:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:14.611456
- Title: Selective Transfer Learning of Cross-Modality Distillation for Monocular 3D Object Detection
- Title(参考訳): モノクロ3次元物体検出のためのクロスモーダル蒸留の選択的伝達学習
- Authors: Rui Ding, Meng Yang, Nanning Zheng,
- Abstract要約: クロスモダリティの知識蒸留は、LiDARから画像ベースネットワークへの深度情報転送を効果的に行うことができる。
しかし、画像とLiDARの間のモダリティギャップは、その精度を著しく制限している。
これらの問題を克服するために,MonoSTLという選択学習手法を提案する。
- 参考スコア(独自算出の注目度): 41.41435217865119
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Monocular 3D object detection is a promising yet ill-posed task for autonomous vehicles due to the lack of accurate depth information. Cross-modality knowledge distillation could effectively transfer depth information from LiDAR to image-based network. However, modality gap between image and LiDAR seriously limits its accuracy. In this paper, we systematically investigate the negative transfer problem induced by modality gap in cross-modality distillation for the first time, including not only the architecture inconsistency issue but more importantly the feature overfitting issue. We propose a selective learning approach named MonoSTL to overcome these issues, which encourages positive transfer of depth information from LiDAR while alleviates the negative transfer on image-based network. On the one hand, we utilize similar architectures to ensure spatial alignment of features between image-based and LiDAR-based networks. On the other hand, we develop two novel distillation modules, namely Depth-Aware Selective Feature Distillation (DASFD) and Depth-Aware Selective Relation Distillation (DASRD), which selectively learn positive features and relationships of objects by integrating depth uncertainty into feature and relation distillations, respectively. Our approach can be seamlessly integrated into various CNN-based and DETR-based models, where we take three recent models on KITTI and a recent model on NuScenes for validation. Extensive experiments show that our approach considerably improves the accuracy of the base models and thereby achieves the best accuracy compared with all recently released SOTA models.
- Abstract(参考訳): モノクロ3Dオブジェクト検出は、正確な深度情報がないため、自動運転車にとって有望だが不適切な課題である。
クロスモダリティの知識蒸留は、LiDARから画像ベースネットワークへの深度情報転送を効果的に行うことができる。
しかし、画像とLiDARの間のモダリティギャップは、その精度を著しく制限している。
本稿では, クロスモダリティ蒸留におけるモダリティギャップに起因する負の伝達問題を, アーキテクチャの不整合問題だけでなく, 機能オーバーフィット問題を含む, 初めて体系的に検討する。
画像ベースネットワーク上での負の転送を軽減しつつ,LiDARからの深度情報の正の転送を促進する。
一方,画像ベースネットワークとLiDARネットワーク間の特徴量の空間的アライメントを確保するために,同様のアーキテクチャを用いる。
一方,DSFD (Depth-Aware Selective Feature Distillation) とDASRD (Depth-Aware Selective Relation Distillation) の2つの新しい蒸留モジュールを開発した。
我々のアプローチは様々なCNNベースのモデルとDETRベースのモデルにシームレスに統合することができ、KITTIの3つの最近のモデルとNuScenesの最近のモデルを用いて検証を行う。
大規模な実験により,本手法はベースモデルの精度を大幅に向上し,最近リリースされた全SOTAモデルと比較して最高の精度が得られることが示された。
関連論文リスト
- Domain Adaptation-Based Crossmodal Knowledge Distillation for 3D Semantic Segmentation [3.6903284283843942]
従来のアプローチは、注釈付きポイントクラウド分析のための広範なデータに依存している。
実世界のイメージデータセットは、十分な可用性と相当なスケールを提供する。
非教師付きドメイン知識蒸留(UDAKD)と特徴と意味に基づく知識蒸留(FSKD)の2つのクロスモーダルな知識蒸留法を提案する。
論文 参考訳(メタデータ) (2025-08-30T06:34:39Z) - Enhancing Steering Estimation with Semantic-Aware GNNs [41.89219383258699]
ハイブリッドアーキテクチャは、時間的モデリングのための3Dニューラルネットワークモデルとリカレントニューラルネットワーク(RNN)を組み合わせる。
我々は4つのハイブリッド3Dモデルを評価し、いずれも2Dのみのベースラインを上回った。
我々は、KITTIデータセットに対するアプローチを検証し、2Dのみのモデルよりも71%改善した。
論文 参考訳(メタデータ) (2025-03-21T13:58:08Z) - 4D Contrastive Superflows are Dense 3D Representation Learners [62.433137130087445]
我々は,LiDARとカメラのペアを連続的に利用して事前学習の目的を確立するための,新しいフレームワークであるSuperFlowを紹介する。
学習効率をさらに向上するため,カメラビューから抽出した知識の整合性を高めるプラグイン・アンド・プレイ・ビュー・一貫性モジュールを組み込んだ。
論文 参考訳(メタデータ) (2024-07-08T17:59:54Z) - MonoSKD: General Distillation Framework for Monocular 3D Object
Detection via Spearman Correlation Coefficient [11.48914285491747]
既存のモノクロ3D検出知識蒸留法は、通常、LiDARをイメージプレーンに投射し、それに従って教師ネットワークを訓練する。
本研究では,スピアマン相関係数に基づくモノクル3次元検出のための新しい知識蒸留フレームワークMonoSKDを提案する。
提案フレームワークは,推論計算コストを加算せずに提案するまでの最先端性能を実現する。
論文 参考訳(メタデータ) (2023-10-17T14:48:02Z) - Boosting 3D Object Detection by Simulating Multimodality on Point Clouds [51.87740119160152]
本稿では,LiDAR 画像検出器に追従する特徴や応答をシミュレートすることで,単一モダリティ (LiDAR) 3次元物体検出器を高速化する新しい手法を提案する。
このアプローチでは、単一モダリティ検出器をトレーニングする場合のみ、LiDARイメージデータを必要とし、十分にトレーニングされた場合には、推論時にのみLiDARデータが必要である。
nuScenesデータセットの実験結果から,本手法はSOTA LiDARのみの3D検出器よりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-06-30T01:44:30Z) - MonoDistill: Learning Spatial Features for Monocular 3D Object Detection [80.74622486604886]
本稿では,LiDAR信号からの空間情報を単分子3D検出器に導入するための簡易かつ効果的な手法を提案する。
得られたデータを用いて、ベースラインモデルと同じアーキテクチャで3D検出器をトレーニングする。
実験の結果,提案手法はベースラインモデルの性能を大幅に向上させることができることがわかった。
論文 参考訳(メタデータ) (2022-01-26T09:21:41Z) - SelfVoxeLO: Self-supervised LiDAR Odometry with Voxel-based Deep Neural
Networks [81.64530401885476]
本稿では,これら2つの課題に対処するために,自己教師型LiDARオドメトリー法(SelfVoxeLO)を提案する。
具体的には、生のLiDARデータを直接処理する3D畳み込みネットワークを提案し、3D幾何パターンをよりよく符号化する特徴を抽出する。
我々は,KITTIとApollo-SouthBayという2つの大規模データセット上での手法の性能を評価する。
論文 参考訳(メタデータ) (2020-10-19T09:23:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。