論文の概要: MonoSKD: General Distillation Framework for Monocular 3D Object
Detection via Spearman Correlation Coefficient
- arxiv url: http://arxiv.org/abs/2310.11316v1
- Date: Tue, 17 Oct 2023 14:48:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-18 15:32:13.286784
- Title: MonoSKD: General Distillation Framework for Monocular 3D Object
Detection via Spearman Correlation Coefficient
- Title(参考訳): MonoSKD:スピアマン相関係数によるモノクロ3次元物体検出のための一般蒸留フレームワーク
- Authors: Sen Wang, Jin Zheng
- Abstract要約: 既存のモノクロ3D検出知識蒸留法は、通常、LiDARをイメージプレーンに投射し、それに従って教師ネットワークを訓練する。
本研究では,スピアマン相関係数に基づくモノクル3次元検出のための新しい知識蒸留フレームワークMonoSKDを提案する。
提案フレームワークは,推論計算コストを加算せずに提案するまでの最先端性能を実現する。
- 参考スコア(独自算出の注目度): 11.48914285491747
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Monocular 3D object detection is an inherently ill-posed problem, as it is
challenging to predict accurate 3D localization from a single image. Existing
monocular 3D detection knowledge distillation methods usually project the LiDAR
onto the image plane and train the teacher network accordingly. Transferring
LiDAR-based model knowledge to RGB-based models is more complex, so a general
distillation strategy is needed. To alleviate cross-modal prob-lem, we propose
MonoSKD, a novel Knowledge Distillation framework for Monocular 3D detection
based on Spearman correlation coefficient, to learn the relative correlation
between cross-modal features. Considering the large gap between these features,
strict alignment of features may mislead the training, so we propose a looser
Spearman loss. Furthermore, by selecting appropriate distillation locations and
removing redundant modules, our scheme saves more GPU resources and trains
faster than existing methods. Extensive experiments are performed to verify the
effectiveness of our framework on the challenging KITTI 3D object detection
benchmark. Our method achieves state-of-the-art performance until submission
with no additional inference computational cost. Our codes are available at
https://github.com/Senwang98/MonoSKD
- Abstract(参考訳): 単眼的3次元物体検出は,単一の画像から正確な3次元位置推定を予測することが困難であるため,本質的に不適切な問題である。
既存のモノクロ3D検出知識蒸留法は、通常、LiDARを画像平面に投影し、教師ネットワークを訓練する。
lidarベースのモデル知識をrgbベースのモデルに移すことはより複雑であり、一般的な蒸留戦略が必要である。
クロスモーダルなプロブレムを緩和するために,スピアマン相関係数に基づくモノクル3次元検出のための新しい知識蒸留フレームワークMonoSKDを提案し,クロスモーダルな特徴間の相対的相関を学習する。
これらの特徴間の大きなギャップを考慮すると、特徴の厳密なアライメントはトレーニングを誤解させる可能性があるため、より緩やかなスピアマン損失を提案する。
さらに,適切な蒸留位置を選択し,冗長モジュールを削除することにより,既存の方法よりも多くのgpuリソースを節約し,高速にトレーニングを行う。
KITTI 3Dオブジェクト検出ベンチマークにおけるフレームワークの有効性を検証するため,大規模な実験を行った。
提案手法は計算コストを増すことなく,提出まで最先端の性能を実現する。
私たちのコードはhttps://github.com/Senwang98/MonoSKDで利用可能です。
関連論文リスト
- MonoTAKD: Teaching Assistant Knowledge Distillation for Monocular 3D Object Detection [42.4932760909941]
モノクロ3D物体検出は、自律運転において必要不可欠な研究課題である。
Mono3Dの課題は、3Dシーンの形状を理解し、単一の画像から3Dオブジェクト情報を再構築することにある。
従来の方法では、LiDARベースの教師から直接3D情報をカメラベースの生徒に転送する試みがあった。
論文 参考訳(メタデータ) (2024-04-07T10:39:04Z) - ODM3D: Alleviating Foreground Sparsity for Semi-Supervised Monocular 3D
Object Detection [15.204935788297226]
ODM3Dフレームワークは、トレーニング中にLiDARドメインの知識を単分子検出器に注入するために、様々なレベルでのクロスモーダルな知識蒸留を必要とする。
既存手法の準最適トレーニングの主要因として,前景の空間空間を同定することにより,LiDAR点に埋め込まれた正確な位置化情報を活用する。
KITTI検証とテストベンチマークの両方で1位にランクインし、教師付きまたは半教師付きである既存のモノクラー手法をはるかに上回っている。
論文 参考訳(メタデータ) (2023-10-28T07:12:09Z) - SimDistill: Simulated Multi-modal Distillation for BEV 3D Object
Detection [56.24700754048067]
多視点カメラによる3Dオブジェクト検出は低コストで普及しているが、カメラデータのみから正確に3D形状を推定することは依然として困難である。
モデルアーキテクチャと蒸留戦略を慎重に構築し,シミュレートされたマルチモーダル蒸留(SimDistill)法を提案する。
我々のSimDistillは、コスト効率のよいカメラのみの配置を維持しながら、3Dオブジェクト検出のためのより良い特徴表現を学習することができる。
論文 参考訳(メタデータ) (2023-03-29T16:08:59Z) - Weakly Supervised Monocular 3D Object Detection using Multi-View
Projection and Direction Consistency [78.76508318592552]
モノクロ3Dオブジェクト検出は、その容易なアプリケーションのための自動駆動において、主流のアプローチとなっている。
現在のほとんどの方法は、トレーニングフェーズで使用される真実をラベル付けするために、まだ3Dポイントのクラウドデータに依存しています。
画像にマークされた2次元ラベルだけでモデルを訓練できる,弱教師付きモノクル3次元オブジェクト検出法を提案する。
論文 参考訳(メタデータ) (2023-03-15T15:14:00Z) - Attention-Based Depth Distillation with 3D-Aware Positional Encoding for
Monocular 3D Object Detection [10.84784828447741]
ADDは、3D対応の位置符号化を備えた注意に基づく深度知識蒸留フレームワークである。
教師の設計によると、私たちのフレームワークはシームレスで、ドメインギャップフリーで、実装が容易で、オブジェクト指向の地層深度と互換性があります。
我々は,3つの代表的な単分子検出器上でのフレームワークを実装し,予測計算コストの増大を伴わず,最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-11-30T06:39:25Z) - Boosting 3D Object Detection by Simulating Multimodality on Point Clouds [51.87740119160152]
本稿では,LiDAR 画像検出器に追従する特徴や応答をシミュレートすることで,単一モダリティ (LiDAR) 3次元物体検出器を高速化する新しい手法を提案する。
このアプローチでは、単一モダリティ検出器をトレーニングする場合のみ、LiDARイメージデータを必要とし、十分にトレーニングされた場合には、推論時にのみLiDARデータが必要である。
nuScenesデータセットの実験結果から,本手法はSOTA LiDARのみの3D検出器よりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-06-30T01:44:30Z) - Homography Loss for Monocular 3D Object Detection [54.04870007473932]
ホログラフィーロス(Homography Loss)と呼ばれる,2次元情報と3次元情報の両方を利用する識別可能なロス関数を提案する。
提案手法は,KITTI 3Dデータセットにおいて,他の最先端技術と比較して高い性能を示す。
論文 参考訳(メタデータ) (2022-04-02T03:48:03Z) - MonoDistill: Learning Spatial Features for Monocular 3D Object Detection [80.74622486604886]
本稿では,LiDAR信号からの空間情報を単分子3D検出器に導入するための簡易かつ効果的な手法を提案する。
得られたデータを用いて、ベースラインモデルと同じアーキテクチャで3D検出器をトレーニングする。
実験の結果,提案手法はベースラインモデルの性能を大幅に向上させることができることがわかった。
論文 参考訳(メタデータ) (2022-01-26T09:21:41Z) - Delving into Localization Errors for Monocular 3D Object Detection [85.77319416168362]
単眼画像から3Dバウンディングボックスを推定することは、自動運転に不可欠な要素です。
本研究では, 各サブタスクがもたらす影響を定量化し, 局所化誤差を求めることが, モノクロ3次元検出の抑制に欠かせない要因である。
論文 参考訳(メタデータ) (2021-03-30T10:38:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。