論文の概要: X$^3$KD: Knowledge Distillation Across Modalities, Tasks and Stages for
Multi-Camera 3D Object Detection
- arxiv url: http://arxiv.org/abs/2303.02203v1
- Date: Fri, 3 Mar 2023 20:29:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-07 20:59:00.514581
- Title: X$^3$KD: Knowledge Distillation Across Modalities, Tasks and Stages for
Multi-Camera 3D Object Detection
- Title(参考訳): X$3$KD:マルチカメラ3Dオブジェクト検出のためのモーダリティ,タスク,ステージ間の知識蒸留
- Authors: Marvin Klingner, Shubhankar Borse, Varun Ravi Kumar, Behnaz Rezaei,
Venkatraman Narayanan, Senthil Yogamani, Fatih Porikli
- Abstract要約: 本稿では,X$3$KDについて紹介する。X$3$KDはマルチカメラ3DODのための様々なモダリティ,タスク,ステージにまたがる総合的な知識蒸留フレームワークである。
変換後,マルチカメラ特徴の3次元世界表現を改善するために,クロスモーダルな特徴蒸留 (X-FD) と対角訓練 (X-AT) を適用した。
最終的なX$3$KDモデルは、nuScenesとデータセットに関する従来の最先端アプローチよりも優れています。
- 参考スコア(独自算出の注目度): 45.32989526953387
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Recent advances in 3D object detection (3DOD) have obtained remarkably strong
results for LiDAR-based models. In contrast, surround-view 3DOD models based on
multiple camera images underperform due to the necessary view transformation of
features from perspective view (PV) to a 3D world representation which is
ambiguous due to missing depth information. This paper introduces X$^3$KD, a
comprehensive knowledge distillation framework across different modalities,
tasks, and stages for multi-camera 3DOD. Specifically, we propose cross-task
distillation from an instance segmentation teacher (X-IS) in the PV feature
extraction stage providing supervision without ambiguous error backpropagation
through the view transformation. After the transformation, we apply cross-modal
feature distillation (X-FD) and adversarial training (X-AT) to improve the 3D
world representation of multi-camera features through the information contained
in a LiDAR-based 3DOD teacher. Finally, we also employ this teacher for
cross-modal output distillation (X-OD), providing dense supervision at the
prediction stage. We perform extensive ablations of knowledge distillation at
different stages of multi-camera 3DOD. Our final X$^3$KD model outperforms
previous state-of-the-art approaches on the nuScenes and Waymo datasets and
generalizes to RADAR-based 3DOD. Qualitative results video at
https://youtu.be/1do9DPFmr38.
- Abstract(参考訳): 近年の3Dオブジェクト検出技術(3DOD)は,LiDARモデルにおいて極めて強力な結果を得ている。
対照的に、複数のカメラ画像に基づくサラウンドビュー3DODモデルは、視界ビュー(PV)から3次元世界表現への必要な視点変換により、不明瞭な深度情報により、性能が低下する。
本稿では,マルチカメラ用3dodの異なるモード,タスク,ステージにまたがる包括的知識蒸留フレームワークであるx$^3$kdについて紹介する。
具体的には、PV特徴抽出段階におけるインスタンスセグメンテーション教師(X-IS)からのクロスタスク蒸留を提案し、ビュー変換による曖昧なエラーバックプロパゲーションを伴わずに監督する。
変換後,lidarベースの3dod教師に含まれる情報を通じて,マルチカメラ特徴の3次元表現を改善するために,クロスモーダル特徴蒸留(x-fd)と敵対的訓練(x-at)を適用した。
最後に, この教師をクロスモーダル出力蒸留 (X-OD) に利用し, 予測段階での集中管理を行う。
マルチカメラ3DODの異なる段階で知識蒸留を広範囲に行う。
我々の最終X$3$KDモデルは、nuScenesとWaymoデータセットの最先端アプローチより優れ、RADARベースの3DODに一般化します。
ビデオはhttps://youtu.be/1do9DPFmr38。
関連論文リスト
- MonoTAKD: Teaching Assistant Knowledge Distillation for Monocular 3D Object Detection [42.4932760909941]
モノクロ3D物体検出は、自律運転において必要不可欠な研究課題である。
Mono3Dの課題は、3Dシーンの形状を理解し、単一の画像から3Dオブジェクト情報を再構築することにある。
従来の方法では、LiDARベースの教師から直接3D情報をカメラベースの生徒に転送する試みがあった。
論文 参考訳(メタデータ) (2024-04-07T10:39:04Z) - MVD-Fusion: Single-view 3D via Depth-consistent Multi-view Generation [54.27399121779011]
本稿では,多視点RGB-D画像の生成モデルを用いて,単視点3次元推論を行うMVD-Fusionを提案する。
提案手法は,蒸留に基づく3D推論や先行多視点生成手法など,最近の最先端技術と比較して,より正確な合成を実現することができることを示す。
論文 参考訳(メタデータ) (2024-04-04T17:59:57Z) - Volumetric Environment Representation for Vision-Language Navigation [66.04379819772764]
視覚言語ナビゲーション(VLN)は、視覚的な観察と自然言語の指示に基づいて、エージェントが3D環境をナビゲートする必要がある。
本研究では,物理世界を3次元構造細胞にボクセル化するボリューム環境表現(VER)を提案する。
VERは3D占有率、3D部屋レイアウト、および3Dバウンディングボックスを共同で予測する。
論文 参考訳(メタデータ) (2024-03-21T06:14:46Z) - Weakly Supervised Monocular 3D Detection with a Single-View Image [58.57978772009438]
モノクロ3D検出は、単一視点画像からの正確な3Dオブジェクトのローカライゼーションを目的としている。
SKD-WM3Dは弱い教師付き単分子3D検出フレームワークである。
我々は,SKD-WM3Dが最先端技術を超え,多くの完全教師付き手法と同等であることを示した。
論文 参考訳(メタデータ) (2024-02-29T13:26:47Z) - Leveraging Vision-Centric Multi-Modal Expertise for 3D Object Detection [66.74183705987276]
本稿では, 見習いにやさしいマルチモーダル専門家と時間融合にやさしい蒸留監督を含む,カメラオンリーの見習いモデルを改善するための枠組みを提案する。
これらの改善により、我々のカメラオンリーの見習いVCD-Aは、63.1%のNDSスコアでnuScenesに新しい最先端技術を設定する。
論文 参考訳(メタデータ) (2023-10-24T09:29:26Z) - DistillBEV: Boosting Multi-Camera 3D Object Detection with Cross-Modal
Knowledge Distillation [25.933070263556374]
自律走行車産業における大量生産に費用対効果があるため, マルチカメラ・バードアイビュー(BEV)から学んだ表現に基づく3次元認識がトレンドとなっている。
マルチカメラのBEVとLiDARベースの3Dオブジェクト検出の間には、明確なパフォーマンスギャップがある。
そこで本研究では,多カメラBEVベースの学生検出器の表現学習を,LiDARベースの教師検出器の特徴を模倣するように訓練することで促進することを提案する。
論文 参考訳(メタデータ) (2023-09-26T17:56:21Z) - SimDistill: Simulated Multi-modal Distillation for BEV 3D Object
Detection [56.24700754048067]
多視点カメラによる3Dオブジェクト検出は低コストで普及しているが、カメラデータのみから正確に3D形状を推定することは依然として困難である。
モデルアーキテクチャと蒸留戦略を慎重に構築し,シミュレートされたマルチモーダル蒸留(SimDistill)法を提案する。
我々のSimDistillは、コスト効率のよいカメラのみの配置を維持しながら、3Dオブジェクト検出のためのより良い特徴表現を学習することができる。
論文 参考訳(メタデータ) (2023-03-29T16:08:59Z) - UniDistill: A Universal Cross-Modality Knowledge Distillation Framework
for 3D Object Detection in Bird's-Eye View [7.1054067852590865]
単一モダリティ検知器の性能向上を目的として, 普遍的クロスモダリティ知識蒸留フレームワーク (UniDistill) を提案する。
UniDistillは、LiDAR-to-camera、カメラ-to-LiDAR、融合-to-LiDAR、融合-to-camera蒸留パスを容易にサポートする。
nuScenesの実験では、UniDistillは学生検出器のmAPとNDSを2.0%3.2%改善することを示した。
論文 参考訳(メタデータ) (2023-03-27T10:50:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。