論文の概要: Leveraging Vision-Centric Multi-Modal Expertise for 3D Object Detection
- arxiv url: http://arxiv.org/abs/2310.15670v1
- Date: Tue, 24 Oct 2023 09:29:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 19:29:02.065849
- Title: Leveraging Vision-Centric Multi-Modal Expertise for 3D Object Detection
- Title(参考訳): 3次元物体検出のための視覚中心多モードエキスパートの活用
- Authors: Linyan Huang, Zhiqi Li, Chonghao Sima, Wenhai Wang, Jingdong Wang, Yu
Qiao, Hongyang Li
- Abstract要約: 本稿では, 見習いにやさしいマルチモーダル専門家と時間融合にやさしい蒸留監督を含む,カメラオンリーの見習いモデルを改善するための枠組みを提案する。
これらの改善により、我々のカメラオンリーの見習いVCD-Aは、63.1%のNDSスコアでnuScenesに新しい最先端技術を設定する。
- 参考スコア(独自算出の注目度): 66.74183705987276
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Current research is primarily dedicated to advancing the accuracy of
camera-only 3D object detectors (apprentice) through the knowledge transferred
from LiDAR- or multi-modal-based counterparts (expert). However, the presence
of the domain gap between LiDAR and camera features, coupled with the inherent
incompatibility in temporal fusion, significantly hinders the effectiveness of
distillation-based enhancements for apprentices. Motivated by the success of
uni-modal distillation, an apprentice-friendly expert model would predominantly
rely on camera features, while still achieving comparable performance to
multi-modal models. To this end, we introduce VCD, a framework to improve the
camera-only apprentice model, including an apprentice-friendly multi-modal
expert and temporal-fusion-friendly distillation supervision. The multi-modal
expert VCD-E adopts an identical structure as that of the camera-only
apprentice in order to alleviate the feature disparity, and leverages LiDAR
input as a depth prior to reconstruct the 3D scene, achieving the performance
on par with other heterogeneous multi-modal experts. Additionally, a
fine-grained trajectory-based distillation module is introduced with the
purpose of individually rectifying the motion misalignment for each object in
the scene. With those improvements, our camera-only apprentice VCD-A sets new
state-of-the-art on nuScenes with a score of 63.1% NDS.
- Abstract(参考訳): 現在の研究は主に、lidarまたはマルチモーダルベース(expert)から転送される知識を通じて、カメラのみの3dオブジェクト検出器(apprentice)の精度向上に重点を置いている。
しかし、LiDARとカメラの特徴のドメインギャップの存在は、時間融合の固有の非互換性と相まって、蒸留に基づく徒弟強化の有効性を著しく損なう。
ユニモーダル蒸留の成功に触発されて、見習いに親しみやすい専門家モデルはカメラ機能に大きく依存する一方で、マルチモーダルモデルに匹敵する性能を保った。
そこで本研究では, 見習いに親しみやすいマルチモーダルエキスパートと時間融合に親しむ蒸留監督を含む,カメラオンリーの見習いモデルを改善するためのフレームワークであるVCDを紹介する。
マルチモーダルの専門家VCD-Eは、特徴格差を軽減するためにカメラオンリーの見習いと同一の構造を採用し、LiDAR入力を3Dシーンの再構成に先立って深度として活用し、他の異種マルチモーダル専門家と同等の性能を達成する。
また、シーン内の各対象に対する運動誤認を個別に補正する目的で、細粒度軌道ベースの蒸留モジュールを導入する。
これらの改善により、我々のカメラオンリーの見習いVCD-Aは、63.1%のNDSスコアでnuScenesに新しい最先端技術を設定する。
関連論文リスト
- MonoTAKD: Teaching Assistant Knowledge Distillation for Monocular 3D Object Detection [42.4932760909941]
モノクロ3D物体検出は、自律運転において必要不可欠な研究課題である。
Mono3Dの課題は、3Dシーンの形状を理解し、単一の画像から3Dオブジェクト情報を再構築することにある。
従来の方法では、LiDARベースの教師から直接3D情報をカメラベースの生徒に転送する試みがあった。
論文 参考訳(メタデータ) (2024-04-07T10:39:04Z) - DistillBEV: Boosting Multi-Camera 3D Object Detection with Cross-Modal
Knowledge Distillation [25.933070263556374]
自律走行車産業における大量生産に費用対効果があるため, マルチカメラ・バードアイビュー(BEV)から学んだ表現に基づく3次元認識がトレンドとなっている。
マルチカメラのBEVとLiDARベースの3Dオブジェクト検出の間には、明確なパフォーマンスギャップがある。
そこで本研究では,多カメラBEVベースの学生検出器の表現学習を,LiDARベースの教師検出器の特徴を模倣するように訓練することで促進することを提案する。
論文 参考訳(メタデータ) (2023-09-26T17:56:21Z) - CALICO: Self-Supervised Camera-LiDAR Contrastive Pre-training for BEV
Perception [32.91233926771015]
CALICOは、LiDARとカメラバックボーンの両方に対照的な目的を適用する新しいフレームワークである。
我々のフレームワークは、異なるバックボーンとヘッドに合わせることができ、マルチモーダルなBEV知覚のための有望なアプローチとして位置づけられる。
論文 参考訳(メタデータ) (2023-06-01T05:06:56Z) - SimDistill: Simulated Multi-modal Distillation for BEV 3D Object
Detection [56.24700754048067]
多視点カメラによる3Dオブジェクト検出は低コストで普及しているが、カメラデータのみから正確に3D形状を推定することは依然として困難である。
モデルアーキテクチャと蒸留戦略を慎重に構築し,シミュレートされたマルチモーダル蒸留(SimDistill)法を提案する。
我々のSimDistillは、コスト効率のよいカメラのみの配置を維持しながら、3Dオブジェクト検出のためのより良い特徴表現を学習することができる。
論文 参考訳(メタデータ) (2023-03-29T16:08:59Z) - UniDistill: A Universal Cross-Modality Knowledge Distillation Framework
for 3D Object Detection in Bird's-Eye View [7.1054067852590865]
単一モダリティ検知器の性能向上を目的として, 普遍的クロスモダリティ知識蒸留フレームワーク (UniDistill) を提案する。
UniDistillは、LiDAR-to-camera、カメラ-to-LiDAR、融合-to-LiDAR、融合-to-camera蒸留パスを容易にサポートする。
nuScenesの実験では、UniDistillは学生検出器のmAPとNDSを2.0%3.2%改善することを示した。
論文 参考訳(メタデータ) (2023-03-27T10:50:58Z) - X$^3$KD: Knowledge Distillation Across Modalities, Tasks and Stages for
Multi-Camera 3D Object Detection [45.32989526953387]
本稿では,X$3$KDについて紹介する。X$3$KDはマルチカメラ3DODのための様々なモダリティ,タスク,ステージにまたがる総合的な知識蒸留フレームワークである。
変換後,マルチカメラ特徴の3次元世界表現を改善するために,クロスモーダルな特徴蒸留 (X-FD) と対角訓練 (X-AT) を適用した。
最終的なX$3$KDモデルは、nuScenesとデータセットに関する従来の最先端アプローチよりも優れています。
論文 参考訳(メタデータ) (2023-03-03T20:29:49Z) - A Simple Baseline for Multi-Camera 3D Object Detection [94.63944826540491]
周囲のカメラで3Dオブジェクトを検出することは、自動運転にとって有望な方向だ。
マルチカメラオブジェクト検出のための簡易ベースラインであるSimMODを提案する。
我々は, nuScenes の3次元オブジェクト検出ベンチマークにおいて, SimMOD の有効性を示す広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-08-22T03:38:01Z) - SSMTL++: Revisiting Self-Supervised Multi-Task Learning for Video
Anomaly Detection [108.57862846523858]
自己教師型マルチタスク学習フレームワークを再考し、元の手法にいくつかのアップデートを提案する。
マルチヘッド・セルフアテンション・モジュールを導入することで3次元畳み込みバックボーンを近代化する。
モデルをさらに改良するために,セグメントマップの予測などの自己指導型学習タスクについて検討した。
論文 参考訳(メタデータ) (2022-07-16T19:25:41Z) - SGM3D: Stereo Guided Monocular 3D Object Detection [62.11858392862551]
SGM3Dと呼ばれるステレオ誘導単分子物体検出ネットワークを提案する。
ステレオ画像から抽出したロバストな3次元特徴を利用して、モノクル画像から得られた特徴を強化する。
本手法は,余分な計算コストを伴わずに性能を向上させるために,他の多くの単分子的手法に統合することができる。
論文 参考訳(メタデータ) (2021-12-03T13:57:14Z) - Monocular Depth Estimation with Self-supervised Instance Adaptation [138.0231868286184]
ロボット工学の応用では、ロボットの動作に応じて、シーンの複数のビューが利用可能であるかもしれないし、利用できないかもしれない。
本稿では,市販の自己監督型単分子深度再構成システムをテスト時に複数の画像に拡張する手法を提案する。
論文 参考訳(メタデータ) (2020-04-13T08:32:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。