論文の概要: VaLID: Verification as Late Integration of Detections for LiDAR-Camera Fusion
- arxiv url: http://arxiv.org/abs/2409.15529v1
- Date: Mon, 23 Sep 2024 20:27:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-26 12:47:38.614113
- Title: VaLID: Verification as Late Integration of Detections for LiDAR-Camera Fusion
- Title(参考訳): VaLID:LiDAR-Camera核融合検出の後期統合としての検証
- Authors: Vanshika Vats, Marzia Binta Nizam, James Davis,
- Abstract要約: LiDARの使用法は一般的にカメラのみを使用する方法よりも優れている。
本稿では,各予測境界ボックスが許容可能であるかどうかを検証したモデル独立遅延融合法VaLIDを提案する。
提案手法はモデル非依存であり,汎用カメラ検出器を用いた場合においても,最先端の競争性能を示す。
- 参考スコア(独自算出の注目度): 2.503388496100123
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vehicle object detection is possible using both LiDAR and camera data. Methods using LiDAR generally outperform those using cameras only. The highest accuracy methods utilize both of these modalities through data fusion. In our study, we propose a model-independent late fusion method, VaLID, which validates whether each predicted bounding box is acceptable or not. Our method verifies the higher-performing, yet overly optimistic LiDAR model detections using camera detections that are obtained from either specially trained, general, or open-vocabulary models. VaLID uses a simple multi-layer perceptron trained with a high recall bias to reduce the false predictions made by the LiDAR detector, while still preserving the true ones. Evaluating with multiple combinations of LiDAR and camera detectors on the KITTI dataset, we reduce false positives by an average of 63.9%, thus outperforming the individual detectors on 2D average precision (2DAP). Our approach is model-agnostic and demonstrates state-of-the-art competitive performance even when using generic camera detectors that were not trained specifically for this dataset.
- Abstract(参考訳): 車両物体検出は、LiDARとカメラデータの両方を用いて可能である。
LiDARの使用法は一般的にカメラのみを使用する方法よりも優れている。
最も高い精度の手法はデータ融合によってこれらの2つのモダリティを利用する。
本研究では,モデルに依存しない遅延核融合法であるVaLIDを提案する。
本手法は, 特殊訓練, 一般, オープン語彙モデルから得られるカメラ検出を用いて, 高い性能, 過度に楽観的なLiDARモデル検出を検証する。
VaLIDは、LiDAR検出器による誤った予測を減らすために、高いリコールバイアスで訓練された単純な多層パーセプトロンを使用する。
KITTIデータセット上でLiDARとカメラ検出器を複数組み合わせて評価することにより、偽陽性を平均63.9%削減し、2D平均精度(2DAP)で個々の検出器より優れる。
我々のアプローチはモデルに依存しず、このデータセットに特化して訓練されていない汎用カメラ検出器を使用しても、最先端の競争性能を示す。
関連論文リスト
- Finetuning Pre-trained Model with Limited Data for LiDAR-based 3D Object Detection by Bridging Domain Gaps [8.897884780881535]
LiDARベースの3Dオブジェクト検出器は、センサーの設定が異なるターゲットドメインにうまく適応できないことが多い。
近年の研究では、トレーニング済みのバックボーンは大規模でラベルのないLiDARフレームで自己管理的に学習できることが示唆されている。
本研究では,対象データに制限のある事前学習モデルを適用するために,DADT(Domain Adaptive Distill-Tuning)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2024-10-02T08:22:42Z) - Approaching Outside: Scaling Unsupervised 3D Object Detection from 2D Scene [22.297964850282177]
教師なし3次元検出のためのLiDAR-2D Self-paced Learning (LiSe)を提案する。
RGB画像は、正確な2Dローカライゼーションキューを提供するLiDARデータの貴重な補完となる。
本フレームワークでは,適応型サンプリングと弱いモデルアグリゲーション戦略を組み込んだ自己評価学習パイプラインを考案する。
論文 参考訳(メタデータ) (2024-07-11T14:58:49Z) - Multi-Modal Data-Efficient 3D Scene Understanding for Autonomous Driving [58.16024314532443]
我々は、異なるLiDARスキャンからレーザービーム操作を統合するフレームワークであるLaserMix++を導入し、データ効率の学習を支援するためにLiDAR-カメラ対応を組み込んだ。
結果は、LaserMix++が完全に教師付き代替よりも優れており、5倍のアノテーションで同等の精度を実現していることを示している。
この大幅な進歩は、LiDARベースの3Dシーン理解システムにおける広範囲なラベル付きデータへの依存を減らすための半教師付きアプローチの可能性を示している。
論文 参考訳(メタデータ) (2024-05-08T17:59:53Z) - Better Monocular 3D Detectors with LiDAR from the Past [64.6759926054061]
カメラベースの3D検出器は、画像の奥行きのあいまいさのため、LiDARベースの検出器に比べて性能が劣ることが多い。
本研究では,未ラベルの歴史的LiDARデータを活用することにより,単分子3D検出器の改良を図る。
複数の最先端モデルやデータセットに対して,9.66ミリ秒の追加レイテンシとストレージコストの低い,一貫性と大幅なパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2024-04-08T01:38:43Z) - Self-supervised Feature Adaptation for 3D Industrial Anomaly Detection [59.41026558455904]
具体的には,大規模ビジュアルデータセット上で事前学習されたモデルを利用した初期のマルチモーダルアプローチについて検討する。
本研究では,アダプタを微調整し,異常検出に向けたタスク指向の表現を学習するためのLSFA法を提案する。
論文 参考訳(メタデータ) (2024-01-06T07:30:41Z) - Unsupervised Domain Adaptation for Self-Driving from Past Traversal
Features [69.47588461101925]
本研究では,新しい運転環境に3次元物体検出器を適応させる手法を提案する。
提案手法は,空間的量子化履歴特徴を用いたLiDARに基づく検出モデルを強化する。
実世界のデータセットの実験では、大幅な改善が示されている。
論文 参考訳(メタデータ) (2023-09-21T15:00:31Z) - Boosting 3D Object Detection by Simulating Multimodality on Point Clouds [51.87740119160152]
本稿では,LiDAR 画像検出器に追従する特徴や応答をシミュレートすることで,単一モダリティ (LiDAR) 3次元物体検出器を高速化する新しい手法を提案する。
このアプローチでは、単一モダリティ検出器をトレーニングする場合のみ、LiDARイメージデータを必要とし、十分にトレーニングされた場合には、推論時にのみLiDARデータが必要である。
nuScenesデータセットの実験結果から,本手法はSOTA LiDARのみの3D検出器よりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-06-30T01:44:30Z) - LET-3D-AP: Longitudinal Error Tolerant 3D Average Precision for Camera-Only 3D Detection [26.278496981844317]
我々は,深度推定誤差に関して,より許容性の高い3次元APメトリックの変種を提案する。
具体的には, LET-3D-AP と LET-3D-APL という新しい長手誤差許容基準により, 所与の許容範囲までの長手局所化誤差を許容する。
最先端のカメラベースの検出器は、従来のLiDARベースの検出器よりも優れており、新しいメトリクスは10%の深度エラー耐性を超越している。
論文 参考訳(メタデータ) (2022-06-15T17:57:41Z) - Benchmarking the Robustness of LiDAR-Camera Fusion for 3D Object
Detection [58.81316192862618]
自律運転における3D知覚のための2つの重要なセンサーは、カメラとLiDARである。
これら2つのモダリティを融合させることで、3次元知覚モデルの性能を大幅に向上させることができる。
我々は、最先端の核融合法を初めてベンチマークした。
論文 参考訳(メタデータ) (2022-05-30T09:35:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。