論文の概要: Long-Tailed 3D Detection via 2D Late Fusion
- arxiv url: http://arxiv.org/abs/2312.10986v2
- Date: Thu, 25 Jan 2024 19:28:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-29 17:23:38.422392
- Title: Long-Tailed 3D Detection via 2D Late Fusion
- Title(参考訳): 2次元遅延核融合によるロングテール3次元検出
- Authors: Yechi Ma, Neehar Peri, Shuoquan Wei, Wei Hua, Deva Ramanan, Yanan Li,
Shu Kong
- Abstract要約: 自律走行車(AV)は、安全航法のために、一般的なクラスと稀なクラスの両方からオブジェクトを正確に検出する必要がある。
現代のLiDARベースの3D検出器は、疎いLiDAR点からの物体の認識が難しいため、希少なクラスでは不十分である。
RGB画像は、そのような曖昧さを解決するための視覚的証拠を提供し、RGB-LiDAR融合の研究を動機付けている。
- 参考スコア(独自算出の注目度): 48.04585341882589
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autonomous vehicles (AVs) must accurately detect objects from both common and
rare classes for safe navigation, motivating the problem of Long-Tailed 3D
Object Detection (LT3D). Contemporary LiDAR-based 3D detectors perform poorly
on rare classes (e.g., CenterPoint only achieves 5.1 AP on stroller) as it is
difficult to recognize objects from sparse LiDAR points alone. RGB images
provide visual evidence to help resolve such ambiguities, motivating the study
of RGB-LiDAR fusion. In this paper, we delve into a simple late-fusion
framework that ensembles independently trained RGB and LiDAR detectors. Unlike
recent end-to-end methods which require paired multi-modal training data, our
late-fusion approach can easily leverage large-scale uni-modal datasets,
significantly improving rare class detection. In particular, we examine three
critical components in this late-fusion framework from first principles,
including whether to train 2D or 3D RGB detectors, whether to match RGB and
LiDAR detections in 3D or the projected 2D image plane, and how to fuse matched
detections.Extensive experiments reveal that 2D RGB detectors achieve better
recognition accuracy than 3D RGB detectors, matching on the 2D image plane
mitigates depth estimation errors, and fusing scores probabilistically with
calibration leads to state-of-the-art LT3D performance. Our late-fusion
approach achieves 51.4 mAP on the established nuScenes LT3D benchmark,
improving over prior work by 5.9 mAP.
- Abstract(参考訳): 自律走行車(AV)は、安全ナビゲーションのために、一般的なクラスと稀なクラスのオブジェクトを正確に検出する必要がある。
現代のLiDARベースの3D検出器は、希少なクラス(例えば、CenterPointはベビーカーで5.1 APしか達成していない)で性能が良くない。
RGB画像は、そのような曖昧さを解決するための視覚的証拠を提供し、RGB-LiDAR融合の研究を動機付けている。
本稿では,RGBおよびLiDAR検出器を独立に訓練した,シンプルな遅延融合フレームワークを探索する。
ペア化されたマルチモーダルトレーニングデータを必要とする最近のエンドツーエンド手法とは異なり、我々のレイトフュージョンアプローチは大規模ユニモーダルデータセットを容易に活用でき、希少なクラス検出を大幅に改善できる。
In particular, we examine three critical components in this late-fusion framework from first principles, including whether to train 2D or 3D RGB detectors, whether to match RGB and LiDAR detections in 3D or the projected 2D image plane, and how to fuse matched detections.Extensive experiments reveal that 2D RGB detectors achieve better recognition accuracy than 3D RGB detectors, matching on the 2D image plane mitigates depth estimation errors, and fusing scores probabilistically with calibration leads to state-of-the-art LT3D performance.
我々のレイトフュージョンアプローチは、確立されたnuScenes LT3Dベンチマークで51.4 mAPを達成する。
関連論文リスト
- An Empirical Analysis of Range for 3D Object Detection [70.54345282696138]
本稿では,長距離検出データセットArgoverse 2.0を用いた遠距離3次元検出の実験的検討を行った。
近接場LiDARの測定は、小さなボクセルによって密度が高く最適に符号化され、遠距離場の測定は疎く、大きなボクセルで符号化されている。
本研究では,33%の効率向上と3.2%のCDSの精度向上を図った。
論文 参考訳(メタデータ) (2023-08-08T05:29:26Z) - Far3Det: Towards Far-Field 3D Detection [67.38417186733487]
我々は、観測者から一定の距離を超える物体の遠距離3次元検出(Far3Det)の課題に焦点を当てる。
Far3Detは高速道路で動く自動運転車(AV)にとって特に重要である。
我々は,nuScenesデータセットからよく注釈付きシーンを抽出し,十分に注釈付き遠距離フィールド検証セットを導出する手法を開発した。
Far3Detの評価プロトコルを提案し,Far3Detの様々な3次元検出手法を提案する。
論文 参考訳(メタデータ) (2022-11-25T02:07:57Z) - Radar Guided Dynamic Visual Attention for Resource-Efficient RGB Object
Detection [10.983063391496543]
自動運転車の認識品質を向上させるために,RGB画像に対する新しいレーダー誘導空間アテンションを提案する。
提案手法は,RGBモードの物体検出装置では検出されない小型・長距離物体の知覚を改善する。
論文 参考訳(メタデータ) (2022-06-03T18:29:55Z) - DetMatch: Two Teachers are Better Than One for Joint 2D and 3D
Semi-Supervised Object Detection [29.722784254501768]
DetMatchは、2Dおよび3Dモダリティに関する共同半教師付き学習のための柔軟なフレームワークである。
両方のセンサーで検出された物体を識別することで、パイプラインはよりクリーンで堅牢な擬似ラベルを生成する。
我々はRGB画像のよりリッチなセマンティクスを活用して、誤った3Dクラスの予測を修正し、3Dボックスのローカライズを改善する。
論文 参考訳(メタデータ) (2022-03-17T17:58:00Z) - Frustum Fusion: Pseudo-LiDAR and LiDAR Fusion for 3D Detection [0.0]
本稿では,立体対から得られる高精度な点雲と,密度が高いが精度の低い点雲を結合する新しいデータ融合アルゴリズムを提案する。
我々は複数の3次元物体検出法を訓練し、核融合戦略が検出器の性能を継続的に改善することを示す。
論文 参考訳(メタデータ) (2021-11-08T19:29:59Z) - LIGA-Stereo: Learning LiDAR Geometry Aware Representations for
Stereo-based 3D Detector [80.7563981951707]
本稿では,LIGA-Stereoによるステレオ3次元検出器の学習について,LiDARに基づく検出モデルの高レベルな幾何認識表現の指導の下で提案する。
現状のステレオ検出器と比較して,車,歩行者,サイクリストの3次元検出性能は,それぞれ10.44%,5.69%,5.97%向上した。
論文 参考訳(メタデータ) (2021-08-18T17:24:40Z) - Sparse LiDAR and Stereo Fusion (SLS-Fusion) for Depth Estimationand 3D
Object Detection [3.5488685789514736]
SLS-Fusionは、深度推定のためにニューラルネットワークを介して4ビームLiDARとステレオカメラからデータを融合する新しいアプローチです。
4ビームのLiDARは64ビームのLiDARよりも安価であるため、この手法は低コストのセンサベース手法に分類される。
論文 参考訳(メタデータ) (2021-03-05T23:10:09Z) - PLUME: Efficient 3D Object Detection from Stereo Images [95.31278688164646]
既存の手法では、2つのステップでこの問題に対処する: 第一深度推定を行い、その深さ推定から擬似LiDAR点雲表現を計算し、3次元空間で物体検出を行う。
この2つのタスクを同一のメトリック空間で統一するモデルを提案する。
提案手法は,既存の手法と比較して推定時間を大幅に削減し,挑戦的なKITTIベンチマークの最先端性能を実現する。
論文 参考訳(メタデータ) (2021-01-17T05:11:38Z) - End-to-End Pseudo-LiDAR for Image-Based 3D Object Detection [62.34374949726333]
擬似LiDAR(PL)は、LiDARセンサに基づく手法と安価なステレオカメラに基づく手法の精度ギャップを劇的に減らした。
PLは最先端のディープニューラルネットワークと2D深度マップ出力を3Dポイントクラウド入力に変換することで3Dオブジェクト検出のための3D深度推定を組み合わせている。
我々は、PLパイプライン全体をエンドツーエンドにトレーニングできるように、差別化可能なRepresentation (CoR)モジュールに基づく新しいフレームワークを導入します。
論文 参考訳(メタデータ) (2020-04-07T02:18:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。