論文の概要: Ray Denoising: Depth-aware Hard Negative Sampling for Multi-view 3D
Object Detection
- arxiv url: http://arxiv.org/abs/2402.03634v2
- Date: Tue, 12 Mar 2024 07:38:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 00:43:06.939674
- Title: Ray Denoising: Depth-aware Hard Negative Sampling for Multi-view 3D
Object Detection
- Title(参考訳): ray denoising: 多視点3次元物体検出のための奥行き認識ハードネガティブサンプリング
- Authors: Feng Liu, Tengteng Huang, Qianjing Zhang, Haotian Yao, Chi Zhang, Fang
Wan, Qixiang Ye, Yanzhao Zhou
- Abstract要約: レイデノジング(Ray Denoising)は、カメラ線に沿って戦略的にサンプリングすることで検出精度を高める革新的な手法である。
Ray Denoisingはプラグイン・アンド・プレイモジュールとして設計されており、DETR方式のマルチビュー3D検出器と互換性がある。
NuScenesデータセット上の最先端のStreamPETR法よりも平均精度(mAP)が1.9%向上した。
- 参考スコア(独自算出の注目度): 46.041193889845474
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-view 3D object detection systems often struggle with generating precise
predictions due to the challenges in estimating depth from images, increasing
redundant and incorrect detections. Our paper presents Ray Denoising, an
innovative method that enhances detection accuracy by strategically sampling
along camera rays to construct hard negative examples. These examples, visually
challenging to differentiate from true positives, compel the model to learn
depth-aware features, thereby improving its capacity to distinguish between
true and false positives. Ray Denoising is designed as a plug-and-play module,
compatible with any DETR-style multi-view 3D detectors, and it only minimally
increases training computational costs without affecting inference speed. Our
comprehensive experiments, including detailed ablation studies, consistently
demonstrate that Ray Denoising outperforms strong baselines across multiple
datasets. It achieves a 1.9\% improvement in mean Average Precision (mAP) over
the state-of-the-art StreamPETR method on the NuScenes dataset. It shows
significant performance gains on the Argoverse 2 dataset, highlighting its
generalization capability. The code will be available at
https://github.com/LiewFeng/RayDN.
- Abstract(参考訳): 多視点の3dオブジェクト検出システムは、画像から深さを推定することの難しさから正確な予測を生成するのに苦労することが多い。
本稿では,カメラ線を戦略的にサンプリングすることで検出精度を高める手法であるRay Denoisingを提案する。
これらの例は、真の正と区別することが困難であり、モデルに深度を認識した特徴を学習させ、真と偽の正を区別する能力を向上させる。
Ray Denoisingはプラグイン・アンド・プレイモジュールとして設計されており、DETRスタイルのマルチビュー3D検出器と互換性がある。
詳細なアブレーション研究を含む包括的な実験は、Ray Denoisingが複数のデータセットで強いベースラインを上回っていることを一貫して示しています。
NuScenesデータセットの最先端StreamPETR法よりも平均平均精度(mAP)が 1.9 % 向上している。
Argoverse 2データセットの大幅なパフォーマンス向上を示し、その一般化能力を強調している。
コードはhttps://github.com/LiewFeng/RayDN.comで入手できる。
関連論文リスト
- Approaching Outside: Scaling Unsupervised 3D Object Detection from 2D Scene [22.297964850282177]
教師なし3次元検出のためのLiDAR-2D Self-paced Learning (LiSe)を提案する。
RGB画像は、正確な2Dローカライゼーションキューを提供するLiDARデータの貴重な補完となる。
本フレームワークでは,適応型サンプリングと弱いモデルアグリゲーション戦略を組み込んだ自己評価学習パイプラインを考案する。
論文 参考訳(メタデータ) (2024-07-11T14:58:49Z) - NeRF-Det++: Incorporating Semantic Cues and Perspective-aware Depth
Supervision for Indoor Multi-View 3D Detection [72.0098999512727]
NeRF-Detは、NeRFを用いた屋内マルチビュー3次元検出において、表現学習の強化による優れた性能を実現している。
セマンティックエンハンスメント(セマンティックエンハンスメント)、パースペクティブ・アウェア・サンプリング(パースペクティブ・アウェア・サンプリング)、および順序深度監視を含む3つのソリューションを提案する。
結果として得られたアルゴリズムであるNeRF-Det++は、ScanNetV2とAR KITScenesデータセットで魅力的なパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-02-22T11:48:06Z) - VirtualPainting: Addressing Sparsity with Virtual Points and
Distance-Aware Data Augmentation for 3D Object Detection [3.5259183508202976]
本稿では,カメラ画像を用いた仮想LiDAR点の生成を含む革新的なアプローチを提案する。
また、画像ベースセグメンテーションネットワークから得られる意味ラベルを用いて、これらの仮想点を強化する。
このアプローチは、様々な3Dフレームワークと2Dセマンティックセグメンテーションメソッドにシームレスに統合できる汎用的なソリューションを提供する。
論文 参考訳(メタデータ) (2023-12-26T18:03:05Z) - Leveraging Neural Radiance Fields for Uncertainty-Aware Visual
Localization [56.95046107046027]
我々は,Neural Radiance Fields (NeRF) を用いてシーン座標回帰のためのトレーニングサンプルを生成することを提案する。
レンダリングにおけるNeRFの効率にもかかわらず、レンダリングされたデータの多くはアーティファクトによって汚染されるか、最小限の情報ゲインしか含まない。
論文 参考訳(メタデータ) (2023-10-10T20:11:13Z) - Boosting 3D Object Detection by Simulating Multimodality on Point Clouds [51.87740119160152]
本稿では,LiDAR 画像検出器に追従する特徴や応答をシミュレートすることで,単一モダリティ (LiDAR) 3次元物体検出器を高速化する新しい手法を提案する。
このアプローチでは、単一モダリティ検出器をトレーニングする場合のみ、LiDARイメージデータを必要とし、十分にトレーニングされた場合には、推論時にのみLiDARデータが必要である。
nuScenesデータセットの実験結果から,本手法はSOTA LiDARのみの3D検出器よりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-06-30T01:44:30Z) - SALISA: Saliency-based Input Sampling for Efficient Video Object
Detection [58.22508131162269]
ビデオオブジェクト検出のための新しい一様SALiencyベースの入力SAmpling技術であるSALISAを提案する。
SALISAは小物体の検出を著しく改善することを示す。
論文 参考訳(メタデータ) (2022-04-05T17:59:51Z) - Pattern-Aware Data Augmentation for LiDAR 3D Object Detection [7.394029879643516]
本稿では,LiDARの特性に基づいてオブジェクトの点群をダウンサンプリングするデータ拡張手法である,パターン認識基底真理サンプリングを提案する。
自動車クラスにおけるPV-RCNNの性能は,25m以上の距離で分割したKITTI検証で0.7%以上向上した。
論文 参考訳(メタデータ) (2021-11-30T19:14:47Z) - RADU: Ray-Aligned Depth Update Convolutions for ToF Data Denoising [8.142947808507369]
マルチパス干渉(MPI)による高レベルのノイズ・歪みを受ける飛行時間(ToF)カメラ
本稿では,3次元点の畳み込みにより視点方向に沿った点の位置を補正し,2.5次元データから学習するように設計した,3次元空間で動作する反復的 denoising アプローチを提案する。
本稿では,2つの実世界データセットと大規模合成データセットを含む,複数のデータセット上でSOTA法より優れていることを示す。
論文 参考訳(メタデータ) (2021-11-30T15:53:28Z) - PLUME: Efficient 3D Object Detection from Stereo Images [95.31278688164646]
既存の手法では、2つのステップでこの問題に対処する: 第一深度推定を行い、その深さ推定から擬似LiDAR点雲表現を計算し、3次元空間で物体検出を行う。
この2つのタスクを同一のメトリック空間で統一するモデルを提案する。
提案手法は,既存の手法と比較して推定時間を大幅に削減し,挑戦的なKITTIベンチマークの最先端性能を実現する。
論文 参考訳(メタデータ) (2021-01-17T05:11:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。