論文の概要: BEAM: Beta Distribution Ray Denoising for Multi-view 3D Object Detection
- arxiv url: http://arxiv.org/abs/2402.03634v1
- Date: Tue, 6 Feb 2024 02:17:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 16:54:38.209686
- Title: BEAM: Beta Distribution Ray Denoising for Multi-view 3D Object Detection
- Title(参考訳): BEAM:多視点3Dオブジェクト検出のためのベータ分布レイデノイング
- Authors: Feng Liu, Tengteng Huang, Qianjing Zhang, Haotian Yao, Chi Zhang, Fang
Wan, Qixiang Ye, Yanzhao Zhou
- Abstract要約: 多視点3Dオブジェクト検出器は深度情報の欠如により重複予測に苦慮する。
BEAM(Beta Distribution Ray Denoising approach)は、DETR方式のマルチビュー3D検出器に適用可能な、新しいBeta Distribution Ray Denoising approachである。
- 参考スコア(独自算出の注目度): 46.041193889845474
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-view 3D object detectors struggle with duplicate predictions due to the
lack of depth information, resulting in false positive detections. In this
study, we introduce BEAM, a novel Beta Distribution Ray Denoising approach that
can be applied to any DETR-style multi-view 3D detector to explicitly
incorporate structure prior knowledge of the scene. By generating rays from
cameras to objects and sampling spatial denoising queries from the Beta
distribution family along these rays, BEAM enhances the model's ability to
distinguish spatial hard negative samples arising from ambiguous depths. BEAM
is a plug-and-play technique that adds only marginal computational costs during
training, while impressively preserving the inference speed. Extensive
experiments and ablation studies on the NuScenes dataset demonstrate
significant improvements over strong baselines, outperforming the
state-of-the-art method StreamPETR by 1.9% mAP. The code will be available at
https://github.com/LiewFeng/BEAM.
- Abstract(参考訳): 多視点3Dオブジェクト検出器は、深度情報の欠如による重複予測に苦慮し、偽陽性検出を行う。
本研究では,DTR方式のマルチビュー3D検出器に適用可能な,新しいBeta Distribution Ray DenoisingアプローチであるBEAMを紹介した。
カメラからオブジェクトへの光線を生成し、これらの光線に沿ってベータ分布系から空間デノジングクエリをサンプリングすることにより、BEAMは曖昧な深さから生じる空間的な硬い負のサンプルを識別する能力を高める。
BEAMは、トレーニング中に限界計算コストのみを追加し、推論速度を著しく保存するプラグイン・アンド・プレイ技術である。
NuScenesデータセットの大規模な実験とアブレーション研究は、強力なベースラインよりも大幅に改善され、最先端のStreamPETRよりも1.9%向上した。
コードはhttps://github.com/LiewFeng/BEAM.comから入手できる。
関連論文リスト
- Approaching Outside: Scaling Unsupervised 3D Object Detection from 2D Scene [22.297964850282177]
教師なし3次元検出のためのLiDAR-2D Self-paced Learning (LiSe)を提案する。
RGB画像は、正確な2Dローカライゼーションキューを提供するLiDARデータの貴重な補完となる。
本フレームワークでは,適応型サンプリングと弱いモデルアグリゲーション戦略を組み込んだ自己評価学習パイプラインを考案する。
論文 参考訳(メタデータ) (2024-07-11T14:58:49Z) - NeRF-Det++: Incorporating Semantic Cues and Perspective-aware Depth
Supervision for Indoor Multi-View 3D Detection [72.0098999512727]
NeRF-Detは、NeRFを用いた屋内マルチビュー3次元検出において、表現学習の強化による優れた性能を実現している。
セマンティックエンハンスメント(セマンティックエンハンスメント)、パースペクティブ・アウェア・サンプリング(パースペクティブ・アウェア・サンプリング)、および順序深度監視を含む3つのソリューションを提案する。
結果として得られたアルゴリズムであるNeRF-Det++は、ScanNetV2とAR KITScenesデータセットで魅力的なパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-02-22T11:48:06Z) - VirtualPainting: Addressing Sparsity with Virtual Points and
Distance-Aware Data Augmentation for 3D Object Detection [3.5259183508202976]
本稿では,カメラ画像を用いた仮想LiDAR点の生成を含む革新的なアプローチを提案する。
また、画像ベースセグメンテーションネットワークから得られる意味ラベルを用いて、これらの仮想点を強化する。
このアプローチは、様々な3Dフレームワークと2Dセマンティックセグメンテーションメソッドにシームレスに統合できる汎用的なソリューションを提供する。
論文 参考訳(メタデータ) (2023-12-26T18:03:05Z) - Leveraging Neural Radiance Fields for Uncertainty-Aware Visual
Localization [56.95046107046027]
我々は,Neural Radiance Fields (NeRF) を用いてシーン座標回帰のためのトレーニングサンプルを生成することを提案する。
レンダリングにおけるNeRFの効率にもかかわらず、レンダリングされたデータの多くはアーティファクトによって汚染されるか、最小限の情報ゲインしか含まない。
論文 参考訳(メタデータ) (2023-10-10T20:11:13Z) - Boosting 3D Object Detection by Simulating Multimodality on Point Clouds [51.87740119160152]
本稿では,LiDAR 画像検出器に追従する特徴や応答をシミュレートすることで,単一モダリティ (LiDAR) 3次元物体検出器を高速化する新しい手法を提案する。
このアプローチでは、単一モダリティ検出器をトレーニングする場合のみ、LiDARイメージデータを必要とし、十分にトレーニングされた場合には、推論時にのみLiDARデータが必要である。
nuScenesデータセットの実験結果から,本手法はSOTA LiDARのみの3D検出器よりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-06-30T01:44:30Z) - SALISA: Saliency-based Input Sampling for Efficient Video Object
Detection [58.22508131162269]
ビデオオブジェクト検出のための新しい一様SALiencyベースの入力SAmpling技術であるSALISAを提案する。
SALISAは小物体の検出を著しく改善することを示す。
論文 参考訳(メタデータ) (2022-04-05T17:59:51Z) - Pattern-Aware Data Augmentation for LiDAR 3D Object Detection [7.394029879643516]
本稿では,LiDARの特性に基づいてオブジェクトの点群をダウンサンプリングするデータ拡張手法である,パターン認識基底真理サンプリングを提案する。
自動車クラスにおけるPV-RCNNの性能は,25m以上の距離で分割したKITTI検証で0.7%以上向上した。
論文 参考訳(メタデータ) (2021-11-30T19:14:47Z) - RADU: Ray-Aligned Depth Update Convolutions for ToF Data Denoising [8.142947808507369]
マルチパス干渉(MPI)による高レベルのノイズ・歪みを受ける飛行時間(ToF)カメラ
本稿では,3次元点の畳み込みにより視点方向に沿った点の位置を補正し,2.5次元データから学習するように設計した,3次元空間で動作する反復的 denoising アプローチを提案する。
本稿では,2つの実世界データセットと大規模合成データセットを含む,複数のデータセット上でSOTA法より優れていることを示す。
論文 参考訳(メタデータ) (2021-11-30T15:53:28Z) - PLUME: Efficient 3D Object Detection from Stereo Images [95.31278688164646]
既存の手法では、2つのステップでこの問題に対処する: 第一深度推定を行い、その深さ推定から擬似LiDAR点雲表現を計算し、3次元空間で物体検出を行う。
この2つのタスクを同一のメトリック空間で統一するモデルを提案する。
提案手法は,既存の手法と比較して推定時間を大幅に削減し,挑戦的なKITTIベンチマークの最先端性能を実現する。
論文 参考訳(メタデータ) (2021-01-17T05:11:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。