論文の概要: Systematic Evaluation of Depth Backbones and Semantic Cues for Monocular Pseudo-LiDAR 3D Detection
- arxiv url: http://arxiv.org/abs/2601.03617v1
- Date: Wed, 07 Jan 2026 05:57:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-08 18:12:46.136978
- Title: Systematic Evaluation of Depth Backbones and Semantic Cues for Monocular Pseudo-LiDAR 3D Detection
- Title(参考訳): 単眼Pseudo-LiDAR 3D検出のための奥行き骨と意味キュートの体系的評価
- Authors: Samson Oseiwe Ajadalu,
- Abstract要約: KITTI検証において,深度バックボーンと機能工学が単分子Pseudo-LiDARパイプラインに与える影響を評価する。
既製のLiDAR検出器の下では、奥行きバックボーンの選択と幾何学的忠実度が二次的特徴注入よりも優れていた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Monocular 3D object detection offers a low-cost alternative to LiDAR, yet remains less accurate due to the difficulty of estimating metric depth from a single image. We systematically evaluate how depth backbones and feature engineering affect a monocular Pseudo-LiDAR pipeline on the KITTI validation split. Specifically, we compare NeWCRFs (supervised metric depth) against Depth Anything V2 Metric-Outdoor (Base) under an identical pseudo-LiDAR generation and PointRCNN detection protocol. NeWCRFs yields stronger downstream 3D detection, achieving 10.50\% AP$_{3D}$ at IoU$=0.7$ on the Moderate split using grayscale intensity (Exp~2). We further test point-cloud augmentations using appearance cues (grayscale intensity) and semantic cues (instance segmentation confidence). Contrary to the expectation that semantics would substantially close the gap, these features provide only marginal gains, and mask-based sampling can degrade performance by removing contextual geometry. Finally, we report a depth-accuracy-versus-distance diagnostic using ground-truth 2D boxes (including Ped/Cyc), highlighting that coarse depth correctness does not fully predict strict 3D IoU. Overall, under an off-the-shelf LiDAR detector, depth-backbone choice and geometric fidelity dominate performance, outweighing secondary feature injection.
- Abstract(参考訳): モノクロ3Dオブジェクト検出は、LiDARに代わる低コストの代替手段を提供するが、単一の画像からメートル法深度を推定することが困難であるため、精度は低い。
KITTI検証において,奥行きバックボーンと特徴工学が単分子Pseudo-LiDARパイプラインに与える影響を系統的に評価した。
具体的には、同じ擬似LiDAR生成とPointRCNN検出プロトコルの下で、NeWCRF(教師付きメートル法深さ)とDepth Anything V2 Metric-Outdoor(Base)を比較した。
NeWCRFは下流3Dの検出を強くし、10.50\% AP$_{3D}$をIoU$=0.7$で達成する。
さらに、外見的手がかり(グレースケール強度)と意味的手がかり(インスタンスセグメンテーション信頼度)を用いて、ポイントクラウドの強化をテストする。
セマンティクスが大幅にギャップを埋めるという期待とは対照的に、これらの特徴は限界ゲインのみを提供し、マスクベースのサンプリングは文脈幾何学を除去することで性能を低下させることができる。
最後に,Ped/Cycを含む接地型2Dボックスを用いた深度逆距離診断を行い,粗い深度精度が厳密な3D IoUを十分に予測できないことを示した。
全体として、既製のLiDAR検出器の下では、深さバックボーンの選択と幾何学的忠実度が二次的特徴注入よりも優れていた。
関連論文リスト
- Revisiting Monocular 3D Object Detection with Depth Thickness Field [44.4805861813093]
モノクロ3次元物体検出のためのシーン・ツー・インスタンス深度適応ネットワークであるMonoDTFを提案する。
このフレームワークは主にSDR(Scene-Level Depth Retargeting)モジュールとISR(Instance-Level Spatial Refinement)モジュールで構成される。
後者は、インスタンスの誘導によりボクセル空間を洗練し、深さ厚さ場の3Dインスタンス認識能力を向上する。
論文 参考訳(メタデータ) (2024-12-26T10:51:50Z) - NeRF-Det++: Incorporating Semantic Cues and Perspective-aware Depth
Supervision for Indoor Multi-View 3D Detection [72.0098999512727]
NeRF-Detは、NeRFを用いた屋内マルチビュー3次元検出において、表現学習の強化による優れた性能を実現している。
セマンティックエンハンスメント(セマンティックエンハンスメント)、パースペクティブ・アウェア・サンプリング(パースペクティブ・アウェア・サンプリング)、および順序深度監視を含む3つのソリューションを提案する。
結果として得られたアルゴリズムであるNeRF-Det++は、ScanNetV2とAR KITScenesデータセットで魅力的なパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-02-22T11:48:06Z) - OPA-3D: Occlusion-Aware Pixel-Wise Aggregation for Monocular 3D Object
Detection [51.153003057515754]
OPA-3Dは、Occlusion-Aware Pixel-Wise Aggregationネットワークである。
密集した風景深度と、奥行きのある箱残量と物の境界箱を共同で推定する。
メインカーのカテゴリーでは最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2022-11-02T14:19:13Z) - The KFIoU Loss for Rotated Object Detection [115.334070064346]
本稿では,SkewIoU損失とトレンドレベルアライメントを両立できる近似的損失を考案する上で,有効な方法の1つとして論じる。
具体的には、対象をガウス分布としてモデル化し、SkewIoUのメカニズムを本質的に模倣するためにカルマンフィルタを採用する。
KFIoUと呼ばれる新たな損失は実装が容易で、正確なSkewIoUよりもうまく動作する。
論文 参考訳(メタデータ) (2022-01-29T10:54:57Z) - Anchor-free 3D Single Stage Detector with Mask-Guided Attention for
Point Cloud [79.39041453836793]
我々は、点雲をアンカーフリーで検出する新しい1段3次元検出器を開発した。
ボクセルをベースとしたスパース3D特徴量からスパース2D特徴量マップに変換することでこれを克服する。
検出信頼度スコアとバウンディングボックス回帰の精度との相関性を改善するために,IoUに基づく検出信頼度再校正手法を提案する。
論文 参考訳(メタデータ) (2021-08-08T13:42:13Z) - Cylindrical and Asymmetrical 3D Convolution Networks for LiDAR
Segmentation [81.02742110604161]
大規模運転シーンのLiDARセグメンテーションのための最先端の手法は、しばしば点雲を2次元空間に投影し、2D畳み込みによって処理する。
そこで我々は,3次元幾何学的パタンを探索するために,円筒分割と非対称な3次元畳み込みネットワークを設計する,屋外LiDARセグメンテーションのための新しいフレームワークを提案する。
提案手法はセマンティックKITTIのリーダーボードにおいて第1位を獲得し,既存のnuScenesの手法を約4%のマージンで上回っている。
論文 参考訳(メタデータ) (2020-11-19T18:53:11Z) - Monocular Depth Prediction through Continuous 3D Loss [16.617016980396865]
本稿では,モノクル画像から深度を学習するための連続3次元ロス関数について報告する。
特異なLIDAR点を用いて単眼画像からの深度予測を監督する。
実験により,提案した損失により深度予測精度が向上し,より一貫した3次元幾何構造を持つ点雲が生成されることがわかった。
論文 参考訳(メタデータ) (2020-03-21T22:47:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。