論文の概要: PillarDETR: YOLO-Backbone and RT-DETR Head for Real-Time 3D Object Detection
- arxiv url: http://arxiv.org/abs/2606.01757v1
- Date: Mon, 01 Jun 2026 06:22:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:31.415608
- Title: PillarDETR: YOLO-Backbone and RT-DETR Head for Real-Time 3D Object Detection
- Title(参考訳): PillarDETR:リアルタイム3Dオブジェクト検出のためのYOLOバックボーンとRT-DETRヘッド
- Authors: Smit Kadvani, Shriya Gumber, Kriti Faujdar, Harsh Dave,
- Abstract要約: リアルタイム3Dオブジェクト検出は、自律運転システムとロボティクスの安全な操作にとって重要な要素である。
従来の手法は複雑な3D畳み込みやアンカーベースのパラダイムに依存しており、検出精度と推論速度のバランスをとるのに苦労している。
我々は、柱型LiDAR符号化の効率と現代の2次元視覚モデルの表現力を組み合わせた、新しいエンドツーエンドの3Dオブジェクト検出アーキテクチャであるPillarDETRを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Real-time 3D object detection is a critical component for the safe operation of autonomous driving systems and robotics. While LiDAR point clouds provide accurate spatial information, processing them efficiently remains a significant challenge. Traditional methods rely on complex 3D convolutions or anchor-based paradigms that struggle to balance detection accuracy with inference speed. In this paper, we propose PillarDETR, a novel end-to-end 3D object detection architecture that combines the efficiency of pillar-based LiDAR encoding with the representational power of modern 2D vision models. Specifically, PillarDETR replaces standard convolutional backbones with a Cross Stage Partial (CSP) network derived from YOLOv8, enabling richer feature extraction from pseudoimages. Furthermore, we discard conventional anchor-based or center-based detection heads in favor of a Real-Time Detection Transformer (RT-DETR) decoder. This hybrid design allows the network to capture global context and directly predict 3D bounding boxes without relying on non-maximum suppression (NMS). Extensive experiments on the KITTI and nuScenes benchmarks demonstrate that PillarDETR achieves a compelling trade-off between mean Average Precision (mAP) and inference latency. Our ablation studies confirm that integrating the YOLOv8 backbone and RT-DETR head yields substantial improvements over the PointPillars baseline, establishing PillarDETR as a highly effective solution for real-time 3D perception.
- Abstract(参考訳): リアルタイム3Dオブジェクト検出は、自律運転システムとロボティクスの安全な操作にとって重要な要素である。
LiDAR点雲は正確な空間情報を提供するが、それらを効率的に処理することは重要な課題である。
従来の手法は複雑な3D畳み込みやアンカーベースのパラダイムに依存しており、検出精度と推論速度のバランスをとるのに苦労している。
本稿では,PillarDETRを提案する。PillarDETRは,柱型LiDAR符号化の効率性と,現代の2次元視覚モデルの表現力を両立する,新しいエンドツーエンドの3Dオブジェクト検出アーキテクチャである。
具体的には、PillarDETRは標準の畳み込みバックボーンをYOLOv8から派生したクロスステージ部分(CSP)ネットワークに置き換え、擬似画像からよりリッチな特徴抽出を可能にする。
さらに、従来のアンカーベースまたはセンターベース検出ヘッドを廃止し、リアルタイム検出変換器(RT-DETR)デコーダを採用する。
このハイブリッド設計により、ネットワークはグローバルなコンテキストをキャプチャし、非最大抑圧(NMS)に頼ることなく直接3D境界ボックスを予測することができる。
KITTIとnuScenesベンチマークの大規模な実験は、PillarDETRが平均平均精度(mAP)と推論遅延の間の魅力的なトレードオフを達成していることを示している。
我々のアブレーション研究は、YOLOv8バックボーンとRT-DETRヘッドの統合がPointPillarsベースラインを大幅に改善することを確認し、PillarDETRをリアルタイム3D知覚の高効率ソリューションとして確立した。
関連論文リスト
- RQR3D: Reparametrizing the regression targets for BEV-based 3D object detection [0.4604003661048266]
Bird's-eye view (BEV)ベースの知覚アプローチは、パースペクティブベースのソリューションの優れた代替手段として現れている。
本稿では,3次元回帰目標を定義するために,制限付き四辺形表現を提案する。
RQR3Dは、2つのボックスの隅の間にあるオフセットとともに、指向するボックスをカプセル化する最小の水平境界ボックスを回帰する。
論文 参考訳(メタデータ) (2025-05-23T10:52:34Z) - DM3D: Distortion-Minimized Weight Pruning for Lossless 3D Object Detection [42.07920565812081]
本稿では,3次元物体検出のための新しいトレーニング後の重み付け手法を提案する。
事前訓練されたモデルにおける冗長パラメータを決定し、局所性と信頼性の両方において最小限の歪みをもたらす。
本フレームワークは,ネットワーク出力の歪みを最小限に抑え,検出精度を最大に維持することを目的とする。
論文 参考訳(メタデータ) (2024-07-02T09:33:32Z) - Cross-Cluster Shifting for Efficient and Effective 3D Object Detection
in Autonomous Driving [69.20604395205248]
本稿では,自律運転における3次元物体検出のための3次元点検出モデルであるShift-SSDを提案する。
我々は、ポイントベース検出器の表現能力を解き放つために、興味深いクロスクラスタシフト操作を導入する。
我々は、KITTI、ランタイム、nuScenesデータセットに関する広範な実験を行い、Shift-SSDの最先端性能を実証した。
論文 参考訳(メタデータ) (2024-03-10T10:36:32Z) - Spatial-Temporal Graph Enhanced DETR Towards Multi-Frame 3D Object Detection [54.041049052843604]
STEMDは,多フレーム3Dオブジェクト検出のためのDETRのようなパラダイムを改良した,新しいエンドツーエンドフレームワークである。
まず、オブジェクト間の空間的相互作用と複雑な時間的依存をモデル化するために、空間的時間的グラフアテンションネットワークを導入する。
最後に、ネットワークが正のクエリと、ベストマッチしない他の非常に類似したクエリを区別することが課題となる。
論文 参考訳(メタデータ) (2023-07-01T13:53:14Z) - Pillar R-CNN for Point Cloud 3D Object Detection [4.169126928311421]
我々はPillar R-CNNという概念的にシンプルで効果的な2段階の3D検出アーキテクチャを考案した。
我々のPillar R-CNNは、大規模Openデータセット上の最先端の3D検出器に対して好意的に動作します。
自律運転を含むアプリケーションに対するBEVのさらなる認識は、効果的でエレガントなPillar R-CNNアーキテクチャのおかげで可能になった。
論文 参考訳(メタデータ) (2023-02-26T12:07:25Z) - Ret3D: Rethinking Object Relations for Efficient 3D Object Detection in
Driving Scenes [82.4186966781934]
Ret3Dと呼ばれるシンプルで効率的で効果的な2段階検出器を導入する。
Ret3Dの中核は、新しいフレーム内およびフレーム間関係モジュールの利用である。
無視できる余分なオーバーヘッドにより、Ret3Dは最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-08-18T03:48:58Z) - PillarNet: Real-Time and High-Performance Pillar-based 3D Object
Detection [4.169126928311421]
リアルタイムかつ高性能な3Dオブジェクト検出は、自動運転にとって重要な課題である。
最近のトップパフォーマンスの3Dオブジェクト検出器は、主に点ベースまたは3Dボクセルベースの畳み込みに依存している。
我々はPillarNetと呼ばれるリアルタイムかつ高性能な柱型検出器を開発した。
論文 参考訳(メタデータ) (2022-05-16T00:14:50Z) - Progressive Coordinate Transforms for Monocular 3D Object Detection [52.00071336733109]
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
論文 参考訳(メタデータ) (2021-08-12T15:22:33Z) - Reinforced Axial Refinement Network for Monocular 3D Object Detection [160.34246529816085]
モノクロ3次元物体検出は、2次元入力画像から物体の位置と特性を抽出することを目的としている。
従来のアプローチでは、空間から3D境界ボックスをサンプリングし、対象オブジェクトと各オブジェクトの関係を推定するが、有効サンプルの確率は3D空間で比較的小さい。
我々は,まず最初の予測から始めて,各ステップで1つの3dパラメータだけを変えて,基礎的真理に向けて徐々に洗練することを提案する。
これは、いくつかのステップの後に報酬を得るポリシーを設計する必要があるため、最適化するために強化学習を採用します。
論文 参考訳(メタデータ) (2020-08-31T17:10:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。