論文の概要: SparseDet: A Simple and Effective Framework for Fully Sparse LiDAR-based 3D Object Detection
- arxiv url: http://arxiv.org/abs/2406.10907v1
- Date: Sun, 16 Jun 2024 12:11:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-18 20:02:29.338109
- Title: SparseDet: A Simple and Effective Framework for Fully Sparse LiDAR-based 3D Object Detection
- Title(参考訳): SparseDet: 完全スパースLiDARに基づく3Dオブジェクト検出のためのシンプルで効果的なフレームワーク
- Authors: Lin Liu, Ziying Song, Qiming Xia, Feiyang Jia, Caiyan Jia, Lei Yang, Hongyu Pan,
- Abstract要約: LiDARベースのスパース3Dオブジェクト検出は、自動運転アプリケーションにおいて重要な役割を果たす。
既存のメソッドでは、単一の中央のvoxelの機能をオブジェクトプロキシとして使用するか、フォアグラウンドポイントの集約されたクラスタをオブジェクトプロキシとして扱う。
本稿では,スパースクエリをオブジェクトプロキシとして設計するSparseDetを提案する。
- 参考スコア(独自算出の注目度): 14.137208879448389
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LiDAR-based sparse 3D object detection plays a crucial role in autonomous driving applications due to its computational efficiency advantages. Existing methods either use the features of a single central voxel as an object proxy, or treat an aggregated cluster of foreground points as an object proxy. However, the former lacks the ability to aggregate contextual information, resulting in insufficient information expression in object proxies. The latter relies on multi-stage pipelines and auxiliary tasks, which reduce the inference speed. To maintain the efficiency of the sparse framework while fully aggregating contextual information, in this work, we propose SparseDet which designs sparse queries as object proxies. It introduces two key modules, the Local Multi-scale Feature Aggregation (LMFA) module and the Global Feature Aggregation (GFA) module, aiming to fully capture the contextual information, thereby enhancing the ability of the proxies to represent objects. Where LMFA sub-module achieves feature fusion across different scales for sparse key voxels %which does this through via coordinate transformations and using nearest neighbor relationships to capture object-level details and local contextual information, GFA sub-module uses self-attention mechanisms to selectively aggregate the features of the key voxels across the entire scene for capturing scene-level contextual information. Experiments on nuScenes and KITTI demonstrate the effectiveness of our method. Specifically, on nuScene, SparseDet surpasses the previous best sparse detector VoxelNeXt by 2.2\% mAP with 13.5 FPS, and on KITTI, it surpasses VoxelNeXt by 1.12\% $\mathbf{AP_{3D}}$ on hard level tasks with 17.9 FPS.
- Abstract(参考訳): LiDARベースのスパース3Dオブジェクト検出は、その計算効率の優位性から、自律運転アプリケーションにおいて重要な役割を果たす。
既存のメソッドでは、単一の中央のvoxelの機能をオブジェクトプロキシとして使用するか、フォアグラウンドポイントの集約されたクラスタをオブジェクトプロキシとして扱う。
しかし、前者は文脈情報を集約する能力に欠けており、結果としてオブジェクトプロキシでの情報表現が不十分になる。
後者はマルチステージパイプラインと補助的なタスクに依存しており、推論速度が低下する。
本研究では,スパースクエリをオブジェクトプロキシとして設計するSparseDetを提案する。
ローカル・マルチスケール・フィーチャー・アグリゲーション(LMFA)モジュールとグローバル・フィーチャー・アグリゲーション(GFA)モジュールという2つの重要なモジュールが導入されている。
LMFAサブモジュールは、コーディネート変換を経由し、隣接する関係を利用してオブジェクトレベルの詳細と局所的なコンテキスト情報をキャプチャする。GFAサブモジュールは、自己アテンションメカニズムを使用して、シーン全体のキーボクセルの特徴を選択的に集約し、シーンレベルのコンテキスト情報をキャプチャする。
nuScenes と KITTI の実験により,本手法の有効性が示された。
具体的には、nuSceneでは、SparseDetは以前の最高のスパース検出器であるVoxelNeXtを2.2\% mAPで13.5 FPSで上回り、KITTIではVoxelNeXtを1.12\%$\mathbf{AP_{3D}}$で上回り、17.9 FPSのハードレベルタスクで上回ります。
関連論文リスト
- LR-FPN: Enhancing Remote Sensing Object Detection with Location Refined Feature Pyramid Network [2.028685490378346]
浅い位置情報の抽出を促進するために,新しい位置改良型特徴ピラミッドネットワーク(LR-FPN)を提案する。
2つの大規模なリモートセンシングデータセットの実験により、提案したLR-FPNは最先端のオブジェクト検出手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-04-02T03:36:07Z) - Background Activation Suppression for Weakly Supervised Object
Localization and Semantic Segmentation [84.62067728093358]
弱教師付きオブジェクトローカライゼーションとセマンティックセグメンテーションは、画像レベルのラベルのみを使用してオブジェクトをローカライズすることを目的としている。
画素レベルのローカライゼーションを実現するために,フォアグラウンド予測マップを生成することで,新たなパラダイムが誕生した。
本稿では,物体の局在化学習過程に関する2つの驚くべき実験結果を示す。
論文 参考訳(メタデータ) (2023-09-22T15:44:10Z) - PSGformer: Enhancing 3D Point Cloud Instance Segmentation via Precise
Semantic Guidance [11.097083846498581]
PSGformerは、新しい3Dインスタンスセグメンテーションネットワークである。
3Dインスタンスセグメンテーションのパフォーマンスを高めるために、2つの重要な進歩が組み込まれている。
これは、mAPの点でScanNetv2の隠れテストセットで比較した最先端のメソッドを2.2%上回る。
論文 参考訳(メタデータ) (2023-07-15T04:45:37Z) - MIANet: Aggregating Unbiased Instance and General Information for
Few-Shot Semantic Segmentation [6.053853367809978]
既存の少数ショットセグメンテーション手法はメタラーニング戦略に基づいて,サポートセットからインスタンス知識を抽出する。
本稿では,多情報集約ネットワーク(MIANet)を提案する。
PASCAL-5iとCOCO-20iの実験により、MIANetは優れた性能を示し、新しい最先端技術を確立した。
論文 参考訳(メタデータ) (2023-05-23T09:36:27Z) - VoxelNeXt: Fully Sparse VoxelNet for 3D Object Detection and Tracking [78.25819070166351]
完全スパース3次元物体検出のためのVoxelNextを提案する。
私たちの中核となる洞察は、手作りのプロキシに頼ることなく、スパースボクセル機能に基づいてオブジェクトを直接予測することです。
私たちの強力なスパース畳み込みネットワークVoxelNeXtは、voxelの機能を通して3Dオブジェクトを検出し、追跡します。
論文 参考訳(メタデータ) (2023-03-20T17:40:44Z) - CAGroup3D: Class-Aware Grouping for 3D Object Detection on Point Clouds [55.44204039410225]
本稿では,CAGroup3Dという新しい2段階完全スパース3Dオブジェクト検出フレームワークを提案する。
提案手法は,まず,オブジェクト表面のボクセル上でのクラス認識型局所群戦略を活用することによって,高品質な3D提案を生成する。
不正なボクセルワイドセグメンテーションにより欠落したボクセルの特徴を回復するために,完全にスパースな畳み込み型RoIプールモジュールを構築した。
論文 参考訳(メタデータ) (2022-10-09T13:38:48Z) - PV-RCNN++: Semantical Point-Voxel Feature Interaction for 3D Object
Detection [22.6659359032306]
本稿では,PV-RCNN++と呼ばれる意味的特徴相互作用を用いた新しいオブジェクト検出ネットワークを提案する。
KITTIデータセットの実験によると、PV-RCNN++は81.60$%$, 40.18$%$, 68.21$%$ 3D mAP on Car, Pedestrian, Cyclistで達成され、最先端技術と同等またはそれ以上のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2022-08-29T08:14:00Z) - Sparse Instance Activation for Real-Time Instance Segmentation [72.23597664935684]
本稿では,リアルタイムインスタンスセグメンテーションのための概念的・効率的・完全畳み込み型フレームワークを提案する。
SparseInstは非常に高速な推論速度を持ち、COCOベンチマークで40 FPSと37.9 APを達成した。
論文 参考訳(メタデータ) (2022-03-24T03:15:39Z) - VIN: Voxel-based Implicit Network for Joint 3D Object Detection and
Segmentation for Lidars [12.343333815270402]
統合ニューラルネットワーク構造は、ジョイント3Dオブジェクト検出とポイントクラウドセグメンテーションのために提示される。
私たちは、検出ラベルとセグメンテーションラベルの両方からの豊富な監視を活用しています。
論文 参考訳(メタデータ) (2021-07-07T02:16:20Z) - LiDAR-based Panoptic Segmentation via Dynamic Shifting Network [56.71765153629892]
LiDARベースのパノプティカルセグメンテーションは、オブジェクトとシーンを統一的に解析することを目的としている。
本稿では,ポイントクラウド領域における効果的な単視分割フレームワークとして機能する動的シフトネットワーク(DS-Net)を提案する。
提案するDS-Netは,現在の最先端手法よりも優れた精度を実現する。
論文 参考訳(メタデータ) (2020-11-24T08:44:46Z) - Cross-layer Feature Pyramid Network for Salient Object Detection [102.20031050972429]
本稿では,有能な物体検出における進行的融合を改善するために,新しいクロス層特徴ピラミッドネットワークを提案する。
レイヤごとの分散機能は、他のすべてのレイヤからセマンティクスと健全な詳細の両方を同時に所有し、重要な情報の損失を減らします。
論文 参考訳(メタデータ) (2020-02-25T14:06:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。