論文の概要: FALO: Fast and Accurate LiDAR 3D Object Detection on Resource-Constrained Devices
- arxiv url: http://arxiv.org/abs/2506.04499v1
- Date: Wed, 04 Jun 2025 22:46:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.450491
- Title: FALO: Fast and Accurate LiDAR 3D Object Detection on Resource-Constrained Devices
- Title(参考訳): FALO:資源制約デバイス上でのLiDAR 3Dオブジェクトの高速かつ高精度検出
- Authors: Shizhong Han, Hsin-Pai Cheng, Hong Cai, Jihad Masri, Soyeb Nagori, Fatih Porikli,
- Abstract要約: 既存のLiDAR 3Dオブジェクト検出方法はスパース畳み込みやトランスフォーマーに依存しており、リソース制約のあるエッジデバイス上では実行が困難である。
ハードウェアフレンドリーなLiDAR3D検出手法であるFALOを提案し,SOTA(State-of-the-art)検出精度と高速推論速度の両方を提供する。
- 参考スコア(独自算出の注目度): 38.61635285386612
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing LiDAR 3D object detection methods predominantely rely on sparse convolutions and/or transformers, which can be challenging to run on resource-constrained edge devices, due to irregular memory access patterns and high computational costs. In this paper, we propose FALO, a hardware-friendly approach to LiDAR 3D detection, which offers both state-of-the-art (SOTA) detection accuracy and fast inference speed. More specifically, given the 3D point cloud and after voxelization, FALO first arranges sparse 3D voxels into a 1D sequence based on their coordinates and proximity. The sequence is then processed by our proposed ConvDotMix blocks, consisting of large-kernel convolutions, Hadamard products, and linear layers. ConvDotMix provides sufficient mixing capability in both spatial and embedding dimensions, and introduces higher-order nonlinear interaction among spatial features. Furthermore, when going through the ConvDotMix layers, we introduce implicit grouping, which balances the tensor dimensions for more efficient inference and takes into account the growing receptive field. All these operations are friendly to run on resource-constrained platforms and proposed FALO can readily deploy on compact, embedded devices. Our extensive evaluation on LiDAR 3D detection benchmarks such as nuScenes and Waymo shows that FALO achieves competitive performance. Meanwhile, FALO is 1.6~9.8x faster than the latest SOTA on mobile Graphics Processing Unit (GPU) and mobile Neural Processing Unit (NPU).
- Abstract(参考訳): 既存のLiDAR 3Dオブジェクト検出手法は主にスパース畳み込みやトランスフォーマーに依存しており、不規則なメモリアクセスパターンと高い計算コストのため、リソース制約のあるエッジデバイス上での動作が困難である。
本稿では,ハードウェアフレンドリーなLiDAR3D検出手法であるFALOを提案する。
より具体的には、3D点雲とボクセル化の後、FALOはまず座標と近接に基づいてスパース3Dボクセルを1Dシーケンスに配列する。
このシーケンスは提案したConvDotMixブロックによって処理され、大きなカーネル畳み込み、アダマール積、線形層から構成される。
ConvDotMixは空間的次元と埋め込み次元の両方で十分な混合機能を提供し、空間的特徴間の高次非線形相互作用を導入する。
さらに、ConvDotMix層を通過する際に、より効率的な推論のためにテンソル次元のバランスをとる暗黙的なグルーピングを導入する。
これらすべての操作は、リソース制約のあるプラットフォーム上で実行されるため、提案されたFALOは、コンパクトで組み込みデバイスに容易にデプロイできる。
nuScenes や Waymo などのLiDAR 3D 検出ベンチマークの広範な評価は,FALO が競合性能を発揮することを示す。
一方、FALOはモバイルグラフィックス処理ユニット(GPU)とモバイルニューラル処理ユニット(NPU)の最新のSOTAよりも1.6~9.8倍高速である。
関連論文リスト
- FusionRCNN: LiDAR-Camera Fusion for Two-stage 3D Object Detection [11.962073589763676]
既存の3D検出器は、2段階のパラダイムを採用することで精度を大幅に向上させる。
特に遠く離れた地点では、点雲の広がりは、LiDARのみの精製モジュールがオブジェクトを正確に認識し、配置することを困難にしている。
We propose a novel multi-modality two-stage approach called FusionRCNN, which is effective and efficient fuses point clouds and camera image in the Regions of Interest(RoI)。
FusionRCNNは、強力なSECONDベースラインを6.14%のmAPで大幅に改善し、競合する2段階アプローチよりも優れている。
論文 参考訳(メタデータ) (2022-09-22T02:07:25Z) - Ret3D: Rethinking Object Relations for Efficient 3D Object Detection in
Driving Scenes [82.4186966781934]
Ret3Dと呼ばれるシンプルで効率的で効果的な2段階検出器を導入する。
Ret3Dの中核は、新しいフレーム内およびフレーム間関係モジュールの利用である。
無視できる余分なオーバーヘッドにより、Ret3Dは最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-08-18T03:48:58Z) - PillarGrid: Deep Learning-based Cooperative Perception for 3D Object
Detection from Onboard-Roadside LiDAR [15.195933965761645]
我々は,複数の3次元LiDARからの情報を融合した新しい協調認識手法であるtextitPillarGridを提案する。
PillarGrid は,1) 点雲の協調前処理,2) 軸方向のボキセル化と特徴抽出,3) 複数のセンサからの特徴のグリッド方向の深層融合,4) 畳み込みニューラルネットワーク(CNN) に基づく3Dオブジェクト検出である。
広汎な実験により、PillarGridはSOTA単一LiDARに基づく3Dオブジェクト検出法よりも精度と範囲を大きなマージンで上回ることがわかった。
論文 参考訳(メタデータ) (2022-03-12T02:28:41Z) - Dense Voxel Fusion for 3D Object Detection [10.717415797194896]
ボクセル融合 (Voxel Fusion, DVF) は, 多スケール密度ボクセル特徴表現を生成する逐次融合法である。
地上の真理2Dバウンディングボックスラベルを直接トレーニングし、ノイズの多い検出器固有の2D予測を避けます。
提案したマルチモーダルトレーニング戦略は, 誤った2次元予測を用いたトレーニングに比べ, より一般化できることを示す。
論文 参考訳(メタデータ) (2022-03-02T04:51:31Z) - Progressive Coordinate Transforms for Monocular 3D Object Detection [52.00071336733109]
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
論文 参考訳(メタデータ) (2021-08-12T15:22:33Z) - Anchor-free 3D Single Stage Detector with Mask-Guided Attention for
Point Cloud [79.39041453836793]
我々は、点雲をアンカーフリーで検出する新しい1段3次元検出器を開発した。
ボクセルをベースとしたスパース3D特徴量からスパース2D特徴量マップに変換することでこれを克服する。
検出信頼度スコアとバウンディングボックス回帰の精度との相関性を改善するために,IoUに基づく検出信頼度再校正手法を提案する。
論文 参考訳(メタデータ) (2021-08-08T13:42:13Z) - Cylindrical and Asymmetrical 3D Convolution Networks for LiDAR
Segmentation [81.02742110604161]
大規模運転シーンのLiDARセグメンテーションのための最先端の手法は、しばしば点雲を2次元空間に投影し、2D畳み込みによって処理する。
そこで我々は,3次元幾何学的パタンを探索するために,円筒分割と非対称な3次元畳み込みネットワークを設計する,屋外LiDARセグメンテーションのための新しいフレームワークを提案する。
提案手法はセマンティックKITTIのリーダーボードにおいて第1位を獲得し,既存のnuScenesの手法を約4%のマージンで上回っている。
論文 参考訳(メタデータ) (2020-11-19T18:53:11Z) - Generative Sparse Detection Networks for 3D Single-shot Object Detection [43.91336826079574]
3Dオブジェクト検出は、ロボット工学や拡張現実など多くの有望な分野に適用可能であるため、広く研究されている。
しかし、3Dデータのまばらな性質は、このタスクに固有の課題をもたらしている。
本稿では,完全畳み込み単一ショットスパース検出ネットワークであるGenerative Sparse Detection Network (GSDN)を提案する。
論文 参考訳(メタデータ) (2020-06-22T15:54:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。