論文の概要: SFMNet: Sparse Focal Modulation for 3D Object Detection
- arxiv url: http://arxiv.org/abs/2503.12093v1
- Date: Sat, 15 Mar 2025 11:40:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:31:28.730412
- Title: SFMNet: Sparse Focal Modulation for 3D Object Detection
- Title(参考訳): SFMNet:3次元物体検出のためのスパース焦点変調
- Authors: Oren Shrout, Ayellet Tal,
- Abstract要約: SFMNetは、スパース畳み込みの効率と長距離依存をモデル化する能力を組み合わせた、新しい3次元スパース検出器である。
そこで本研究では,自律走行データセットの最先端性能について述べる。
- 参考スコア(独自算出の注目度): 11.19540223578237
- License:
- Abstract: We propose SFMNet, a novel 3D sparse detector that combines the efficiency of sparse convolutions with the ability to model long-range dependencies. While traditional sparse convolution techniques efficiently capture local structures, they struggle with modeling long-range relationships. However, capturing long-range dependencies is fundamental for 3D object detection. In contrast, transformers are designed to capture these long-range dependencies through attention mechanisms. But, they come with high computational costs, due to their quadratic query-key-value interactions. Furthermore, directly applying attention to non-empty voxels is inefficient due to the sparse nature of 3D scenes. Our SFMNet is built on a novel Sparse Focal Modulation (SFM) module, which integrates short- and long-range contexts with linear complexity by leveraging a new hierarchical sparse convolution design. This approach enables SFMNet to achieve high detection performance with improved efficiency, making it well-suited for large-scale LiDAR scenes. We show that our detector achieves state-of-the-art performance on autonomous driving datasets.
- Abstract(参考訳): 本研究では,スパース畳み込みの効率と長距離依存性をモデル化する能力を組み合わせた新しい3次元スパース検出器であるSFMNetを提案する。
伝統的なスパース畳み込み技術は局所構造を効率的に捉えるが、長距離関係のモデリングに苦労する。
しかし、3Dオブジェクト検出には、長距離依存関係のキャプチャが不可欠である。
対照的に、トランスフォーマーは、注意機構を通じてこれらの長距離依存関係をキャプチャするように設計されている。
しかし、2次クエリキー値の相互作用のため、計算コストが高い。
さらに, 空でないボクセルに注意を向けることは, 3次元シーンのスパースな性質のため非効率である。
SFMNetはSparse Focal Modulation (SFM) モジュール上に構築されており、新しい階層的なスパース畳み込み設計を利用して、短距離・長距離コンテキストと線形複雑度を統合する。
このアプローチにより、SFMNetは効率を向上して高い検出性能を達成でき、大規模LiDARシーンに適している。
そこで本研究では,自律走行データセットの最先端性能について述べる。
関連論文リスト
- Efficient Oriented Object Detection with Enhanced Small Object Recognition in Aerial Images [2.9138705529771123]
本稿では,オブジェクト指向物体検出タスクに適したYOLOv8モデルを新たに拡張する。
本モデルでは,ASFP(Adaptive Scale Feature Pyramid)モジュールと,P2層の詳細を利用したウェーブレット変換に基づくC2fモジュールを特徴とする。
我々のアプローチは233万のパラメータを持つDecoupleNetよりも効率的なアーキテクチャ設計を提供し、検出精度を維持しています。
論文 参考訳(メタデータ) (2024-12-17T05:45:48Z) - EffiCANet: Efficient Time Series Forecasting with Convolutional Attention [12.784289506021265]
EffiCANetは計算効率を維持しながら予測精度を向上させるように設計されている。
EffiCANetは最先端モデルに対するMAEの最大10.02%の削減を実現している。
論文 参考訳(メタデータ) (2024-11-07T12:54:42Z) - Cross-Cluster Shifting for Efficient and Effective 3D Object Detection
in Autonomous Driving [69.20604395205248]
本稿では,自律運転における3次元物体検出のための3次元点検出モデルであるShift-SSDを提案する。
我々は、ポイントベース検出器の表現能力を解き放つために、興味深いクロスクラスタシフト操作を導入する。
我々は、KITTI、ランタイム、nuScenesデータセットに関する広範な実験を行い、Shift-SSDの最先端性能を実証した。
論文 参考訳(メタデータ) (2024-03-10T10:36:32Z) - Large receptive field strategy and important feature extraction strategy
in 3D object detection [6.3948571459793975]
本研究は,3次元目標検出における鍵となる課題に焦点を当てた。
3次元畳み込みカーネルの受容領域を拡大する課題に対処するために,動的特徴融合モジュールを導入する。
このモジュールは、3D畳み込みカーネルの受容場を適応的に拡張し、拡張と許容される計算負荷のバランスをとる。
論文 参考訳(メタデータ) (2024-01-22T13:01:28Z) - PTT: Point-Trajectory Transformer for Efficient Temporal 3D Object Detection [66.94819989912823]
時間的3次元物体検出を効率的に行うために,長期記憶が可能な点トラジェクトリ変換器を提案する。
私たちは、メモリバンクのストレージ要件を最小限に抑えるために、現在のフレームオブジェクトのポイントクラウドとその履歴トラジェクトリを入力として使用します。
大規模データセットに対する広範な実験を行い、我々のアプローチが最先端の手法に対してうまく機能することを実証した。
論文 参考訳(メタデータ) (2023-12-13T18:59:13Z) - Ret3D: Rethinking Object Relations for Efficient 3D Object Detection in
Driving Scenes [82.4186966781934]
Ret3Dと呼ばれるシンプルで効率的で効果的な2段階検出器を導入する。
Ret3Dの中核は、新しいフレーム内およびフレーム間関係モジュールの利用である。
無視できる余分なオーバーヘッドにより、Ret3Dは最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-08-18T03:48:58Z) - Focal Sparse Convolutional Networks for 3D Object Detection [121.45950754511021]
我々はスパースCNNの能力を高めるために2つの新しいモジュールを導入する。
焦点スパース・コンボリューション(Focals Conv)であり、焦点スパース・コンボリューションの多様変種である。
スパース・コンボリューションにおける空間的に学習可能な空間空間性は,高度な3次元物体検出に不可欠であることを示す。
論文 参考訳(メタデータ) (2022-04-26T17:34:10Z) - LocATe: End-to-end Localization of Actions in 3D with Transformers [91.28982770522329]
LocATeは、3Dシーケンスでアクションを共同でローカライズし認識するエンドツーエンドのアプローチである。
画像やパッチの特徴を入力として考えるトランスフォーマーベースのオブジェクト検出や分類モデルとは異なり、LocATeのトランスフォーマーモデルはシーケンス内のアクション間の長期的な相関をキャプチャすることができる。
BABEL-TAL-20 (BT20) という新しい,挑戦的で,より現実的なベンチマークデータセットを導入する。
論文 参考訳(メタデータ) (2022-03-21T03:35:32Z) - Voxel Transformer for 3D Object Detection [133.34678177431914]
Voxel Transformer(ヴォクセルトランスフォーマー、VoTr)は、点雲から3Dオブジェクトを検出するための、新鮮で効果的なボクセルベースのトランスフォーマーバックボーンである。
提案するVoTrは、KITTIデータセットとOpenデータセットの計算効率を維持しながら、畳み込みベースラインよりも一貫した改善を示す。
論文 参考訳(メタデータ) (2021-09-06T14:10:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。