論文の概要: FSHNet: Fully Sparse Hybrid Network for 3D Object Detection
- arxiv url: http://arxiv.org/abs/2506.03714v1
- Date: Wed, 04 Jun 2025 08:46:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.241789
- Title: FSHNet: Fully Sparse Hybrid Network for 3D Object Detection
- Title(参考訳): FSHNet:3Dオブジェクト検出のための完全スパースハイブリッドネットワーク
- Authors: Shuai Liu, Mingyue Cui, Boyang Li, Quanmin Liang, Tinghe Hong, Kai Huang, Yunxiao Shan, Kai Huang,
- Abstract要約: スパース3D検出器は空でないボクセルからのみ特徴を抽出する。
本稿では,既存のスパースエンコーダの長距離特徴抽出能力を高めるためにFSHNet(Fully Sparse Hybrid Network)を提案する。
FSHNetは、既存のスパースエンコーダの長距離特徴抽出機能を強化するために、提案されたSlotFormerブロックを組み込んでいる。
- 参考スコア(独自算出の注目度): 12.015969500433537
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fully sparse 3D detectors have recently gained significant attention due to their efficiency in long-range detection. However, sparse 3D detectors extract features only from non-empty voxels, which impairs long-range interactions and causes the center feature missing. The former weakens the feature extraction capability, while the latter hinders network optimization. To address these challenges, we introduce the Fully Sparse Hybrid Network (FSHNet). FSHNet incorporates a proposed SlotFormer block to enhance the long-range feature extraction capability of existing sparse encoders. The SlotFormer divides sparse voxels using a slot partition approach, which, compared to traditional window partition, provides a larger receptive field. Additionally, we propose a dynamic sparse label assignment strategy to deeply optimize the network by providing more high-quality positive samples. To further enhance performance, we introduce a sparse upsampling module to refine downsampled voxels, preserving fine-grained details crucial for detecting small objects. Extensive experiments on the Waymo, nuScenes, and Argoverse2 benchmarks demonstrate the effectiveness of FSHNet. The code is available at https://github.com/Say2L/FSHNet.
- Abstract(参考訳): 完全にスパースな3D検出器は、近ごろ長距離検出の効率のために注目されている。
しかし、スパース3D検出器は空でないボクセルからのみ特徴を抽出し、長距離の相互作用が損なわれ、中心の特徴が欠落する。
前者は機能抽出能力を弱め、後者はネットワーク最適化を妨げる。
これらの課題に対処するために、Fully Sparse Hybrid Network (FSHNet)を紹介する。
FSHNetは、既存のスパースエンコーダの長距離特徴抽出機能を強化するために、提案されたSlotFormerブロックを組み込んでいる。
SlotFormerはスロットパーティションアプローチを使ってスパースボクセルを分割する。
さらに、より高品質な正のサンプルを提供することにより、ネットワークを深く最適化する動的スパースラベル割り当て戦略を提案する。
より高機能化を図るため,小型物体検出に不可欠な微細な細部を保存し,低濃度のボクセルを精製するスパースアップサンプリングモジュールを導入する。
Waymo、nuScenes、Argoverse2ベンチマークに関する大規模な実験は、FSHNetの有効性を示している。
コードはhttps://github.com/Say2L/FSHNetで入手できる。
関連論文リスト
- SparseFormer: Detecting Objects in HRW Shots via Sparse Vision Transformer [62.11796778482088]
本稿では,近接撮影とHRW撮影のオブジェクト検出のギャップを埋めるために,SparseFormerと呼ばれるモデル非依存のスパース視覚変換器を提案する。
提案されたSparseFormerは、オブジェクトを含む可能性のあるスパース分散ウィンドウを精査するために、注意トークンを選択的に使用する。
2つのHRWベンチマークであるPANDAとDOTA-v1.0の実験により、提案されたSparseFormerは、最先端のアプローチよりも検出精度(最大5.8%)と速度(最大3倍)を大幅に改善することを示した。
論文 参考訳(メタデータ) (2025-02-11T03:21:25Z) - SAFDNet: A Simple and Effective Network for Fully Sparse 3D Object Detection [22.120656021516695]
SAFDNetは、完全にスパースな3Dオブジェクト検出のための単純かつ高効率なアーキテクチャである。
オープン、nuScenes、Argoverse2データセットについて広範な実験を行った。
SAFDNetは以前の最高のハイブリッド検出器HEDNetを2.1倍高速で2.6%のmAPで上回った。
論文 参考訳(メタデータ) (2024-03-09T06:48:19Z) - NeRF-Det++: Incorporating Semantic Cues and Perspective-aware Depth
Supervision for Indoor Multi-View 3D Detection [72.0098999512727]
NeRF-Detは、NeRFを用いた屋内マルチビュー3次元検出において、表現学習の強化による優れた性能を実現している。
セマンティックエンハンスメント(セマンティックエンハンスメント)、パースペクティブ・アウェア・サンプリング(パースペクティブ・アウェア・サンプリング)、および順序深度監視を含む3つのソリューションを提案する。
結果として得られたアルゴリズムであるNeRF-Det++は、ScanNetV2とAR KITScenesデータセットで魅力的なパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-02-22T11:48:06Z) - HEDNet: A Hierarchical Encoder-Decoder Network for 3D Object Detection
in Point Clouds [19.1921315424192]
ポイントクラウドにおける3Dオブジェクト検出は、自律運転システムにとって重要である。
3Dオブジェクト検出における主な課題は、3Dシーン内の点のスパース分布に起因する。
本稿では3次元オブジェクト検出のための階層型エンコーダデコーダネットワークであるHEDNetを提案する。
論文 参考訳(メタデータ) (2023-10-31T07:32:08Z) - Voxel or Pillar: Exploring Efficient Point Cloud Representation for 3D
Object Detection [49.324070632356296]
我々は3次元および2次元のスパース畳み込みにより点雲をボクセルと柱の特徴に符号化するスパース・ボクセル・ピラーエンコーダを開発した。
我々の効率的で完全なスパース法は、密度検出器とスパース検出器の両方にシームレスに統合できる。
論文 参考訳(メタデータ) (2023-04-06T05:00:58Z) - Super Sparse 3D Object Detection [48.684300007948906]
LiDARベースの3Dオブジェクト検出は、自動運転における長距離認識にますます貢献する。
高速な長距離検出を実現するため,まずフルスパース物体検出器FSDを提案する。
FSD++は、連続するフレーム間の点変化を示す残差点を生成する。
論文 参考訳(メタデータ) (2023-01-05T17:03:56Z) - Focal Sparse Convolutional Networks for 3D Object Detection [121.45950754511021]
我々はスパースCNNの能力を高めるために2つの新しいモジュールを導入する。
焦点スパース・コンボリューション(Focals Conv)であり、焦点スパース・コンボリューションの多様変種である。
スパース・コンボリューションにおける空間的に学習可能な空間空間性は,高度な3次元物体検出に不可欠であることを示す。
論文 参考訳(メタデータ) (2022-04-26T17:34:10Z) - Learning Semantic Segmentation of Large-Scale Point Clouds with Random
Sampling [52.464516118826765]
我々はRandLA-Netを紹介した。RandLA-Netは、大規模ポイントクラウドのポイントごとの意味を推論する、効率的で軽量なニューラルネットワークアーキテクチャである。
我々のアプローチの鍵は、より複雑な点選択アプローチではなく、ランダムな点サンプリングを使用することである。
我々のRandLA-Netは、既存のアプローチよりも最大200倍高速な1回のパスで100万ポイントを処理できます。
論文 参考訳(メタデータ) (2021-07-06T05:08:34Z) - Generative Sparse Detection Networks for 3D Single-shot Object Detection [43.91336826079574]
3Dオブジェクト検出は、ロボット工学や拡張現実など多くの有望な分野に適用可能であるため、広く研究されている。
しかし、3Dデータのまばらな性質は、このタスクに固有の課題をもたらしている。
本稿では,完全畳み込み単一ショットスパース検出ネットワークであるGenerative Sparse Detection Network (GSDN)を提案する。
論文 参考訳(メタデータ) (2020-06-22T15:54:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。