論文の概要: LSK3DNet: Towards Effective and Efficient 3D Perception with Large Sparse Kernels
- arxiv url: http://arxiv.org/abs/2403.15173v1
- Date: Fri, 22 Mar 2024 12:54:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-25 17:29:06.799659
- Title: LSK3DNet: Towards Effective and Efficient 3D Perception with Large Sparse Kernels
- Title(参考訳): LSK3DNet:大きなスパースカーネルによる有効かつ効率的な3D知覚を目指して
- Authors: Tuo Feng, Wenguan Wang, Fan Ma, Yi Yang,
- Abstract要約: 大型スパースカーネル3次元ニューラルネットワーク(LSK3DNet)
提案手法は,SDS (Spatial-wise Dynamic Sparsity) とCWS (Channel-wise Weight Selection) の2成分からなる。
- 参考スコア(独自算出の注目度): 62.31333169413391
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autonomous systems need to process large-scale, sparse, and irregular point clouds with limited compute resources. Consequently, it is essential to develop LiDAR perception methods that are both efficient and effective. Although naively enlarging 3D kernel size can enhance performance, it will also lead to a cubically-increasing overhead. Therefore, it is crucial to develop streamlined 3D large kernel designs that eliminate redundant weights and work effectively with larger kernels. In this paper, we propose an efficient and effective Large Sparse Kernel 3D Neural Network (LSK3DNet) that leverages dynamic pruning to amplify the 3D kernel size. Our method comprises two core components: Spatial-wise Dynamic Sparsity (SDS) and Channel-wise Weight Selection (CWS). SDS dynamically prunes and regrows volumetric weights from the beginning to learn a large sparse 3D kernel. It not only boosts performance but also significantly reduces model size and computational cost. Moreover, CWS selects the most important channels for 3D convolution during training and subsequently prunes the redundant channels to accelerate inference for 3D vision tasks. We demonstrate the effectiveness of LSK3DNet on three benchmark datasets and five tracks compared with classical models and large kernel designs. Notably, LSK3DNet achieves the state-of-the-art performance on SemanticKITTI (i.e., 75.6% on single-scan and 63.4% on multi-scan), with roughly 40% model size reduction and 60% computing operations reduction compared to the naive large 3D kernel model.
- Abstract(参考訳): 自律システムは、限られた計算資源を持つ大規模でスパースで不規則な点雲を処理する必要がある。
そのため, 効率的かつ効果的なLiDAR認識手法の開発が不可欠である。
ネイティブに3Dカーネルのサイズを拡大するとパフォーマンスが向上するが、オーバヘッドは3倍に増加する。
したがって、冗長な重みを排除し、より大きなカーネルで効果的に動作する3D大型カーネルの設計を合理化することが重要である。
本稿では,動的プルーニングを利用して3次元カーネルサイズを増幅する,効率的かつ効率的なLarge Sparse Kernel 3D Neural Network (LSK3DNet)を提案する。
提案手法は,SDS (Spatial-wise Dynamic Sparsity) とCWS (Channel-wise Weight Selection) の2つのコアコンポーネントから構成される。
SDSは、大きめのスパース3Dカーネルを学習するために、最初から動的にプーンし、体積重みを回復する。
性能を向上するだけでなく、モデルのサイズや計算コストを大幅に削減する。
さらに、CWSはトレーニング中に3D畳み込みのための最も重要なチャネルを選択し、その後、冗長なチャネルを抜いて、3D視覚タスクの推論を加速する。
3つのベンチマークデータセットと5つのトラックに対するLSK3DNetの有効性を,古典的モデルや大規模カーネル設計と比較した。
特に、LSK3DNetはSemanticKITTIの最先端性能(シングルスキャンで75.6%、マルチスキャンで63.4%)を達成し、モデルサイズを約40%削減し、より単純な3Dカーネルモデルと比較して60%のコンピューティング操作を削減した。
関連論文リスト
- E2ENet: Dynamic Sparse Feature Fusion for Accurate and Efficient 3D
Medical Image Segmentation [36.367368163120794]
E2ENet(Efficient to Efficient Network)と呼ばれる3次元医用画像分割モデルを提案する。
パラメトリックと計算効率の2つの設計が組み込まれている。
さまざまなリソース制約に対して、正確性と効率性のトレードオフを一貫して達成します。
論文 参考訳(メタデータ) (2023-12-07T22:13:37Z) - LinK: Linear Kernel for LiDAR-based 3D Perception [48.75602569945194]
本稿では,LinKと呼ばれる新しい手法を提案し,2つのコア設計による畳み込み的手法によりより広い範囲の知覚受容場を実現する。
提案手法は,21x21x21の範囲内で各ボクセルがコンテキストを知覚することを可能にする。
論文 参考訳(メタデータ) (2023-03-28T16:02:30Z) - UNETR++: Delving into Efficient and Accurate 3D Medical Image Segmentation [93.88170217725805]
本稿では,高画質なセグメンテーションマスクと,パラメータ,計算コスト,推論速度の両面での効率性を提供するUNETR++という3次元医用画像セグメンテーション手法を提案する。
我々の設計の核となるのは、空間的およびチャネル的な識別的特徴を効率的に学習する、新しい効率的な対注意ブロック(EPA)の導入である。
Synapse, BTCV, ACDC, BRaTs, Decathlon-Lungの5つのベンチマークで評価した結果, 効率と精度の両面で, コントリビューションの有効性が示された。
論文 参考訳(メタデータ) (2022-12-08T18:59:57Z) - LKD-Net: Large Kernel Convolution Network for Single Image Dehazing [70.46392287128307]
本稿では,LKCB(Large Kernel Convolution Dehaze Block)とCEFN(Channel Enhanced Feed-forward Network)を組み合わせた新しいLKDブロックを提案する。
設計されたDLKCBは、大規模なカーネルの畳み込みを、大量のパラメータや計算オーバーヘッドを伴わずに、より小さな奥行きの畳み込みと奥行きの縮み込みに分割することができる。
我々のLKD-NetはTransformerベースのメソッドであるDehamerを1.79%の#Paramと48.9%のFLOPで劇的に上回っている。
論文 参考訳(メタデータ) (2022-09-05T06:56:48Z) - LargeKernel3D: Scaling up Kernels in 3D Sparse CNNs [78.25819070166351]
本稿では,空間的分割畳み込みとその大型カーネルモジュールを提案する。
我々の大カーネル3D CNNネットワークであるLarge Kernel3Dは、3Dタスクに顕著な改善をもたらす。
初めて、大きなカーネルは3次元視覚タスクに不可欠であることを示す。
論文 参考訳(メタデータ) (2022-06-21T17:35:57Z) - DepthShrinker: A New Compression Paradigm Towards Boosting Real-Hardware
Efficiency of Compact Neural Networks [29.46621102184345]
ハードウェアフレンドリーなコンパクトネットワークを開発するために,DepthShrinkerというフレームワークを提案する。
我々のフレームワークは、最先端のDNNや圧縮技術より優れたハードウェアフレンドリーなコンパクトネットワークを提供する。
論文 参考訳(メタデータ) (2022-06-02T02:32:47Z) - DS-Net++: Dynamic Weight Slicing for Efficient Inference in CNNs and
Transformers [105.74546828182834]
本稿では,様々な難易度を持つ入力に対して,ネットワークパラメータの一部を適応的にスライスする動的ウェイトスライシングという,ハードウェア効率のよい動的推論方式を示す。
我々は、CNNのフィルタ数とCNNと変換器の多重次元を入力依存的に調整することで、動的スライム可能なネットワーク(DS-Net)と動的スライス可能なネットワーク(DS-Net++)を提案する。
論文 参考訳(メタデータ) (2021-09-21T09:57:21Z) - Efficient embedding network for 3D brain tumor segmentation [0.33727511459109777]
本稿では,脳腫瘍の3次元的セマンティックセグメンテーションを目的とした2次元分類網の性能伝達手法について検討する。
入力データが3Dの場合、エンコーダの第1層は、効率の良いNetネットワークの入力に適合するために、第3次元の削減に費やされる。
BraTS 2020チャレンジの検証とテストデータに関する実験結果から,提案手法が有望な性能を達成することを示す。
論文 参考訳(メタデータ) (2020-11-22T16:17:29Z) - EDNet: Efficient Disparity Estimation with Cost Volume Combination and
Attention-based Spatial Residual [17.638034176859932]
既存の分散度推定は、主に4D結合ボリュームを活用し、分散回帰のための非常に深い3D畳み込みニューラルネットワーク(CNN)を構築する。
本稿では,EDNetというネットワークを効率よく分散推定する手法を提案する。
Scene FlowとKITTIデータセットの実験は、EDNetが以前の3D CNNベースの作業より優れていることを示している。
論文 参考訳(メタデータ) (2020-10-26T04:49:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。