論文の概要: LargeKernel3D: Scaling up Kernels in 3D Sparse CNNs
- arxiv url: http://arxiv.org/abs/2206.10555v2
- Date: Wed, 22 Mar 2023 12:43:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-24 03:57:20.341672
- Title: LargeKernel3D: Scaling up Kernels in 3D Sparse CNNs
- Title(参考訳): LargeKernel3D: 3DスパースCNNにおけるカーネルのスケールアップ
- Authors: Yukang Chen, Jianhui Liu, Xiangyu Zhang, Xiaojuan Qi, Jiaya Jia
- Abstract要約: 本稿では,空間的分割畳み込みとその大型カーネルモジュールを提案する。
我々の大カーネル3D CNNネットワークであるLarge Kernel3Dは、3Dタスクに顕著な改善をもたらす。
初めて、大きなカーネルは3次元視覚タスクに不可欠であることを示す。
- 参考スコア(独自算出の注目度): 78.25819070166351
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advance in 2D CNNs has revealed that large kernels are important.
However, when directly applying large convolutional kernels in 3D CNNs, severe
difficulties are met, where those successful module designs in 2D become
surprisingly ineffective on 3D networks, including the popular depth-wise
convolution. To address this vital challenge, we instead propose the
spatial-wise partition convolution and its large-kernel module. As a result, it
avoids the optimization and efficiency issues of naive 3D large kernels. Our
large-kernel 3D CNN network, LargeKernel3D, yields notable improvement in 3D
tasks of semantic segmentation and object detection. It achieves 73.9% mIoU on
the ScanNetv2 semantic segmentation and 72.8% NDS nuScenes object detection
benchmarks, ranking 1st on the nuScenes LIDAR leaderboard. The performance
further boosts to 74.2% NDS with a simple multi-modal fusion. In addition,
LargeKernel3D can be scaled to 17x17x17 kernel size on Waymo 3D object
detection. For the first time, we show that large kernels are feasible and
essential for 3D visual tasks.
- Abstract(参考訳): 2D CNNの最近の進歩は、大きなカーネルが重要であることを示している。
しかし、3D CNNで大きな畳み込みカーネルを直接適用する場合、非常に困難な問題が発生し、2Dで成功したモジュール設計は、一般的な深みの畳み込みを含む3Dネットワークでは驚くほど効果がない。
この重要な課題に対処するため、代わりに空間分割畳み込みとその大きなカーネルモジュールを提案する。
その結果、naive 3d large kernelの最適化や効率問題を回避することができる。
我々の大カーネル3D CNNネットワークであるLargeKernel3Dは、セマンティックセグメンテーションとオブジェクト検出の3Dタスクにおいて顕著な改善をもたらす。
ScanNetv2セマンティックセグメンテーションでは73.9% mIoU、NDS nuScenesオブジェクト検出ベンチマークでは72.8%、nuScenes LIDARリーダーボードでは1位である。
さらにパフォーマンスは74.2%に向上し、単純なマルチモーダル核融合を行う。
さらに、waymo 3dオブジェクト検出では、bigkernel3dを17x17x17カーネルサイズにスケールできる。
初めて、大きなカーネルは3dのビジュアルタスクに実現可能で不可欠であることを示した。
関連論文リスト
- LSK3DNet: Towards Effective and Efficient 3D Perception with Large Sparse Kernels [62.31333169413391]
大型スパースカーネル3次元ニューラルネットワーク(LSK3DNet)
提案手法は,SDS (Spatial-wise Dynamic Sparsity) とCWS (Channel-wise Weight Selection) の2成分からなる。
論文 参考訳(メタデータ) (2024-03-22T12:54:33Z) - LinK: Linear Kernel for LiDAR-based 3D Perception [48.75602569945194]
本稿では,LinKと呼ばれる新しい手法を提案し,2つのコア設計による畳み込み的手法によりより広い範囲の知覚受容場を実現する。
提案手法は,21x21x21の範囲内で各ボクセルがコンテキストを知覚することを可能にする。
論文 参考訳(メタデータ) (2023-03-28T16:02:30Z) - Sparse2Dense: Learning to Densify 3D Features for 3D Object Detection [85.08249413137558]
LiDARが生成する点雲は、最先端の3Dオブジェクト検出器の主要な情報源である。
小さい、遠く、不完全な点の少ない物体は、しばしば検出するのが困難である。
Sparse2Denseは、潜在空間における点雲の密度化を学習することで、3D検出性能を効率的に向上する新しいフレームワークである。
論文 参考訳(メタデータ) (2022-11-23T16:01:06Z) - Scaling Up Your Kernels to 31x31: Revisiting Large Kernel Design in CNNs [148.0476219278875]
現代畳み込みニューラルネットワーク(CNN)における大規模カーネル設計の再検討
本稿では、視覚変換器(ViT)の最近の進歩に触発されて、小さなカーネルのスタックではなく、少数の大きな畳み込みカーネルを使うことが、より強力なパラダイムであることを実証する。
本稿では,カーネルサイズが31x31の純粋なCNNアーキテクチャであるRepLKNetを提案する。
論文 参考訳(メタデータ) (2022-03-13T17:22:44Z) - Multi-Modality Task Cascade for 3D Object Detection [22.131228757850373]
多くの手法は2つのモデルを個別に訓練し、単純な特徴結合を用いて3Dセンサーデータを表現している。
本稿では,3次元ボックスの提案を利用して2次元セグメンテーション予測を改善する新しいマルチモードタスクカスケードネットワーク(MTC-RCNN)を提案する。
2段階の3次元モジュール間の2次元ネットワークを組み込むことで,2次元および3次元のタスク性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2021-07-08T17:55:01Z) - To the Point: Efficient 3D Object Detection in the Range Image with
Graph Convolution Kernels [30.3378171262436]
我々は,各画素の3次元球面座標を網羅する2次元畳み込みネットワークアーキテクチャを設計する。
提案手法はオープンデータセット上で競合的に動作し,歩行者検出の最先端APを69.7%から75.5%に改善する。
私たちの最小のモデルは、今でも人気の高いPointPillarsを上回り、180倍のFLOPSとモデルパラメータを必要としています。
論文 参考訳(メタデータ) (2021-06-25T01:27:26Z) - ZoomNet: Part-Aware Adaptive Zooming Neural Network for 3D Object
Detection [69.68263074432224]
ステレオ画像に基づく3D検出のためのZoomNetという新しいフレームワークを提案する。
ZoomNetのパイプラインは、通常の2Dオブジェクト検出モデルから始まり、左右のバウンディングボックスのペアを取得するために使用される。
さらに,RGB画像のテクスチャキューを多用し,より正確な異質度推定を行うため,適応ズームという概念的に真直ぐなモジュールを導入する。
論文 参考訳(メタデータ) (2020-03-01T17:18:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。