論文の概要: Scaling up Kernels in 3D CNNs
- arxiv url: http://arxiv.org/abs/2206.10555v1
- Date: Tue, 21 Jun 2022 17:35:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-22 14:56:46.675941
- Title: Scaling up Kernels in 3D CNNs
- Title(参考訳): 3D CNNにおけるカーネルのスケールアップ
- Authors: Yukang Chen, Jianhui Liu, Xiaojuan Qi, Xiangyu Zhang, Jian Sun, Jiaya
Jia
- Abstract要約: 近年の2次元CNNとビジョントランスフォーマー(ViT)の進歩により、大きなカーネルは十分な受容場と高い性能に欠かせないことが判明した。
3次元CNNに大規模な畳み込みカーネルを適用することは、性能と効率の両面でより困難であることを示す。
空間ワイド群畳み込みとその大型カーネルモジュール(SW-LKブロック)について述べる。
大規模なカーネルは3Dネットワークにおいて実現可能で不可欠であることを示す。
- 参考スコア(独自算出の注目度): 131.6646227187025
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in 2D CNNs and vision transformers (ViTs) reveal that large
kernels are essential for enough receptive fields and high performance.
Inspired by this literature, we examine the feasibility and challenges of 3D
large-kernel designs. We demonstrate that applying large convolutional kernels
in 3D CNNs has more difficulties in both performance and efficiency. Existing
techniques that work well in 2D CNNs are ineffective in 3D networks, including
the popular depth-wise convolutions. To overcome these obstacles, we present
the spatial-wise group convolution and its large-kernel module (SW-LK block).
It avoids the optimization and efficiency issues of naive 3D large kernels. Our
large-kernel 3D CNN network, i.e., LargeKernel3D, yields non-trivial
improvements on various 3D tasks, including semantic segmentation and object
detection. Notably, it achieves 73.9% mIoU on the ScanNetv2 semantic
segmentation and 72.8% NDS nuScenes object detection benchmarks, ranking 1st on
the nuScenes LIDAR leaderboard. It is further boosted to 74.2% NDS with a
simple multi-modal fusion. LargeKernel3D attains comparable or superior results
than its CNN and transformer counterparts. For the first time, we show that
large kernels are feasible and essential for 3D networks.
- Abstract(参考訳): 近年の2次元CNNとビジョントランスフォーマー(ViT)の進歩により、大きなカーネルは十分な受容場と高い性能に欠かせないことが判明した。
本研究では,3次元大規模カーネル設計の実現可能性と課題について考察する。
3次元cnnにおける大規模畳み込みカーネルの適用は,性能と効率の両方においてより困難である。
2D CNNでうまく機能する既存の技術は、3Dネットワークでは効果がない。
これらの障害を克服するために,空間的グループ畳み込みとその大きなカーネルモジュール(SW-LKブロック)を提案する。
3D大型カーネルの最適化と効率性の問題を回避する。
我々の大カーネル3D CNNネットワーク、すなわちLargeKernel3Dは、セマンティックセグメンテーションやオブジェクト検出など、様々な3Dタスクにおいて非自明な改善をもたらす。
特に、ScanNetv2セマンティックセグメンテーションで73.9% mIoU、72.8% NDS nuScenesオブジェクト検出ベンチマークを達成し、nuScenes LIDARリーダーボードで1位となった。
さらに単純なマルチモーダル核融合で74.2% NDSに増強された。
LargeKernel3Dは、CNNやTransformerと同等または優れた結果が得られる。
大規模なカーネルは3Dネットワークにおいて実現可能で不可欠であることを示す。
関連論文リスト
- LSK3DNet: Towards Effective and Efficient 3D Perception with Large Sparse Kernels [62.31333169413391]
大型スパースカーネル3次元ニューラルネットワーク(LSK3DNet)
提案手法は,SDS (Spatial-wise Dynamic Sparsity) とCWS (Channel-wise Weight Selection) の2成分からなる。
論文 参考訳(メタデータ) (2024-03-22T12:54:33Z) - LinK: Linear Kernel for LiDAR-based 3D Perception [48.75602569945194]
本稿では,LinKと呼ばれる新しい手法を提案し,2つのコア設計による畳み込み的手法によりより広い範囲の知覚受容場を実現する。
提案手法は,21x21x21の範囲内で各ボクセルがコンテキストを知覚することを可能にする。
論文 参考訳(メタデータ) (2023-03-28T16:02:30Z) - Sparse2Dense: Learning to Densify 3D Features for 3D Object Detection [85.08249413137558]
LiDARが生成する点雲は、最先端の3Dオブジェクト検出器の主要な情報源である。
小さい、遠く、不完全な点の少ない物体は、しばしば検出するのが困難である。
Sparse2Denseは、潜在空間における点雲の密度化を学習することで、3D検出性能を効率的に向上する新しいフレームワークである。
論文 参考訳(メタデータ) (2022-11-23T16:01:06Z) - Scaling Up Your Kernels to 31x31: Revisiting Large Kernel Design in CNNs [148.0476219278875]
現代畳み込みニューラルネットワーク(CNN)における大規模カーネル設計の再検討
本稿では、視覚変換器(ViT)の最近の進歩に触発されて、小さなカーネルのスタックではなく、少数の大きな畳み込みカーネルを使うことが、より強力なパラダイムであることを実証する。
本稿では,カーネルサイズが31x31の純粋なCNNアーキテクチャであるRepLKNetを提案する。
論文 参考訳(メタデータ) (2022-03-13T17:22:44Z) - Multi-Modality Task Cascade for 3D Object Detection [22.131228757850373]
多くの手法は2つのモデルを個別に訓練し、単純な特徴結合を用いて3Dセンサーデータを表現している。
本稿では,3次元ボックスの提案を利用して2次元セグメンテーション予測を改善する新しいマルチモードタスクカスケードネットワーク(MTC-RCNN)を提案する。
2段階の3次元モジュール間の2次元ネットワークを組み込むことで,2次元および3次元のタスク性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2021-07-08T17:55:01Z) - To the Point: Efficient 3D Object Detection in the Range Image with
Graph Convolution Kernels [30.3378171262436]
我々は,各画素の3次元球面座標を網羅する2次元畳み込みネットワークアーキテクチャを設計する。
提案手法はオープンデータセット上で競合的に動作し,歩行者検出の最先端APを69.7%から75.5%に改善する。
私たちの最小のモデルは、今でも人気の高いPointPillarsを上回り、180倍のFLOPSとモデルパラメータを必要としています。
論文 参考訳(メタデータ) (2021-06-25T01:27:26Z) - ZoomNet: Part-Aware Adaptive Zooming Neural Network for 3D Object
Detection [69.68263074432224]
ステレオ画像に基づく3D検出のためのZoomNetという新しいフレームワークを提案する。
ZoomNetのパイプラインは、通常の2Dオブジェクト検出モデルから始まり、左右のバウンディングボックスのペアを取得するために使用される。
さらに,RGB画像のテクスチャキューを多用し,より正確な異質度推定を行うため,適応ズームという概念的に真直ぐなモジュールを導入する。
論文 参考訳(メタデータ) (2020-03-01T17:18:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。