論文の概要: LinK: Linear Kernel for LiDAR-based 3D Perception
- arxiv url: http://arxiv.org/abs/2303.16094v1
- Date: Tue, 28 Mar 2023 16:02:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-29 14:31:35.322656
- Title: LinK: Linear Kernel for LiDAR-based 3D Perception
- Title(参考訳): LinK: LiDARベースの3D知覚のための線形カーネル
- Authors: Tao Lu, Xiang Ding, Haisong Liu, Gangshan Wu, Limin Wang
- Abstract要約: 本稿では,LinKと呼ばれる新しい手法を提案し,2つのコア設計による畳み込み的手法によりより広い範囲の知覚受容場を実現する。
提案手法は,21x21x21の範囲内で各ボクセルがコンテキストを知覚することを可能にする。
- 参考スコア(独自算出の注目度): 48.75602569945194
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Extending the success of 2D Large Kernel to 3D perception is challenging due
to: 1. the cubically-increasing overhead in processing 3D data; 2. the
optimization difficulties from data scarcity and sparsity. Previous work has
taken the first step to scale up the kernel size from 3x3x3 to 7x7x7 by
introducing block-shared weights. However, to reduce the feature variations
within a block, it only employs modest block size and fails to achieve larger
kernels like the 21x21x21. To address this issue, we propose a new method,
called LinK, to achieve a wider-range perception receptive field in a
convolution-like manner with two core designs. The first is to replace the
static kernel matrix with a linear kernel generator, which adaptively provides
weights only for non-empty voxels. The second is to reuse the pre-computed
aggregation results in the overlapped blocks to reduce computation complexity.
The proposed method successfully enables each voxel to perceive context within
a range of 21x21x21. Extensive experiments on two basic perception tasks, 3D
object detection and 3D semantic segmentation, demonstrate the effectiveness of
our method. Notably, we rank 1st on the public leaderboard of the 3D detection
benchmark of nuScenes (LiDAR track), by simply incorporating a LinK-based
backbone into the basic detector, CenterPoint. We also boost the strong
segmentation baseline's mIoU with 2.7% in the SemanticKITTI test set. Code is
available at https://github.com/MCG-NJU/LinK.
- Abstract(参考訳): 2次元大カーネルの成功を3次元知覚に拡張することは、以下によって困難である。
1 三次元データの処理における立方体的なオーバーヘッド
2.データ不足と疎性による最適化の難しさ。
以前の研究では、ブロック共有重みを導入してカーネルサイズを3x3x3から7x7にスケールアップする第一歩を踏み出した。
しかし、ブロック内の特徴のばらつきを減らすため、ブロックサイズは小さく、21x21x21のようなより大きなカーネルを達成することができない。
この問題に対処するために,我々は2つのコア設計による畳み込み的な方法で広い範囲の知覚受容場を実現するためのlinkという新しい手法を提案する。
1つ目は静的カーネルマトリックスを線形カーネルジェネレータに置き換えることであり、これは空でないボクセルのみに適応的に重みを与える。
2つ目は、計算の複雑さを減らすために、重複ブロックの事前計算結果を再利用することである。
提案手法は,21x21x21の範囲内で各ボクセルがコンテキストを知覚できるようにする。
3次元オブジェクト検出と3次元セマンティックセグメンテーションという2つの基本的な認識課題に対する大規模な実験により,本手法の有効性が示された。
特に、LinKベースのバックボーンを基本検出器であるCenterPointに組み込むことで、nuScenesの3D検出ベンチマーク(LiDARトラック)の公開リーダーボードで1位にランク付けする。
また、SemanticKITTIテストセットの2.7%で、強いセグメンテーションベースラインのmIoUも強化します。
コードはhttps://github.com/mcg-nju/linkで入手できる。
関連論文リスト
- Bayesian Self-Training for Semi-Supervised 3D Segmentation [59.544558398992386]
3Dセグメンテーションはコンピュータビジョンの中核的な問題である。
完全に教師されたトレーニングを採用するために、3Dポイントクラウドを密にラベル付けすることは、労働集約的で高価です。
半教師付きトレーニングは、ラベル付きデータの小さなセットのみを付与し、より大きなラベル付きデータセットを伴って、より実用的な代替手段を提供する。
論文 参考訳(メタデータ) (2024-09-12T14:54:31Z) - LSK3DNet: Towards Effective and Efficient 3D Perception with Large Sparse Kernels [62.31333169413391]
大型スパースカーネル3次元ニューラルネットワーク(LSK3DNet)
提案手法は,SDS (Spatial-wise Dynamic Sparsity) とCWS (Channel-wise Weight Selection) の2成分からなる。
論文 参考訳(メタデータ) (2024-03-22T12:54:33Z) - LargeKernel3D: Scaling up Kernels in 3D Sparse CNNs [78.25819070166351]
本稿では,空間的分割畳み込みとその大型カーネルモジュールを提案する。
我々の大カーネル3D CNNネットワークであるLarge Kernel3Dは、3Dタスクに顕著な改善をもたらす。
初めて、大きなカーネルは3次元視覚タスクに不可欠であることを示す。
論文 参考訳(メタデータ) (2022-06-21T17:35:57Z) - Embracing Single Stride 3D Object Detector with Sparse Transformer [63.179720817019096]
自律走行のためのLiDARを用いた3次元物体検出では、物体サイズと入力シーンサイズとの比が2次元検出の場合に比べて有意に小さい。
多くの3D検出器は2D検出器の一般的な慣習に従っており、点雲の定量化後も特徴マップを分解する。
本稿では,SST(Single-stride Sparse Transformer)を提案する。
論文 参考訳(メタデータ) (2021-12-13T02:12:02Z) - Improved Pillar with Fine-grained Feature for 3D Object Detection [23.348710029787068]
LiDAR点雲を用いた3次元物体検出は、自律走行知覚モジュールにおいて重要な役割を果たす。
既存の点ベースの手法は、生の点が多すぎるため、速度要件に到達するのが困難である。
PointPillarのような2Dグリッドベースの手法は、単純な2D畳み込みに基づいて、安定的で効率的な速度を容易に達成できる。
論文 参考訳(メタデータ) (2021-10-12T14:53:14Z) - Multi-Modality Task Cascade for 3D Object Detection [22.131228757850373]
多くの手法は2つのモデルを個別に訓練し、単純な特徴結合を用いて3Dセンサーデータを表現している。
本稿では,3次元ボックスの提案を利用して2次元セグメンテーション予測を改善する新しいマルチモードタスクカスケードネットワーク(MTC-RCNN)を提案する。
2段階の3次元モジュール間の2次元ネットワークを組み込むことで,2次元および3次元のタスク性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2021-07-08T17:55:01Z) - Learning to Predict the 3D Layout of a Scene [0.3867363075280544]
本稿では,単一のRGB画像のみを使用する手法を提案し,LiDARセンサを持たないデバイスや車両に適用できるようにする。
KITTIデータセットは,クラスラベル付き道路交通シーン,2D境界ボックス,自由度7自由度3Dアノテーションで構成される。
我々は、公式のKITTIベンチマークで要求されるように、結合閾値70%の3次元交差で測定された適度に困難なデータに対して平均47.3%の平均精度を達成し、従来の最先端のRGBのみの手法よりも大きなマージンで上回った。
論文 参考訳(メタデータ) (2020-11-19T17:23:30Z) - Reinforced Axial Refinement Network for Monocular 3D Object Detection [160.34246529816085]
モノクロ3次元物体検出は、2次元入力画像から物体の位置と特性を抽出することを目的としている。
従来のアプローチでは、空間から3D境界ボックスをサンプリングし、対象オブジェクトと各オブジェクトの関係を推定するが、有効サンプルの確率は3D空間で比較的小さい。
我々は,まず最初の予測から始めて,各ステップで1つの3dパラメータだけを変えて,基礎的真理に向けて徐々に洗練することを提案する。
これは、いくつかのステップの後に報酬を得るポリシーを設計する必要があるため、最適化するために強化学習を採用します。
論文 参考訳(メタデータ) (2020-08-31T17:10:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。