論文の概要: LION: Linear Group RNN for 3D Object Detection in Point Clouds
- arxiv url: http://arxiv.org/abs/2407.18232v1
- Date: Thu, 25 Jul 2024 17:50:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-26 13:09:36.665598
- Title: LION: Linear Group RNN for 3D Object Detection in Point Clouds
- Title(参考訳): LION: 点雲における3次元物体検出のための線形群RNN
- Authors: Zhe Liu, Jinghua Hou, Xinyu Wang, Xiaoqing Ye, Jingdong Wang, Hengshuang Zhao, Xiang Bai,
- Abstract要約: 本稿では,LInear grOup RNN上に構築されたウィンドウベースフレームワークを提案する。
3次元空間特徴記述器を導入し,それを線形群 RNN 演算子に統合して空間特徴を増強する。
高分散点雲の課題にさらに対処するため,前景の特徴を密度化するための3次元ボクセル生成戦略を提案する。
- 参考スコア(独自算出の注目度): 85.97541374148508
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The benefit of transformers in large-scale 3D point cloud perception tasks, such as 3D object detection, is limited by their quadratic computation cost when modeling long-range relationships. In contrast, linear RNNs have low computational complexity and are suitable for long-range modeling. Toward this goal, we propose a simple and effective window-based framework built on LInear grOup RNN (i.e., perform linear RNN for grouped features) for accurate 3D object detection, called LION. The key property is to allow sufficient feature interaction in a much larger group than transformer-based methods. However, effectively applying linear group RNN to 3D object detection in highly sparse point clouds is not trivial due to its limitation in handling spatial modeling. To tackle this problem, we simply introduce a 3D spatial feature descriptor and integrate it into the linear group RNN operators to enhance their spatial features rather than blindly increasing the number of scanning orders for voxel features. To further address the challenge in highly sparse point clouds, we propose a 3D voxel generation strategy to densify foreground features thanks to linear group RNN as a natural property of auto-regressive models. Extensive experiments verify the effectiveness of the proposed components and the generalization of our LION on different linear group RNN operators including Mamba, RWKV, and RetNet. Furthermore, it is worth mentioning that our LION-Mamba achieves state-of-the-art on Waymo, nuScenes, Argoverse V2, and ONCE dataset. Last but not least, our method supports kinds of advanced linear RNN operators (e.g., RetNet, RWKV, Mamba, xLSTM and TTT) on small but popular KITTI dataset for a quick experience with our linear RNN-based framework.
- Abstract(参考訳): 3次元物体検出などの大規模3次元点雲認識タスクにおける変換器の利点は、長距離関係をモデル化する際の2次計算コストによって制限される。
対照的に線形RNNは計算複雑性が低く、長距離モデリングに適している。
この目的に向けて,LInear grOup RNN(つまり,グループ化された特徴に対して線形RNNを実行する)をベースとした,正確な3次元オブジェクト検出のための簡易かつ効果的なウィンドウベースフレームワーク(LION)を提案する。
鍵となる性質は、トランスフォーマーベースの方法よりもはるかに大きなグループにおける十分な機能相互作用を可能にすることである。
しかし,3次元物体検出に線形群 RNN を効果的に適用することは,空間モデル処理の限界により容易ではない。
この問題に対処するため、3次元空間特徴記述子を導入し、それを線形群RNN演算子に統合することで、ボクセル特徴の走査オーダー数を盲目的に増やすのではなく、それらの空間特徴を増強する。
高分散点雲の課題をさらに解決するために, 線形群 RNN が自己回帰モデルの自然特性である事により, 前景の特徴を密度化するための3次元ボクセル生成戦略を提案する。
大規模な実験により,提案したコンポーネントの有効性と,Mamba,RWKV,RetNetなどの線形群 RNN 演算子に対する LION の一般化が検証された。
さらに、私たちのLION-MambaはWaymo、nuScenes、Argoverse V2、ONCEデータセットの最先端を実現しています。
最後に、我々の手法は、線形RNNベースのフレームワークを素早く体験するために、小さなが人気のあるKITTIデータセット上で、先進線形RNN演算子(例えば、RetNet、RWKV、Mamba、xLSTM、TTT)をサポートしている。
関連論文リスト
- Nearest Neighbors Meet Deep Neural Networks for Point Cloud Analysis [14.844183458784235]
我々は,空間近傍適応(SN-Adapter)と呼ばれるパラメータの再設計や余分なパラメータを伴わずに,既存のディープニューラルネットワークを強化する方法を提案する。
訓練された3Dネットワーク上に構築された学習符号化機能を利用して,学習データセットの特徴を抽出し,それらを空間知識として要約する。
テストポイントクラウドでは、SN-Adapterは、事前構築された空間プロトタイプからk隣人(k-NN)を検索し、k-NN予測を元の3Dネットワークのプロトタイプと線形補間する。
論文 参考訳(メタデータ) (2023-03-01T17:57:09Z) - Pillar R-CNN for Point Cloud 3D Object Detection [4.169126928311421]
我々はPillar R-CNNという概念的にシンプルで効果的な2段階の3D検出アーキテクチャを考案した。
我々のPillar R-CNNは、大規模Openデータセット上の最先端の3D検出器に対して好意的に動作します。
自律運転を含むアプリケーションに対するBEVのさらなる認識は、効果的でエレガントなPillar R-CNNアーキテクチャのおかげで可能になった。
論文 参考訳(メタデータ) (2023-02-26T12:07:25Z) - Exploiting Low-Rank Tensor-Train Deep Neural Networks Based on
Riemannian Gradient Descent With Illustrations of Speech Processing [74.31472195046099]
我々は、低ランクテンソルトレイン深層ニューラルネットワーク(TT-DNN)を用いて、エンドツーエンドのディープラーニングパイプライン、すなわちLR-TT-DNNを構築する。
LR-TT-DNNと畳み込みニューラルネットワーク(CNN)を組み合わせたハイブリッドモデルを構築し、性能を向上する。
我々の実証的な証拠は、モデルパラメータが少ないLR-TT-DNNとCNN+(LR-TT-DNN)モデルが、TT-DNNとCNN+(LR-TT-DNN)モデルよりも優れていることを示している。
論文 参考訳(メタデータ) (2022-03-11T15:55:34Z) - LiDAR R-CNN: An Efficient and Universal 3D Object Detector [20.17906188581305]
自動運転の知覚システムには、LiDARベースの3D検出が欠かせません。
lidar r-cnnは,既存の3d検出器を改良できる第2段検出器である。
特に、PointPillarsの1つのバリエーションに基づいて、私たちの方法は小さなコストで新しい最先端の結果を達成できます。
論文 参考訳(メタデータ) (2021-03-29T03:01:21Z) - Voxel R-CNN: Towards High Performance Voxel-based 3D Object Detection [99.16162624992424]
Voxel R-CNNというシンプルで効果的なVoxelベースのフレームワークを考案しました。
2段階のアプローチでボクセルの特徴をフル活用することにより,最先端の点ベースモデルと同等の精度で検出できる。
その結果、Voxel R-CNNは、NVIDIA 2080 Ti GPU上での25 FPSの速度で、リアルタイムフレーム処理速度を維持しながら、より高い検出精度を提供する。
論文 参考訳(メタデータ) (2020-12-31T17:02:46Z) - LGNN: A Context-aware Line Segment Detector [53.424521592941936]
我々はLine Graph Neural Network (LGNN) と呼ばれる新しいリアルタイム線分検出手法を提案する。
我々のLGNNは、線分を直接提案するディープ畳み込みニューラルネットワーク(DCNN)と、それらの接続性を推論するためのグラフニューラルネットワーク(GNN)モジュールを使用している。
最先端と比較して、LGNNは精度を損なうことなくほぼリアルタイムのパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-08-13T13:23:18Z) - Local Grid Rendering Networks for 3D Object Detection in Point Clouds [98.02655863113154]
CNNは強力だが、全点の雲を高密度の3Dグリッドに酸化した後、点データに直接畳み込みを適用するのは計算コストがかかる。
入力点のサブセットの小さな近傍を低解像度の3Dグリッドに独立してレンダリングする,新しい,原理化されたローカルグリッドレンダリング(LGR)演算を提案する。
ScanNetとSUN RGB-Dデータセットを用いた3次元オブジェクト検出のためのLGR-Netを検証する。
論文 参考訳(メタデータ) (2020-07-04T13:57:43Z) - PV-RCNN: Point-Voxel Feature Set Abstraction for 3D Object Detection [76.30585706811993]
我々はPointVoxel-RCNN(PV-RCNN)という新しい高性能な3Dオブジェクト検出フレームワークを提案する。
提案手法は3次元ボクセル畳み込みニューラルネットワーク(CNN)とPointNetベースの集合抽象化の両方を深く統合する。
3DボクセルCNNの効率的な学習と高品質な提案と、PointNetベースのネットワークのフレキシブル・レセプティブ・フィールドを利用する。
論文 参考訳(メタデータ) (2019-12-31T06:34:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。