論文の概要: VISTA: Boosting 3D Object Detection via Dual Cross-VIew SpaTial
Attention
- arxiv url: http://arxiv.org/abs/2203.09704v1
- Date: Fri, 18 Mar 2022 02:34:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-21 15:13:22.702091
- Title: VISTA: Boosting 3D Object Detection via Dual Cross-VIew SpaTial
Attention
- Title(参考訳): VISTA:Dual-VIew Spatial Attentionによる3次元物体検出
- Authors: Shengheng Deng, Zhihao Liang, Lin Sun and Kui Jia
- Abstract要約: VISTA(Dual Cross-VIew Spatial Attention)を用いて,グローバル空間コンテキストにおける多視点特徴を適応的に融合する手法を提案する。
The proposed VISTA is a novel plug-and-play fusion module, where in the multi-layer perceptron widely adopted in standard attention module is replaced to a convolutional。
提案手法は,全mAPの63.0%,NDSの69.8%をnuScenesベンチマークで達成し,自転車などの安全基準カテゴリーの最大24%を達成している。
- 参考スコア(独自算出の注目度): 32.44687996180621
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Detecting objects from LiDAR point clouds is of tremendous significance in
autonomous driving. In spite of good progress, accurate and reliable 3D
detection is yet to be achieved due to the sparsity and irregularity of LiDAR
point clouds. Among existing strategies, multi-view methods have shown great
promise by leveraging the more comprehensive information from both bird's eye
view (BEV) and range view (RV). These multi-view methods either refine the
proposals predicted from single view via fused features, or fuse the features
without considering the global spatial context; their performance is limited
consequently. In this paper, we propose to adaptively fuse multi-view features
in a global spatial context via Dual Cross-VIew SpaTial Attention (VISTA). The
proposed VISTA is a novel plug-and-play fusion module, wherein the multi-layer
perceptron widely adopted in standard attention modules is replaced with a
convolutional one. Thanks to the learned attention mechanism, VISTA can produce
fused features of high quality for prediction of proposals. We decouple the
classification and regression tasks in VISTA, and an additional constraint of
attention variance is applied that enables the attention module to focus on
specific targets instead of generic points. We conduct thorough experiments on
the benchmarks of nuScenes and Waymo; results confirm the efficacy of our
designs. At the time of submission, our method achieves 63.0% in overall mAP
and 69.8% in NDS on the nuScenes benchmark, outperforming all published methods
by up to 24% in safety-crucial categories such as cyclist. The source code in
PyTorch is available at https://github.com/Gorilla-Lab-SCUT/VISTA
- Abstract(参考訳): LiDARポイントクラウドから物体を検出することは、自動運転において非常に重要である。
良好な進展にもかかわらず、LiDAR点雲の間隔と不規則性のため、正確で信頼性の高い3D検出はまだ達成されていない。
既存の戦略の中では、鳥の目視(BEV)と範囲視(RV)の両方からより包括的な情報を活用することで、マルチビュー手法は大きな可能性を秘めている。
これらのマルチビュー手法は、融合特徴によって単一のビューから予測される提案を洗練するか、グローバルな空間的文脈を考慮せずに機能を融合するかのいずれかであり、結果として性能が制限される。
本稿では,VISTA(Dual Cross-VIew SpaTial Attention)を用いて,グローバル空間コンテキストにおけるマルチビュー機能を適応的に融合する手法を提案する。
提案された vista は新たなプラグ・アンド・プレイ融合モジュールであり、標準的なアテンションモジュールで広く採用されている多層パーセプトロンを畳み込みモジュールに置き換える。
学習注意機構のおかげで、vistaは提案の予測のために高品質の融合特徴を生成できる。
VISTAにおける分類と回帰タスクを分離し、注意モジュールがジェネリックポイントではなく特定のターゲットに集中できるように、注意分散のさらなる制約を適用した。
我々は,nuscenes と waymo のベンチマークを徹底的に実験し,設計の有効性を確認した。
提出時点では,全マップで63.0%,nuscenesベンチマークで nds で69.8% を達成し,サイクリングなどの安全基準カテゴリーでは,全公開手法を24%上回った。
PyTorchのソースコードはhttps://github.com/Gorilla-Lab-SCUT/VISTAで入手できる。
関連論文リスト
- Progressive Multi-Modal Fusion for Robust 3D Object Detection [12.048303829428452]
既存の方法は、バードアイビュー(BEV)とパースペクティブビュー(PV)の両方のモードから特徴を投影することで、単一ビューでセンサフュージョンを実行する。
本稿では,中間クエリレベルとオブジェクトクエリレベルの両方で,BEVとPVの両方の機能を組み合わせたプログレッシブフュージョンフレームワークProFusion3Dを提案する。
我々のアーキテクチャは、局所的およびグローバルな特徴を融合させ、3次元オブジェクト検出の堅牢性を高める。
論文 参考訳(メタデータ) (2024-10-09T22:57:47Z) - PVAFN: Point-Voxel Attention Fusion Network with Multi-Pooling Enhancing for 3D Object Detection [59.355022416218624]
点とボクセルの表現の統合は、LiDARベースの3Dオブジェクト検出においてより一般的になりつつある。
PVAFN(Point-Voxel Attention Fusion Network)と呼ばれる新しい2段3次元物体検出器を提案する。
PVAFNはマルチプール戦略を使用して、マルチスケールとリージョン固有の情報を効果的に統合する。
論文 参考訳(メタデータ) (2024-08-26T19:43:01Z) - Multi-Modal UAV Detection, Classification and Tracking Algorithm -- Technical Report for CVPR 2024 UG2 Challenge [20.459377705070043]
本報告では, CVPR 2024 UAV追跡・姿勢推定チャレンジにおける課題であるUG2+の初当選モデルについて述べる。
高精度なUAV分類・追跡のためのマルチモーダルなUAV検出・分類・3次元追跡手法を提案する。
本システムでは,最先端の分類手法と高度な後処理手順を統合し,精度と堅牢性を向上する。
論文 参考訳(メタデータ) (2024-05-26T07:21:18Z) - PoIFusion: Multi-Modal 3D Object Detection via Fusion at Points of Interest [65.48057241587398]
PoIFusionは、関心点(PoIs)におけるRGBイメージとLiDARポイントクラウドに関する情報を融合するフレームワークである。
提案手法は,各モダリティの視点を維持し,計算にやさしいプロジェクションと計算によってマルチモーダル特徴を得る。
我々はnuScenesとArgoverse2データセットについて広範囲に実験を行い、我々のアプローチを評価した。
論文 参考訳(メタデータ) (2024-03-14T09:28:12Z) - Rethinking Range View Representation for LiDAR Segmentation [66.73116059734788]
「多対一」マッピング、意味的不整合、形状変形は、射程射影からの効果的な学習に対する障害となる可能性がある。
RangeFormerは、ネットワークアーキテクチャ、データ拡張、後処理を含む新しい設計を含む、フルサイクルのフレームワークである。
比較対象のLiDARセマンティックスとパノプティックスセグメンテーションのベンチマークにおいて,初めてレンジビュー法が点,ボクセル,マルチビューフュージョンを越えられることを示す。
論文 参考訳(メタデータ) (2023-03-09T16:13:27Z) - 3DMODT: Attention-Guided Affinities for Joint Detection & Tracking in 3D
Point Clouds [95.54285993019843]
本稿では,3次元点雲における複数物体の同時検出と追跡手法を提案する。
本モデルでは,複数のフレームを用いた時間情報を利用してオブジェクトを検出し,一つのネットワーク上で追跡する。
論文 参考訳(メタデータ) (2022-11-01T20:59:38Z) - Fully Convolutional One-Stage 3D Object Detection on LiDAR Range Images [96.66271207089096]
FCOS-LiDARは、自律走行シーンのLiDAR点雲のための完全な1段式3Dオブジェクト検出器である。
標準的な2Dコンボリューションを持つRVベースの3D検出器は、最先端のBEVベースの検出器と同等の性能を発揮することを示す。
論文 参考訳(メタデータ) (2022-05-27T05:42:16Z) - SA-Det3D: Self-Attention Based Context-Aware 3D Object Detection [9.924083358178239]
本稿では,3次元物体検出におけるコンテキストモデリングのための2種類の自己注意法を提案する。
まず,現状のbev,voxel,ポイントベース検出器にペアワイズ自着機構を組み込む。
次に,ランダムにサンプリングされた位置の変形を学習することにより,最も代表的な特徴のサブセットをサンプリングするセルフアテンション変種を提案する。
論文 参考訳(メタデータ) (2021-01-07T18:30:32Z) - Multi-View Adaptive Fusion Network for 3D Object Detection [14.506796247331584]
LiDAR-カメラ融合に基づく3Dオブジェクト検出は、自動運転の新たな研究テーマになりつつある。
本稿では,LiDARの鳥眼ビュー,LiDARレンジビュー,カメラビューイメージを3Dオブジェクト検出の入力として利用する,単一ステージ多視点融合フレームワークを提案する。
これら2つのコンポーネントを統合するために,MVAF-Netというエンドツーエンドの学習ネットワークを設計する。
論文 参考訳(メタデータ) (2020-11-02T00:06:01Z) - Cross-Modality 3D Object Detection [63.29935886648709]
本稿では,3次元物体検出のための新しい2段階多モード融合ネットワークを提案する。
アーキテクチャ全体が2段階の融合を促進する。
KITTIデータセットを用いた実験により,提案したマルチステージ融合により,ネットワークがより良い表現を学習できることが示唆された。
論文 参考訳(メタデータ) (2020-08-16T11:01:20Z) - SegVoxelNet: Exploring Semantic Context and Depth-aware Features for 3D
Vehicle Detection from Point Cloud [39.99118618229583]
上記の2つの問題に対処する統合モデルSegVoxelNetを提案する。
鳥の視線における自由電荷セマンティックセグメンテーションマスクを活用するために,セマンティックコンテクストエンコーダを提案する。
分布差を明示的にモデル化する新規な深度認識ヘッドを設計し、深度認識ヘッドの各部分を目標検出範囲に集中させる。
論文 参考訳(メタデータ) (2020-02-13T02:42:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。