論文の概要: Unifying Voxel-based Representation with Transformer for 3D Object
Detection
- arxiv url: http://arxiv.org/abs/2206.00630v1
- Date: Wed, 1 Jun 2022 17:02:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-02 12:51:09.868007
- Title: Unifying Voxel-based Representation with Transformer for 3D Object
Detection
- Title(参考訳): 3次元物体検出のためのトランスを用いたVoxel-based Representation
- Authors: Yanwei Li, Yilun Chen, Xiaojuan Qi, Zeming Li, Jian Sun, Jiaya Jia
- Abstract要約: マルチモード3Dオブジェクト検出のための統一フレームワークUVTRを提案する。
提案手法は, ボクセル空間におけるマルチモーダリティ表現を統一し, 高精度かつ堅牢な単一モード・クロスモーダリティ3D検出を実現することを目的とする。
UVTRは、69.7%、55.1%、71.1%のNDSで、それぞれLiDAR、カメラ、マルチモダリティの入力を行う。
- 参考スコア(独自算出の注目度): 143.91910747605107
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we present a unified framework for multi-modality 3D object
detection, named UVTR. The proposed method aims to unify multi-modality
representations in the voxel space for accurate and robust single- or
cross-modality 3D detection. To this end, the modality-specific space is first
designed to represent different inputs in the voxel feature space. Different
from previous work, our approach preserves the voxel space without height
compression to alleviate semantic ambiguity and enable spatial interactions.
Benefit from the unified manner, cross-modality interaction is then proposed to
make full use of inherent properties from different sensors, including
knowledge transfer and modality fusion. In this way, geometry-aware expressions
in point clouds and context-rich features in images are well utilized for
better performance and robustness. The transformer decoder is applied to
efficiently sample features from the unified space with learnable positions,
which facilitates object-level interactions. In general, UVTR presents an early
attempt to represent different modalities in a unified framework. It surpasses
previous work in single- and multi-modality entries and achieves leading
performance in the nuScenes test set with 69.7%, 55.1%, and 71.1% NDS for
LiDAR, camera, and multi-modality inputs, respectively. Code is made available
at https://github.com/dvlab-research/UVTR.
- Abstract(参考訳): 本研究では,UVTRと呼ばれる多次元オブジェクト検出のための統一フレームワークを提案する。
提案手法は, ボクセル空間におけるマルチモーダリティ表現を統一し, 高精度かつ堅牢な単一モード・クロスモーダリティ3D検出を実現することを目的とする。
この目的のために、モダリティ特化空間は、最初にボクセル特徴空間における異なる入力を表現するように設計されている。
従来の研究と異なり,我々のアプローチはボクセル空間を高さ圧縮することなく保存し,意味的曖昧さを緩和し,空間的相互作用を可能にする。
統一された方法では、知識伝達やモダリティ融合を含む様々なセンサーから固有の特性を完全に活用するために、相互モダリティ相互作用が提案される。
このようにして、ポイントクラウドの幾何認識表現や画像のコンテキスト豊富な特徴は、パフォーマンスとロバスト性を改善するためによく利用される。
変換器デコーダは、学習可能な位置を持つ統一空間から特徴を効率的にサンプリングし、オブジェクトレベルの相互作用を容易にする。
一般に、UVTRは統一されたフレームワークで異なるモダリティを表現しようとする初期の試みを示す。
シングルモダリティとマルチモダリティのエントリで以前の作業を超え、lidar、カメラ、マルチモダリティ入力で69.7%、55.1%、71.1%のndsテストセットで主要な性能を達成している。
コードはhttps://github.com/dvlab-research/uvtrで入手できる。
関連論文リスト
- FusionFormer: A Multi-sensory Fusion in Bird's-Eye-View and Temporal
Consistent Transformer for 3D Object Detection [14.457844173630667]
本稿では,FusionFormerと呼ばれる,エンドツーエンドのマルチモーダル・フュージョン・トランスフォーマーベースのフレームワークを提案する。
均一なサンプリング戦略を開発することにより,2次元画像と3次元ボクセルの特徴を自発的に抽出することができる。
テスト時間増強を伴わない3次元物体検出タスクにおいて,72.6% mAP と 75.1% NDS の最先端シングルモデル性能を実現する。
論文 参考訳(メタデータ) (2023-09-11T06:27:25Z) - UniTR: A Unified and Efficient Multi-Modal Transformer for
Bird's-Eye-View Representation [113.35352122662752]
屋外3次元知覚のためのマルチモーダルバックボーンUniTRを提案する。
UniTRは、統一されたモデリングと共有パラメータで様々なモダリティを処理する。
UniTRは基本的にタスクに依存しないバックボーンであり、異なる3D知覚タスクを自然にサポートする。
論文 参考訳(メタデータ) (2023-08-15T12:13:44Z) - Geometric-aware Pretraining for Vision-centric 3D Object Detection [77.7979088689944]
GAPretrainと呼ばれる新しい幾何学的事前学習フレームワークを提案する。
GAPretrainは、複数の最先端検出器に柔軟に適用可能なプラグアンドプレイソリューションとして機能する。
BEVFormer法を用いて, nuScenes val の 46.2 mAP と 55.5 NDS を実現し, それぞれ 2.7 と 2.1 点を得た。
論文 参考訳(メタデータ) (2023-04-06T14:33:05Z) - DETR4D: Direct Multi-View 3D Object Detection with Sparse Attention [50.11672196146829]
サラウンドビュー画像を用いた3次元物体検出は、自動運転にとって必須の課題である。
マルチビュー画像における3次元オブジェクト検出のためのスパースアテンションと直接特徴クエリを探索するトランスフォーマーベースのフレームワークであるDETR4Dを提案する。
論文 参考訳(メタデータ) (2022-12-15T14:18:47Z) - Homogeneous Multi-modal Feature Fusion and Interaction for 3D Object
Detection [16.198358858773258]
マルチモーダル3D物体検出は、自律運転において活発な研究課題となっている。
スパース3D点と高密度2Dピクセルの相互特徴融合を探索するのは簡単ではない。
最近のアプローチでは、画像特徴と2次元画像平面に投影される点雲の特徴を融合させるか、スパース点雲と高密度画像画素を組み合わせるかのどちらかである。
論文 参考訳(メタデータ) (2022-10-18T06:15:56Z) - Voxel Field Fusion for 3D Object Detection [140.6941303279114]
本稿では,3次元オブジェクト検出のための概念的にシンプルなフレームワークであるvoxel field fusionを提案する。
提案手法は, ボクセル領域における画像特徴を線として表現し, 融合することにより, モダリティの整合性を維持することを目的としている。
このフレームワークは、さまざまなベンチマークで一貫したゲインを達成し、KITTIとnuScenesデータセットでの従来のフュージョンベースのメソッドを上回っている。
論文 参考訳(メタデータ) (2022-05-31T16:31:36Z) - Weakly Aligned Feature Fusion for Multimodal Object Detection [52.15436349488198]
マルチモーダルデータはしばしば位置ずれの問題に悩まされます。つまり、イメージペアは厳密に一致していません。
この問題により、マルチモーダルな特徴を融合させることが難しくなり、畳み込みニューラルネットワーク(CNN)のトレーニングが難解になる。
本稿では、位置ずれ問題に対処するために、アライメント領域CNN(AR-CNN)と呼ばれる汎用マルチモーダル検出器を提案する。
論文 参考訳(メタデータ) (2022-04-21T02:35:23Z) - Stereo RGB and Deeper LIDAR Based Network for 3D Object Detection [40.34710686994996]
3Dオブジェクト検出は、自動運転のシナリオにおいて新たな課題となっている。
以前の作業では、プロジェクションベースまたはボクセルベースのモデルを使用して3Dポイントクラウドを処理していた。
本稿では,意味情報と空間情報の同時利用が可能なStereo RGBおよびDeeper LIDARフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-09T11:19:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。