論文の概要: MsSVT++: Mixed-scale Sparse Voxel Transformer with Center Voting for 3D
Object Detection
- arxiv url: http://arxiv.org/abs/2401.11718v1
- Date: Mon, 22 Jan 2024 06:42:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-23 14:56:36.814416
- Title: MsSVT++: Mixed-scale Sparse Voxel Transformer with Center Voting for 3D
Object Detection
- Title(参考訳): mssvt++: 3dオブジェクト検出のためのセンター投票を備えた混合スケールスパースボクセルトランスフォーマ
- Authors: Jianan Li, Shaocong Dong, Lihe Ding, Tingfa Xu
- Abstract要約: MsSVT++は、Mixed-scale Sparse Voxel Transformerである。
両タイプの情報を、分割・コンカレントアプローチで同時にキャプチャする。
MsSVT++は、さまざまなデータセット間で一貫して例外的なパフォーマンスを提供する。
- 参考スコア(独自算出の注目度): 19.8309983660935
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate 3D object detection in large-scale outdoor scenes, characterized by
considerable variations in object scales, necessitates features rich in both
long-range and fine-grained information. While recent detectors have utilized
window-based transformers to model long-range dependencies, they tend to
overlook fine-grained details. To bridge this gap, we propose MsSVT++, an
innovative Mixed-scale Sparse Voxel Transformer that simultaneously captures
both types of information through a divide-and-conquer approach. This approach
involves explicitly dividing attention heads into multiple groups, each
responsible for attending to information within a specific range. The outputs
of these groups are subsequently merged to obtain final mixed-scale features.
To mitigate the computational complexity associated with applying a
window-based transformer in 3D voxel space, we introduce a novel Chessboard
Sampling strategy and implement voxel sampling and gathering operations
sparsely using a hash map. Moreover, an important challenge stems from the
observation that non-empty voxels are primarily located on the surface of
objects, which impedes the accurate estimation of bounding boxes. To overcome
this challenge, we introduce a Center Voting module that integrates newly voted
voxels enriched with mixed-scale contextual information towards the centers of
the objects, thereby improving precise object localization. Extensive
experiments demonstrate that our single-stage detector, built upon the
foundation of MsSVT++, consistently delivers exceptional performance across
diverse datasets.
- Abstract(参考訳): 大規模屋外シーンにおける高精度な3次元物体検出は、オブジェクトスケールのかなりのバリエーションによって特徴付けられる。
最近の検出器は、ウィンドウベースのトランスフォーマーを使用して長距離依存性をモデル化しているが、細部の詳細を見落としがちである。
このギャップを埋めるために、我々はMsSVT++を提案する。MsSVT++は、分割・コンカレントアプローチにより、両タイプの情報を同時にキャプチャする、革新的なMixed-scale Sparse Voxel Transformerである。
このアプローチでは、注意ヘッドを複数のグループに明示的に分割し、それぞれが特定の範囲内の情報に対応する責任を負う。
これらのグループの出力は後にマージされ、最終的な混合スケールの特徴を得る。
ウィンドウベースのトランスフォーマーを3次元ボクセル空間に適用する際の計算複雑性を軽減するため,新しいチェスボードサンプリング戦略を導入し,ハッシュマップを用いてバラバラにボクセルサンプリングと収集操作を実装した。
さらに、重要な課題は、空でないボクセルが主に物体の表面にあり、境界ボックスの正確な推定が妨げられるという観察から生じる。
この課題を克服するために、我々は、オブジェクトの中央に混在するコンテキスト情報に富んだ、新しく投票されたボクセルを統合するCenter Votingモジュールを導入し、正確なオブジェクトローカライゼーションを改善する。
大規模な実験では、MsSVT++の基盤の上に構築された単一ステージ検出器が、さまざまなデータセットに対して一貫して例外的なパフォーマンスを実現しています。
関連論文リスト
- Boosting 3D Object Detection with Semantic-Aware Multi-Branch Framework [44.44329455757931]
自律走行では、LiDARセンサーは3Dポイントの雲の取得に不可欠であり、信頼できる幾何学的情報を提供する。
そこで本研究では,Semantic-aware Multi-branch Sampling (SMS)モジュールを用いたマルチブランチ2次元オブジェクト検出フレームワークを提案する。
KITTI 3Dオブジェクト検出ベンチマークによる実験結果から,本手法は種々のバックボーンに対して優れた検出性能向上を実現することが示された。
論文 参考訳(メタデータ) (2024-07-08T09:25:45Z) - Find n' Propagate: Open-Vocabulary 3D Object Detection in Urban Environments [67.83787474506073]
我々は,現在のLiDARに基づく3Dオブジェクト検出システムの限界に対処する。
本稿では,3次元OVタスクに対する汎用textscFind n' Propagate アプローチを提案する。
我々は、新しいオブジェクトクラスに対する平均精度(AP)を最大3.97倍に向上させる。
論文 参考訳(メタデータ) (2024-03-20T12:51:30Z) - PVT-SSD: Single-Stage 3D Object Detector with Point-Voxel Transformer [75.2251801053839]
単段3次元検出用ポイント・ボクセル変換器(PVT-SSD)を提案する。
本稿では,voxel から長時間のコンテキストを安価に取得できる Point-Voxel Transformer (PVT) モジュールを提案する。
いくつかの自律走行ベンチマーク実験は,提案手法の有効性と有効性を検証する。
論文 参考訳(メタデータ) (2023-05-11T07:37:15Z) - CloudAttention: Efficient Multi-Scale Attention Scheme For 3D Point
Cloud Learning [81.85951026033787]
この作業にトランスフォーマーをセットし、それらを形状分類と部分およびシーンセグメンテーションのための階層的なフレームワークに組み込む。
また、各イテレーションにおけるサンプリングとグループ化を活用して、効率的でダイナミックなグローバルなクロスアテンションを計算します。
提案した階層モデルは,最先端の形状分類を平均精度で達成し,従来のセグメンテーション法と同等の結果を得る。
論文 参考訳(メタデータ) (2022-07-31T21:39:15Z) - Depthformer : Multiscale Vision Transformer For Monocular Depth
Estimation With Local Global Information Fusion [6.491470878214977]
本稿では,屋内のNYUV2データセットと屋外のKITTIデータセットの深度推定のためのトランスフォーマーベースモデルをベンチマークする。
単眼深度推定のための新しいアテンションベースアーキテクチャDepthformerを提案する。
提案手法は,屋根平均正方形誤差(RMSE)でそれぞれ3.3%,3.3%改善する。
論文 参考訳(メタデータ) (2022-07-10T20:49:11Z) - Unifying Voxel-based Representation with Transformer for 3D Object
Detection [143.91910747605107]
マルチモード3Dオブジェクト検出のための統一フレームワークUVTRを提案する。
提案手法は, ボクセル空間におけるマルチモーダリティ表現を統一し, 高精度かつ堅牢な単一モード・クロスモーダリティ3D検出を実現することを目的とする。
UVTRは、69.7%、55.1%、71.1%のNDSで、それぞれLiDAR、カメラ、マルチモダリティの入力を行う。
論文 参考訳(メタデータ) (2022-06-01T17:02:40Z) - Voxel Set Transformer: A Set-to-Set Approach to 3D Object Detection from
Point Clouds [16.69887974230884]
Transformerは多くの2次元視覚タスクで有望なパフォーマンスを示した。
ポイントクラウドは長いシーケンスであり、3D空間に不均一に分散しているため、大規模なポイントクラウドデータの自己アテンションを計算するのは困難である。
既存の方法は、通常、ポイントを同じ大きさのクラスタにグループ化したり、離散化された表現に対して畳み込み的な自己アテンションを実行することによって、自己アテンションを局所的に計算する。
本稿では,Voxel Set Transformer (VoxSeT) と呼ばれる新しいボクセルベースアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-03-19T12:31:46Z) - Voxel Transformer for 3D Object Detection [133.34678177431914]
Voxel Transformer(ヴォクセルトランスフォーマー、VoTr)は、点雲から3Dオブジェクトを検出するための、新鮮で効果的なボクセルベースのトランスフォーマーバックボーンである。
提案するVoTrは、KITTIデータセットとOpenデータセットの計算効率を維持しながら、畳み込みベースラインよりも一貫した改善を示す。
論文 参考訳(メタデータ) (2021-09-06T14:10:22Z) - Stereo RGB and Deeper LIDAR Based Network for 3D Object Detection [40.34710686994996]
3Dオブジェクト検出は、自動運転のシナリオにおいて新たな課題となっている。
以前の作業では、プロジェクションベースまたはボクセルベースのモデルを使用して3Dポイントクラウドを処理していた。
本稿では,意味情報と空間情報の同時利用が可能なStereo RGBおよびDeeper LIDARフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-09T11:19:24Z) - siaNMS: Non-Maximum Suppression with Siamese Networks for Multi-Camera
3D Object Detection [65.03384167873564]
サイムズネットワークは、よく知られた3Dオブジェクト検出器アプローチのパイプラインに統合される。
アソシエーションはオブジェクトの3Dボックスレグレッションを強化するために利用される。
nuScenesデータセットの実験的評価は,提案手法が従来のNMS手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2020-02-19T15:32:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。