論文の概要: SEFormer: Structure Embedding Transformer for 3D Object Detection
- arxiv url: http://arxiv.org/abs/2209.01745v1
- Date: Mon, 5 Sep 2022 03:38:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-07 14:02:03.410137
- Title: SEFormer: Structure Embedding Transformer for 3D Object Detection
- Title(参考訳): seformer: 3次元物体検出のための構造埋め込みトランス
- Authors: Xiaoyu Feng, Heming Du, Yueqi Duan, Yongpan Liu, Hehe Fan
- Abstract要約: Structure-Embedding TransFormer (SEFormer)は、ローカル構造を従来のTransformerとして保存するが、ローカル構造をエンコードする機能もある。
SEFormerは79.02%のmAPを達成しており、これは既存の作業よりも1.2%高い。
- 参考スコア(独自算出の注目度): 22.88983416605276
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Effectively preserving and encoding structure features from objects in
irregular and sparse LiDAR points is a key challenge to 3D object detection on
point cloud. Recently, Transformer has demonstrated promising performance on
many 2D and even 3D vision tasks. Compared with the fixed and rigid convolution
kernels, the self-attention mechanism in Transformer can adaptively exclude the
unrelated or noisy points and thus suitable for preserving the local spatial
structure in irregular LiDAR point cloud. However, Transformer only performs a
simple sum on the point features, based on the self-attention mechanism, and
all the points share the same transformation for value. Such isotropic
operation lacks the ability to capture the direction-distance-oriented local
structure which is important for 3D object detection. In this work, we propose
a Structure-Embedding transFormer (SEFormer), which can not only preserve local
structure as traditional Transformer but also have the ability to encode the
local structure. Compared to the self-attention mechanism in traditional
Transformer, SEFormer learns different feature transformations for value points
based on the relative directions and distances to the query point. Then we
propose a SEFormer based network for high-performance 3D object detection.
Extensive experiments show that the proposed architecture can achieve SOTA
results on Waymo Open Dataset, the largest 3D detection benchmark for
autonomous driving. Specifically, SEFormer achieves 79.02% mAP, which is 1.2%
higher than existing works. We will release the codes.
- Abstract(参考訳): 不規則でスパースなLiDARポイントのオブジェクトから構造的特徴を効果的に保存および符号化することは、ポイントクラウド上での3Dオブジェクト検出において重要な課題である。
最近、Transformerは多くの2Dおよび3Dビジョンタスクで有望なパフォーマンスを示した。
固定および剛性畳み込みカーネルと比較して、Transformerの自己保持機構は、不規則なLiDAR点雲における局所的な空間構造を保存するのに適している。
しかし、Transformerは自己アテンション機構に基づいて、ポイントの特徴に関する単純な和のみを実行し、すべてのポイントは同じ変換を値として共有する。
このような等方的操作は、3次元物体検出に重要な方向距離指向の局所構造を捕捉する能力に欠ける。
本研究では,従来のトランスフォーマーとして局所構造を保存するだけでなく,局所構造をエンコードする機能を持つ構造埋め込みトランスフォーマー(SEFormer)を提案する。
従来のTransformerの自己保持機構と比較して、SEFormerはクエリポイントへの相対的な方向と距離に基づいて、値ポイントの異なる特徴変換を学習する。
次に,高性能3次元物体検出のためのセフォマベースネットワークを提案する。
大規模な実験により、提案したアーキテクチャは、自動運転のための最大の3D検出ベンチマークであるWaymo Open DatasetでSOTA結果が得られることが示された。
具体的には、SEFormerは79.02%のmAPを達成しており、これは既存の作業よりも1.2%高い。
コードをリリースします。
関連論文リスト
- TraIL-Det: Transformation-Invariant Local Feature Networks for 3D LiDAR Object Detection with Unsupervised Pre-Training [21.56675189346088]
本稿では変換不変ローカル(TraIL)機能と関連するTraIL-Detアーキテクチャを紹介する。
TraILの特徴は、厳密な変換不変性を示し、点密度の変動に効果的に適応する。
彼らはLiDARの固有の等方性放射を利用して局所的な表現を強化する。
提案手法は,KITTI上のmAPを用いて,現代自己監督型3次元物体検出手法より優れている。
論文 参考訳(メタデータ) (2024-08-25T17:59:17Z) - Boosting Cross-Domain Point Classification via Distilling Relational Priors from 2D Transformers [59.0181939916084]
従来の3Dネットワークは主に局所幾何学的詳細に焦点を当て、局所幾何学間の位相構造を無視する。
そこで本稿では,大規模画像上においてよく訓練されたトランスフォーマーから前駆体を抽出する,新しい先駆体蒸留法を提案する。
PointDA-10とSim-to-Realデータセットの実験は、提案手法が点クラウド分類におけるUDAの最先端性能を一貫して達成していることを検証する。
論文 参考訳(メタデータ) (2024-07-26T06:29:09Z) - ConDaFormer: Disassembled Transformer with Local Structure Enhancement
for 3D Point Cloud Understanding [105.98609765389895]
トランスフォーマーは、最近3Dポイントクラウド理解のために研究されている。
0.1万を超える多数のポイントは、ポイントクラウドデータに対してグローバルな自己注意を可能にする。
本稿では,ConDaFormerという新しい変圧器ブロックを開発する。
論文 参考訳(メタデータ) (2023-12-18T11:19:45Z) - Hierarchical Point Attention for Indoor 3D Object Detection [111.04397308495618]
本研究は、点ベース変圧器検出器の汎用階層設計として、2つの新しい注意操作を提案する。
まず、よりきめ細かい特徴学習を可能にするために、シングルスケールの入力機能からマルチスケールトークンを構築するマルチスケール注意(MS-A)を提案する。
第2に,適応型アテンション領域を持つサイズ適応型ローカルアテンション(Local-A)を提案する。
論文 参考訳(メタデータ) (2023-01-06T18:52:12Z) - Transformation-Equivariant 3D Object Detection for Autonomous Driving [44.17100476968737]
変態同変3D検出器(TED)は、自律運転中の3D物体を効率よく検出する手段である。
TEDは、KITTIの3D車検出リーダーボードに登録された全ての応募のうち、第1位にランクインしている。
論文 参考訳(メタデータ) (2022-11-22T02:51:56Z) - SWFormer: Sparse Window Transformer for 3D Object Detection in Point
Clouds [44.635939022626744]
ポイントクラウドにおける3Dオブジェクト検出は、現代のロボティクスと自律運転システムの中核となるコンポーネントである。
3Dオブジェクト検出の鍵となる課題は、3Dシーン内でのポイント占有のスパースな性質にある。
Sparse Window Transformer (SWFormer) を提案する。
論文 参考訳(メタデータ) (2022-10-13T21:37:53Z) - Geometry-Contrastive Transformer for Generalized 3D Pose Transfer [95.56457218144983]
この研究の直感は、与えられたメッシュ間の幾何学的不整合を強力な自己認識機構で知覚することである。
本研究では,グローバルな幾何学的不整合に対する3次元構造的知覚能力を有する新しい幾何学コントラスト変換器を提案する。
本稿では, クロスデータセット3次元ポーズ伝達タスクのための半合成データセットとともに, 潜時等尺正則化モジュールを提案する。
論文 参考訳(メタデータ) (2021-12-14T13:14:24Z) - Embracing Single Stride 3D Object Detector with Sparse Transformer [63.179720817019096]
自律走行のためのLiDARを用いた3次元物体検出では、物体サイズと入力シーンサイズとの比が2次元検出の場合に比べて有意に小さい。
多くの3D検出器は2D検出器の一般的な慣習に従っており、点雲の定量化後も特徴マップを分解する。
本稿では,SST(Single-stride Sparse Transformer)を提案する。
論文 参考訳(メタデータ) (2021-12-13T02:12:02Z) - Progressive Coordinate Transforms for Monocular 3D Object Detection [52.00071336733109]
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
論文 参考訳(メタデータ) (2021-08-12T15:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。