論文の概要: CenterFormer: Center-based Transformer for 3D Object Detection
- arxiv url: http://arxiv.org/abs/2209.05588v1
- Date: Mon, 12 Sep 2022 20:15:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-14 12:44:59.178820
- Title: CenterFormer: Center-based Transformer for 3D Object Detection
- Title(参考訳): centerformer: 3次元物体検出のためのセンタベーストランスフォーマ
- Authors: Zixiang Zhou, Xiangchen Zhao, Yu Wang, Panqu Wang, Hassan Foroosh
- Abstract要約: 本研究では,3次元物体検出のための中心型トランスネットワークであるCenterFormerを提案する。
CenterFormerは、Openデータセット上の単一のモデルに対して、最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 17.262584317125995
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Query-based transformer has shown great potential in constructing long-range
attention in many image-domain tasks, but has rarely been considered in
LiDAR-based 3D object detection due to the overwhelming size of the point cloud
data. In this paper, we propose CenterFormer, a center-based transformer
network for 3D object detection. CenterFormer first uses a center heatmap to
select center candidates on top of a standard voxel-based point cloud encoder.
It then uses the feature of the center candidate as the query embedding in the
transformer. To further aggregate features from multiple frames, we design an
approach to fuse features through cross-attention. Lastly, regression heads are
added to predict the bounding box on the output center feature representation.
Our design reduces the convergence difficulty and computational complexity of
the transformer structure. The results show significant improvements over the
strong baseline of anchor-free object detection networks. CenterFormer achieves
state-of-the-art performance for a single model on the Waymo Open Dataset, with
73.7% mAPH on the validation set and 75.6% mAPH on the test set, significantly
outperforming all previously published CNN and transformer-based methods. Our
code is publicly available at https://github.com/TuSimple/centerformer
- Abstract(参考訳): 問合せベースのトランスフォーマーは、多くのイメージドメインタスクにおいて長距離の注目を構築する大きな可能性を示しているが、ポイントクラウドデータの圧倒的なサイズのため、LiDARベースの3Dオブジェクト検出では、ほとんど考慮されていない。
本稿では,3次元物体検出のための中心型トランスネットワークであるCenterFormerを提案する。
CenterFormerはまずセンターヒートマップを使用して、標準のvoxelベースのポイントクラウドエンコーダ上にセンター候補を選択する。
その後、トランスフォーマー内のクエリ埋め込みとして、センター候補の機能を使用する。
複数のフレームから機能をさらに集約するために,クロスアテンションを通じて特徴を融合するアプローチを設計する。
最後に、出力センター特徴表現のバウンディングボックスを予測するために回帰ヘッドが追加される。
我々の設計は変換器構造の収束困難と計算複雑性を低減する。
その結果,アンカーフリーオブジェクト検出ネットワークのベースラインが大幅に向上した。
CenterFormerは、Waymo Open Dataset上の単一モデルの最先端のパフォーマンスを達成し、検証セット上で73.7% mAPH、テストセット上で75.6% mAPHを達成し、以前に公開されたCNNやトランスフォーマーベースのメソッドよりも大幅に向上した。
私たちのコードはhttps://github.com/TuSimple/centerformerで公開されています。
関連論文リスト
- Boosting Cross-Domain Point Classification via Distilling Relational Priors from 2D Transformers [59.0181939916084]
従来の3Dネットワークは主に局所幾何学的詳細に焦点を当て、局所幾何学間の位相構造を無視する。
そこで本稿では,大規模画像上においてよく訓練されたトランスフォーマーから前駆体を抽出する,新しい先駆体蒸留法を提案する。
PointDA-10とSim-to-Realデータセットの実験は、提案手法が点クラウド分類におけるUDAの最先端性能を一貫して達成していることを検証する。
論文 参考訳(メタデータ) (2024-07-26T06:29:09Z) - MsSVT++: Mixed-scale Sparse Voxel Transformer with Center Voting for 3D
Object Detection [19.8309983660935]
MsSVT++は、Mixed-scale Sparse Voxel Transformerである。
両タイプの情報を、分割・コンカレントアプローチで同時にキャプチャする。
MsSVT++は、さまざまなデータセット間で一貫して例外的なパフォーマンスを提供する。
論文 参考訳(メタデータ) (2024-01-22T06:42:23Z) - ConDaFormer: Disassembled Transformer with Local Structure Enhancement
for 3D Point Cloud Understanding [105.98609765389895]
トランスフォーマーは、最近3Dポイントクラウド理解のために研究されている。
0.1万を超える多数のポイントは、ポイントクラウドデータに対してグローバルな自己注意を可能にする。
本稿では,ConDaFormerという新しい変圧器ブロックを開発する。
論文 参考訳(メタデータ) (2023-12-18T11:19:45Z) - Hierarchical Point Attention for Indoor 3D Object Detection [111.04397308495618]
本研究は、点ベース変圧器検出器の汎用階層設計として、2つの新しい注意操作を提案する。
まず、よりきめ細かい特徴学習を可能にするために、シングルスケールの入力機能からマルチスケールトークンを構築するマルチスケール注意(MS-A)を提案する。
第2に,適応型アテンション領域を持つサイズ適応型ローカルアテンション(Local-A)を提案する。
論文 参考訳(メタデータ) (2023-01-06T18:52:12Z) - SEFormer: Structure Embedding Transformer for 3D Object Detection [22.88983416605276]
Structure-Embedding TransFormer (SEFormer)は、ローカル構造を従来のTransformerとして保存するが、ローカル構造をエンコードする機能もある。
SEFormerは79.02%のmAPを達成しており、これは既存の作業よりも1.2%高い。
論文 参考訳(メタデータ) (2022-09-05T03:38:12Z) - CenterNet++ for Object Detection [174.59360147041673]
ボトムアップアプローチはトップダウンと同じくらい競争力があり、リコールも高くなります。
CenterNetと呼ばれる我々のアプローチは、各オブジェクトを三重項キーポイント(左上と右下)として検出する。
MS-COCOデータセットでは、Res2Net-101 と Swin-Transformer の CenterNet がそれぞれ 53.7% と 57.1% のAPを達成している。
論文 参考訳(メタデータ) (2022-04-18T16:45:53Z) - DeepFusion: Lidar-Camera Deep Fusion for Multi-Modal 3D Object Detection [83.18142309597984]
ライダーとカメラは、自動運転における3D検出を補完する情報を提供する重要なセンサーである。
我々はDeepFusionという名前の汎用マルチモーダル3D検出モデル群を開発した。
論文 参考訳(メタデータ) (2022-03-15T18:46:06Z) - Point Transformer [122.2917213154675]
セルフアテンションネットワークを3Dポイントクラウド処理に適用することを検討する。
ポイントクラウドのセルフアテンションレイヤを設計し、セマンティックシーンセグメンテーションなどのタスクのためのセルフアテンションネットワークの構築に使用します。
ポイントトランスフォーマーの設計は、ドメインやタスク間の事前作業を改善する。
論文 参考訳(メタデータ) (2020-12-16T18:58:56Z) - CenterNet3D: An Anchor Free Object Detector for Point Cloud [14.506796247331584]
本研究では,アンカーフリーのCenterNet3Dネットワークを提案し,アンカーなしで3次元物体検出を行う。
中心点に基づいて,アンカー不要な3次元物体検出を行うCenterNet3Dネットワークを提案する。
提案手法は,最先端のアンカーベースの一段法よりも優れ,二段法に匹敵する性能を有する。
論文 参考訳(メタデータ) (2020-07-13T13:53:56Z) - Center-based 3D Object Detection and Tracking [8.72305226979945]
3次元オブジェクトは通常、ポイントクラウド内の3Dボックスとして表現される。
この表現は、よく研究されたイメージベースの2Dバウンディングボックス検出を模倣するが、さらなる課題が伴う。
本稿では,3Dオブジェクトをポイントとして表現し,検出し,追跡する手法を提案する。
われわれのフレームワークであるCenterPointは、まずキーポイント検出器を用いて物体の中心を検知し、3次元サイズ、3次元方向、速度など他の属性に回帰する。
その結果、検出と追跡のアルゴリズムは単純で効率的で効果的である。
論文 参考訳(メタデータ) (2020-06-19T17:59:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。