論文の概要: PolarFormer: Multi-camera 3D Object Detection with Polar Transformer
- arxiv url: http://arxiv.org/abs/2206.15398v1
- Date: Thu, 30 Jun 2022 16:32:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-01 18:16:27.440340
- Title: PolarFormer: Multi-camera 3D Object Detection with Polar Transformer
- Title(参考訳): PolarFormer:Polar Transformerを用いたマルチカメラ3Dオブジェクト検出
- Authors: Yanqin Jiang, Li Zhang, Zhenwei Miao, Xiatian Zhu, Jin Gao, Weiming
Hu, Yu-Gang Jiang
- Abstract要約: 自律運転における3次元物体検出は、3次元の世界に存在する「何」と「どこに」の物体を推論することを目的としている。
既存の手法はしばしば垂直軸を持つ標準カルテ座標系を採用する。
鳥眼ビュー(BEV)におけるより正確な3次元物体検出のための新しい極変換器(PolarFormer)を,マルチカメラ2D画像のみを入力として提案する。
- 参考スコア(独自算出の注目度): 93.49713023975727
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: 3D object detection in autonomous driving aims to reason "what" and "where"
the objects of interest present in a 3D world. Following the conventional
wisdom of previous 2D object detection, existing methods often adopt the
canonical Cartesian coordinate system with perpendicular axis. However, we
conjugate that this does not fit the nature of the ego car's perspective, as
each onboard camera perceives the world in shape of wedge intrinsic to the
imaging geometry with radical (non-perpendicular) axis. Hence, in this paper we
advocate the exploitation of the Polar coordinate system and propose a new
Polar Transformer (PolarFormer) for more accurate 3D object detection in the
bird's-eye-view (BEV) taking as input only multi-camera 2D images.
Specifically, we design a cross attention based Polar detection head without
restriction to the shape of input structure to deal with irregular Polar grids.
For tackling the unconstrained object scale variations along Polar's distance
dimension, we further introduce a multi-scalePolar representation learning
strategy. As a result, our model can make best use of the Polar representation
rasterized via attending to the corresponding image observation in a
sequence-to-sequence fashion subject to the geometric constraints. Thorough
experiments on the nuScenes dataset demonstrate that our PolarFormer
outperforms significantly state-of-the-art 3D object detection alternatives, as
well as yielding competitive performance on BEV semantic segmentation task.
- Abstract(参考訳): 自律運転における3d物体検出は、3dの世界に存在する興味のある物体を「何」と「どこで」判断することを目的としている。
従来の2次元物体検出の知恵に従い、既存の方法はしばしば垂直軸を持つ正準直交座標系を採用する。
しかし、車載カメラは、急進的な(垂直でない)軸を持つ画像幾何学に内在するくさび形の世界を知覚するので、これはエゴカーの視点の性質に合わないと我々は主張する。
そこで本論文では,極座標系の利用を提唱し,複数カメラ2D画像のみを入力とする鳥眼ビュー(BEV)において,より正確な3次元物体検出のための新しい極変換器(PolarFormer)を提案する。
具体的には,不規則な極性格子を扱う入力構造の形状に制約なく,クロスアテンションに基づく極性検出ヘッドを設計する。
極距離次元に沿った無拘束物体スケールの変動に対処するために、さらに多次元表現学習戦略を導入する。
その結果,本モデルは,幾何学的制約を受けるシーケンス・ツー・シーケンス方式で対応する画像観察に臨むことにより,ラスタライズされた極性表現を最大限に活用することができる。
nuScenesデータセットに関する詳細な実験によると、PolarFormerは最先端の3Dオブジェクト検出方法よりも優れており、BEVセマンティックセマンティックセグメンテーションタスクでは競争力がある。
関連論文リスト
- PolarBEVDet: Exploring Polar Representation for Multi-View 3D Object Detection in Bird's-Eye-View [5.0458717114406975]
カルテシアンBEV表現の代替として極性BEV表現を用いることを提案する。
nuScenesの実験では、PolarBEVDetは優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-08-29T01:42:38Z) - MonoGAE: Roadside Monocular 3D Object Detection with Ground-Aware
Embeddings [29.050983641961658]
そこで我々は,モノGAEという,地表面認識による道路面モノクロ3次元物体検出のための新しいフレームワークを提案する。
提案手法は,道路側カメラの広範に認識されている3次元検出ベンチマークにおいて,従来のモノクル3次元物体検出器と比較して,かなりの性能上の優位性を示す。
論文 参考訳(メタデータ) (2023-09-30T14:52:26Z) - Neural Voting Field for Camera-Space 3D Hand Pose Estimation [106.34750803910714]
3次元暗黙表現に基づく1枚のRGB画像からカメラ空間の3Dハンドポーズ推定のための統一的なフレームワークを提案する。
本稿では,カメラフラストラムにおける高密度3次元ポイントワイド投票により,カメラ空間の3次元ハンドポーズを推定する,新しい3次元高密度回帰手法を提案する。
論文 参考訳(メタデータ) (2023-05-07T16:51:34Z) - Bridged Transformer for Vision and Point Cloud 3D Object Detection [92.86856146086316]
Bridged Transformer (BrT) は、3Dオブジェクト検出のためのエンドツーエンドアーキテクチャである。
BrTは3Dオブジェクトと2Dオブジェクトのバウンディングボックスを、ポイントとイメージパッチの両方から識別する。
BrTがSUN RGB-DおよびScanNetV2データセットの最先端手法を上回ることを示す。
論文 参考訳(メタデータ) (2022-10-04T05:44:22Z) - Neural Correspondence Field for Object Pose Estimation [67.96767010122633]
1枚のRGB画像から3次元モデルで剛体物体の6DoFポーズを推定する手法を提案する。
入力画像の画素で3次元オブジェクト座標を予測する古典的対応法とは異なり,提案手法はカメラフラストラムでサンプリングされた3次元クエリポイントで3次元オブジェクト座標を予測する。
論文 参考訳(メタデータ) (2022-07-30T01:48:23Z) - Polar Parametrization for Vision-based Surround-View 3D Detection [35.2870826850481]
3次元検出のための極性パラメトリゼーションは、位置パラメトリゼーション、速度分解、知覚範囲、ラベル割り当て、損失関数を再構成する。
偏光パラメトリゼーションに基づいて,ポーラDETRと呼ばれるサラウンドビュー3次元検出TRansformerを提案する。
論文 参考訳(メタデータ) (2022-06-22T10:26:12Z) - Towards Model Generalization for Monocular 3D Object Detection [57.25828870799331]
我々は,Mono3Dオブジェクト検出に有効な統合カメラ一般化パラダイム(CGP)を提案する。
また,インスタンスレベルの拡張によりギャップを埋める2D-3D幾何一貫性オブジェクトスケーリング戦略(GCOS)を提案する。
DGMono3Dと呼ばれる手法は、評価された全てのデータセットに対して顕著な性能を達成し、SoTAの教師なしドメイン適応スキームを上回ります。
論文 参考訳(メタデータ) (2022-05-23T23:05:07Z) - Learning Geometry-Guided Depth via Projective Modeling for Monocular 3D Object Detection [70.71934539556916]
射影モデルを用いて幾何学誘導深度推定を学習し, モノクル3次元物体検出を推し進める。
具体的には,モノクロ3次元物体検出ネットワークにおける2次元および3次元深度予測の投影モデルを用いた原理的幾何式を考案した。
本手法は, 適度なテスト設定において, 余分なデータを2.80%も加えることなく, 最先端単分子法の検出性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-07-29T12:30:39Z) - MonoRUn: Monocular 3D Object Detection by Reconstruction and Uncertainty
Propagation [4.202461384355329]
我々は,高密度な対応や幾何学を自己教師型で学習する,新しい3次元オブジェクト検出フレームワークMonoRUnを提案する。
提案手法は,KITTIベンチマークの最先端手法より優れている。
論文 参考訳(メタデータ) (2021-03-23T15:03:08Z) - Object-Aware Centroid Voting for Monocular 3D Object Detection [30.59728753059457]
本研究では, 深度を学習することなく, 終端から終端までトレーニング可能な単分子3次元物体検出器を提案する。
領域的外見の注意と幾何学的射影分布の両面を考慮した,新しいオブジェクト認識型投票手法が導入された。
遅延融合と予測される3D方向と次元により、オブジェクトの3D境界ボックスは単一のRGB画像から検出できる。
論文 参考訳(メタデータ) (2020-07-20T02:11:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。