論文の概要: WidthFormer: Toward Efficient Transformer-based BEV View Transformation
- arxiv url: http://arxiv.org/abs/2401.03836v5
- Date: Tue, 30 Jul 2024 10:36:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-31 22:29:35.611629
- Title: WidthFormer: Toward Efficient Transformer-based BEV View Transformation
- Title(参考訳): WidthFormer: 効率的なトランスフォーマーベースのBEVビュートランスフォーメーションを目指して
- Authors: Chenhongyi Yang, Tianwei Lin, Lichao Huang, Elliot J. Crowley,
- Abstract要約: WidthFormerは、リアルタイム自動運転アプリケーションのためのマルチビューカメラからBirdのEye-View(BEV)表現を計算するトランスフォーマーベースのモジュールである。
まず,3次元幾何情報を正確にカプセル化できる新しい3次元位置符号化機構を提案する。
次に,特徴圧縮による潜在的な情報損失を補償する2つのモジュールを開発する。
- 参考スコア(独自算出の注目度): 21.10523575080856
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We present WidthFormer, a novel transformer-based module to compute Bird's-Eye-View (BEV) representations from multi-view cameras for real-time autonomous-driving applications. WidthFormer is computationally efficient, robust and does not require any special engineering effort to deploy. We first introduce a novel 3D positional encoding mechanism capable of accurately encapsulating 3D geometric information, which enables our model to compute high-quality BEV representations with only a single transformer decoder layer. This mechanism is also beneficial for existing sparse 3D object detectors. Inspired by the recently proposed works, we further improve our model's efficiency by vertically compressing the image features when serving as attention keys and values, and then we develop two modules to compensate for potential information loss due to feature compression. Experimental evaluation on the widely-used nuScenes 3D object detection benchmark demonstrates that our method outperforms previous approaches across different 3D detection architectures. More importantly, our model is highly efficient. For example, when using $256\times 704$ input images, it achieves 1.5 ms and 2.8 ms latency on NVIDIA 3090 GPU and Horizon Journey-5 computation solutions. Furthermore, WidthFormer also exhibits strong robustness to different degrees of camera perturbations. Our study offers valuable insights into the deployment of BEV transformation methods in real-world, complex road environments. Code is available at https://github.com/ChenhongyiYang/WidthFormer .
- Abstract(参考訳): 我々は、リアルタイム自動運転アプリケーションのためのマルチビューカメラからBird's-Eye-View(BEV)表現を計算するための、新しいトランスフォーマーベースのモジュールであるWidthFormerを紹介する。
WidthFormerは計算効率が高く、堅牢で、デプロイに特別なエンジニアリング作業を必要としない。
まず、3次元幾何情報を正確にカプセル化できる新しい3次元位置符号化機構を導入し、このモデルにより、1つのトランスフォーマーデコーダ層だけで高品質なBEV表現を計算できる。
この機構は既存のスパース3Dオブジェクト検出器にも有用である。
最近提案された研究に触発されて、注目キーや値として画像の特徴を垂直に圧縮することで、モデルの効率をさらに向上させ、特徴圧縮による潜在的な情報損失を補償する2つのモジュールを開発する。
広範に使用されているnuScenes 3Dオブジェクト検出ベンチマークの実験的評価により,本手法が従来の3D検出アーキテクチャよりも優れていることが示された。
さらに重要なことは、私たちのモデルは極めて効率的です。
例えば、256\times 704$の入力イメージを使用する場合、NVIDIA 3090 GPUとHorizon Journey-5計算ソリューションで1.5msと2.8msのレイテンシを実現する。
さらに、WidthFormerはカメラの摂動の度合いに強い堅牢性を示す。
我々の研究は、現実の複雑な道路環境におけるBEV変換手法の展開に関する貴重な洞察を提供する。
コードはhttps://github.com/ChenhongyiYang/WidthFormerで入手できる。
関連論文リスト
- EVT: Efficient View Transformation for Multi-Modal 3D Object Detection [2.9848894641223302]
効率的なビュー変換(EVT)による新しい3次元物体検出法を提案する。
EVTは、アダプティブサンプリングとアダプティブプロジェクション(ASAP)を使用して、3Dサンプリングポイントとアダプティブカーネルを生成する。
トランスデコーダ内で得られたマルチモーダルBEV機能を効果的に活用するように設計されている。
論文 参考訳(メタデータ) (2024-11-16T06:11:10Z) - LGM: Large Multi-View Gaussian Model for High-Resolution 3D Content
Creation [51.19871052619077]
テキストプロンプトやシングルビュー画像から高解像度の3Dモデルを生成するための新しいフレームワークであるLarge Multi-View Gaussian Model (LGM)を紹介する。
我々は,5秒以内に3Dオブジェクトを生成する高速な速度を維持しながら,トレーニング解像度を512に向上し,高解像度な3Dコンテンツ生成を実現する。
論文 参考訳(メタデータ) (2024-02-07T17:57:03Z) - BEV-IO: Enhancing Bird's-Eye-View 3D Detection with Instance Occupancy [58.92659367605442]
我々は,BEV表現をインスタンス占有情報で拡張する新しい3次元検出パラダイムであるBEV-IOを提案する。
BEV-IOは、パラメータや計算オーバーヘッドの無視できる増加しか加えず、最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-26T11:16:12Z) - Geometric-aware Pretraining for Vision-centric 3D Object Detection [77.7979088689944]
GAPretrainと呼ばれる新しい幾何学的事前学習フレームワークを提案する。
GAPretrainは、複数の最先端検出器に柔軟に適用可能なプラグアンドプレイソリューションとして機能する。
BEVFormer法を用いて, nuScenes val の 46.2 mAP と 55.5 NDS を実現し, それぞれ 2.7 と 2.1 点を得た。
論文 参考訳(メタデータ) (2023-04-06T14:33:05Z) - Generative Multiplane Neural Radiance for 3D-Aware Image Generation [102.15322193381617]
本稿では,複数のターゲットビューに対して連続した3次元高解像度画像を効率よく生成する手法を提案する。
我々のGMNRモデルは、単一のV100上で17.6FPSの1024×1024ピクセルの3D認識画像を生成する。
論文 参考訳(メタデータ) (2023-04-03T17:41:20Z) - AutoAlignV2: Deformable Feature Aggregation for Dynamic Multi-Modal 3D
Object Detection [17.526914782562528]
我々はAutoAlign上に構築された高速で強力なマルチモーダル3D検出フレームワークであるAutoAlignV2を提案する。
我々の最良のモデルは、nuScenesテストのリーダーボード上で72.4 NDSに達し、新しい最先端の結果が得られます。
論文 参考訳(メタデータ) (2022-07-21T06:17:23Z) - M^2BEV: Multi-Camera Joint 3D Detection and Segmentation with Unified
Birds-Eye View Representation [145.6041893646006]
M$2$BEVは3Dオブジェクトの検出とマップのセグメンテーションを共同で行う統合フレームワークである。
M$2$BEVは、両方のタスクを統一モデルで推論し、効率を向上する。
論文 参考訳(メタデータ) (2022-04-11T13:43:25Z) - RangeRCNN: Towards Fast and Accurate 3D Object Detection with Range
Image Representation [35.6155506566957]
RangeRCNNは、レンジ画像表現に基づく、新しく効果的な3Dオブジェクト検出フレームワークである。
本稿では,拡張残差ブロック(DRB)を用いて,異なる物体スケールを適応させ,よりフレキシブルな受容場を得る。
実験によると、RangeRCNNはKITTIデータセットとOpenデータセットで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-09-01T03:28:13Z) - Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled
Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。
我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。
アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文 参考訳(メタデータ) (2020-04-05T12:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。