論文の概要: WidthFormer: Toward Efficient Transformer-based BEV View Transformation
- arxiv url: http://arxiv.org/abs/2401.03836v1
- Date: Mon, 8 Jan 2024 11:50:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-09 16:45:24.774715
- Title: WidthFormer: Toward Efficient Transformer-based BEV View Transformation
- Title(参考訳): widthformer:効率的なトランスフォーマティブベースのbevビュー変換に向けて
- Authors: Chenhongyi Yang, Tianwei Lin, Lichao Huang and Elliot J. Crowley
- Abstract要約: WidthFormerは計算効率が高く、堅牢で、デプロイに特別なエンジニアリング作業を必要としない。
本稿では,3次元幾何情報を正確にカプセル化できる新しい3次元位置符号化機構を提案する。
私たちのモデルは極めて効率的です。例えば、256タイムの704ドルの入力イメージを使用すると、NVIDIA 3090 GPUで1.5ミリ秒のレイテンシを実現します。
- 参考スコア(独自算出の注目度): 23.055953867959744
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In this work, we present WidthFormer, a novel transformer-based
Bird's-Eye-View (BEV) 3D detection method tailored for real-time
autonomous-driving applications. WidthFormer is computationally efficient,
robust and does not require any special engineering effort to deploy. In this
work, we propose a novel 3D positional encoding mechanism capable of accurately
encapsulating 3D geometric information, which enables our model to generate
high-quality BEV representations with only a single transformer decoder layer.
This mechanism is also beneficial for existing sparse 3D object detectors.
Inspired by the recently-proposed works, we further improve our model's
efficiency by vertically compressing the image features when serving as
attention keys and values. We also introduce two modules to compensate for
potential information loss due to feature compression. Experimental evaluation
on the widely-used nuScenes 3D object detection benchmark demonstrates that our
method outperforms previous approaches across different 3D detection
architectures. More importantly, our model is highly efficient. For example,
when using $256\times 704$ input images, it achieves 1.5 ms latency on NVIDIA
3090 GPU. Furthermore, WidthFormer also exhibits strong robustness to different
degrees of camera perturbations. Our study offers valuable insights into the
deployment of BEV transformation methods in real-world, complex road
environments. Code is available at
https://github.com/ChenhongyiYang/WidthFormer .
- Abstract(参考訳): 本稿では,リアルタイム自動運転アプリケーション用に調整された,新しいトランスフォーマティブベースバードズアイビュー(bev)3次元検出手法であるwidthformerを提案する。
WidthFormerは計算効率が高く、堅牢で、デプロイに特別なエンジニアリング作業を必要としない。
本研究では,3次元幾何情報を高精度にカプセル化できる新しい3次元位置符号化機構を提案する。
この機構は既存のスパース3Dオブジェクト検出器にも有用である。
最近提案した作業にインスパイアされ,注目キーや値として機能する際の画像特徴を垂直に圧縮することで,モデルの有効性をさらに向上する。
特徴圧縮による潜在的な情報損失を補償する2つのモジュールも導入する。
広範に使用されている3dオブジェクト検出ベンチマークの実験的評価では,従来の3d検出アーキテクチャよりも優れていた。
さらに重要なことは、私たちのモデルは極めて効率的です。
例えば、256\times 704$の入力イメージを使用すると、NVIDIA 3090 GPUで1.5ミリ秒のレイテンシを実現する。
さらに、widthformerは、異なるカメラの摂動に対して強いロバスト性を示す。
我々の研究は、現実の複雑な道路環境におけるBEV変換手法の展開に関する貴重な洞察を提供する。
コードはhttps://github.com/ChenhongyiYang/WidthFormerで入手できる。
関連論文リスト
- EVT: Efficient View Transformation for Multi-Modal 3D Object Detection [2.9848894641223302]
効率的なビュー変換(EVT)による新しい3次元物体検出法を提案する。
EVTは、アダプティブサンプリングとアダプティブプロジェクション(ASAP)を使用して、3Dサンプリングポイントとアダプティブカーネルを生成する。
トランスデコーダ内で得られたマルチモーダルBEV機能を効果的に活用するように設計されている。
論文 参考訳(メタデータ) (2024-11-16T06:11:10Z) - LGM: Large Multi-View Gaussian Model for High-Resolution 3D Content
Creation [51.19871052619077]
テキストプロンプトやシングルビュー画像から高解像度の3Dモデルを生成するための新しいフレームワークであるLarge Multi-View Gaussian Model (LGM)を紹介する。
我々は,5秒以内に3Dオブジェクトを生成する高速な速度を維持しながら,トレーニング解像度を512に向上し,高解像度な3Dコンテンツ生成を実現する。
論文 参考訳(メタデータ) (2024-02-07T17:57:03Z) - BEV-IO: Enhancing Bird's-Eye-View 3D Detection with Instance Occupancy [58.92659367605442]
我々は,BEV表現をインスタンス占有情報で拡張する新しい3次元検出パラダイムであるBEV-IOを提案する。
BEV-IOは、パラメータや計算オーバーヘッドの無視できる増加しか加えず、最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-26T11:16:12Z) - Geometric-aware Pretraining for Vision-centric 3D Object Detection [77.7979088689944]
GAPretrainと呼ばれる新しい幾何学的事前学習フレームワークを提案する。
GAPretrainは、複数の最先端検出器に柔軟に適用可能なプラグアンドプレイソリューションとして機能する。
BEVFormer法を用いて, nuScenes val の 46.2 mAP と 55.5 NDS を実現し, それぞれ 2.7 と 2.1 点を得た。
論文 参考訳(メタデータ) (2023-04-06T14:33:05Z) - Generative Multiplane Neural Radiance for 3D-Aware Image Generation [102.15322193381617]
本稿では,複数のターゲットビューに対して連続した3次元高解像度画像を効率よく生成する手法を提案する。
我々のGMNRモデルは、単一のV100上で17.6FPSの1024×1024ピクセルの3D認識画像を生成する。
論文 参考訳(メタデータ) (2023-04-03T17:41:20Z) - AutoAlignV2: Deformable Feature Aggregation for Dynamic Multi-Modal 3D
Object Detection [17.526914782562528]
我々はAutoAlign上に構築された高速で強力なマルチモーダル3D検出フレームワークであるAutoAlignV2を提案する。
我々の最良のモデルは、nuScenesテストのリーダーボード上で72.4 NDSに達し、新しい最先端の結果が得られます。
論文 参考訳(メタデータ) (2022-07-21T06:17:23Z) - M^2BEV: Multi-Camera Joint 3D Detection and Segmentation with Unified
Birds-Eye View Representation [145.6041893646006]
M$2$BEVは3Dオブジェクトの検出とマップのセグメンテーションを共同で行う統合フレームワークである。
M$2$BEVは、両方のタスクを統一モデルで推論し、効率を向上する。
論文 参考訳(メタデータ) (2022-04-11T13:43:25Z) - RangeRCNN: Towards Fast and Accurate 3D Object Detection with Range
Image Representation [35.6155506566957]
RangeRCNNは、レンジ画像表現に基づく、新しく効果的な3Dオブジェクト検出フレームワークである。
本稿では,拡張残差ブロック(DRB)を用いて,異なる物体スケールを適応させ,よりフレキシブルな受容場を得る。
実験によると、RangeRCNNはKITTIデータセットとOpenデータセットで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-09-01T03:28:13Z) - Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled
Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。
我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。
アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文 参考訳(メタデータ) (2020-04-05T12:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。