論文の概要: DualBEV: CNN is All You Need in View Transformation
- arxiv url: http://arxiv.org/abs/2403.05402v1
- Date: Fri, 8 Mar 2024 15:58:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-11 13:17:53.134270
- Title: DualBEV: CNN is All You Need in View Transformation
- Title(参考訳): DualBEV:CNNはビュートランスフォーメーションに必要なもの
- Authors: Peidong Li, Wancheng Shen, Qihao Huang and Dixiao Cui
- Abstract要約: カメラに基づくBird's-Eye-View(BEV)の知覚は、しばしば3D-to-2Dまたは2D-to-3Dビュートランスフォーメーション(VT)の採用に苦慮する。
我々は,共有CNNに基づく特徴変換を利用した統合フレームワークであるDualBEVを提案する。
提案手法は Transformer を使わずに, 55.2% mAP と 63.4% の NDS を nuScenes テストセット上で, LSS アプローチに匹敵する効率性を実現する。
- 参考スコア(独自算出の注目度): 0.032771631221674334
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Camera-based Bird's-Eye-View (BEV) perception often struggles between
adopting 3D-to-2D or 2D-to-3D view transformation (VT). The 3D-to-2D VT
typically employs resource intensive Transformer to establish robust
correspondences between 3D and 2D feature, while the 2D-to-3D VT utilizes the
Lift-Splat-Shoot (LSS) pipeline for real-time application, potentially missing
distant information. To address these limitations, we propose DualBEV, a
unified framework that utilizes a shared CNN-based feature transformation
incorporating three probabilistic measurements for both strategies. By
considering dual-view correspondences in one-stage, DualBEV effectively bridges
the gap between these strategies, harnessing their individual strengths. Our
method achieves state-of-the-art performance without Transformer, delivering
comparable efficiency to the LSS approach, with 55.2% mAP and 63.4% NDS on the
nuScenes test set. Code will be released at
https://github.com/PeidongLi/DualBEV.
- Abstract(参考訳): カメラベースのBird's-Eye-View (BEV) の知覚は、しばしば3Dから2D、または2Dから3Dへのビュー変換(VT)に苦戦する。
3D-to-2D VTは通常、リソース集約トランスフォーマーを使用して3D特徴と2D特徴の堅牢な対応を確立する。
これらの制約に対処するために,両戦略の3つの確率的測定を組み込んだ共有CNNベースの特徴変換を利用する統合フレームワークであるDualBEVを提案する。
1段階のデュアルビュー対応を考慮することで、DualBEVはこれらの戦略間のギャップを効果的に橋渡しし、個々の強みを活用する。
提案手法は Transformer を使わずに, 55.2% mAP と63.4% NDS を nuScenes テストセット上で, LSS 手法に匹敵する性能を実現する。
コードはhttps://github.com/PeidongLi/DualBEV.comでリリースされる。
関連論文リスト
- WidthFormer: Toward Efficient Transformer-based BEV View Transformation [23.055953867959744]
WidthFormerは計算効率が高く、堅牢で、デプロイに特別なエンジニアリング作業を必要としない。
本稿では,3次元幾何情報を正確にカプセル化できる新しい3次元位置符号化機構を提案する。
私たちのモデルは極めて効率的です。例えば、256タイムの704ドルの入力イメージを使用すると、NVIDIA 3090 GPUとHorizon Journey-5ソリューションで1.5ミリ秒と2.8ミリ秒のレイテンシを実現します。
論文 参考訳(メタデータ) (2024-01-08T11:50:23Z) - BEV-IO: Enhancing Bird's-Eye-View 3D Detection with Instance Occupancy [58.92659367605442]
我々は,BEV表現をインスタンス占有情報で拡張する新しい3次元検出パラダイムであるBEV-IOを提案する。
BEV-IOは、パラメータや計算オーバーヘッドの無視できる増加しか加えず、最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-26T11:16:12Z) - DSVT: Dynamic Sparse Voxel Transformer with Rotated Sets [95.84755169585492]
本研究では,屋外3次元知覚のためのシングルストライドウィンドウベースのボクセルトランスであるDynamic Sparse Voxel Transformer (DSVT)を提案する。
本モデルでは,3次元認識タスクを多岐にわたって行うことにより,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-01-15T09:31:58Z) - BEVFusion: Multi-Task Multi-Sensor Fusion with Unified Bird's-Eye View
Representation [116.6111047218081]
本稿では,汎用マルチタスクマルチセンサ融合フレームワークであるBEVFusionを紹介する。
共有鳥眼ビュー表示空間におけるマルチモーダル特徴を統一する。
3Dオブジェクト検出では1.3%高いmAPとNDS、BEVマップのセグメンテーションでは13.6%高いmIoU、コストは1.9倍である。
論文 参考訳(メタデータ) (2022-05-26T17:59:35Z) - M^2BEV: Multi-Camera Joint 3D Detection and Segmentation with Unified
Birds-Eye View Representation [145.6041893646006]
M$2$BEVは3Dオブジェクトの検出とマップのセグメンテーションを共同で行う統合フレームワークである。
M$2$BEVは、両方のタスクを統一モデルで推論し、効率を向上する。
論文 参考訳(メタデータ) (2022-04-11T13:43:25Z) - MFEViT: A Robust Lightweight Transformer-based Network for Multimodal
2D+3D Facial Expression Recognition [1.7448845398590227]
視覚変換器(ViT)はその自己保持機構のため、多くの分野で広く応用されている。
我々は,マルチモーダル2D+3D FER,すなわちMFEViTのための,堅牢で軽量な純粋なトランスフォーマーベースネットワークを提案する。
我々のMFEViTは、BU-3DFEで90.83%、Bosphorusで90.28%の精度で最先端のアプローチより優れている。
論文 参考訳(メタデータ) (2021-09-20T17:19:39Z) - Towards Fast, Accurate and Stable 3D Dense Face Alignment [73.01620081047336]
本稿では,速度,精度,安定性のバランスをとる3DDFA-V2という新しい回帰フレームワークを提案する。
本研究では,静止画を平面内と面外の動きを取り入れた映像に変換する仮想合成法を提案する。
論文 参考訳(メタデータ) (2020-09-21T15:37:37Z) - RangeRCNN: Towards Fast and Accurate 3D Object Detection with Range
Image Representation [35.6155506566957]
RangeRCNNは、レンジ画像表現に基づく、新しく効果的な3Dオブジェクト検出フレームワークである。
本稿では,拡張残差ブロック(DRB)を用いて,異なる物体スケールを適応させ,よりフレキシブルな受容場を得る。
実験によると、RangeRCNNはKITTIデータセットとOpenデータセットで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-09-01T03:28:13Z) - Explainable 3D Convolutional Neural Networks by Learning Temporal
Transformations [6.477885112149906]
時間分解型3D畳み込み(3TConv)を通常の3D畳み込み(3DConv)の解釈可能な代替として導入する。
3TConvでは、2Dフィルタと時間変換パラメータのセットを学習して3D畳み込みフィルタを得る。
3TConvは直接解釈可能な時間変換を学習することを示した。
論文 参考訳(メタデータ) (2020-06-29T12:29:30Z) - Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled
Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。
我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。
アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文 参考訳(メタデータ) (2020-04-05T12:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。