論文の概要: DualBEV: Unifying Dual View Transformation with Probabilistic Correspondences
- arxiv url: http://arxiv.org/abs/2403.05402v2
- Date: Fri, 13 Sep 2024 07:01:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-16 23:27:08.122846
- Title: DualBEV: Unifying Dual View Transformation with Probabilistic Correspondences
- Title(参考訳): DualBEV:確率的対応によるデュアルビュー変換の統合
- Authors: Peidong Li, Wancheng Shen, Qihao Huang, Dixiao Cui,
- Abstract要約: カメラに基づくBird's-Eye-View(BEV)の知覚は、しばしば3D-to-2Dまたは2D-to-3Dビュートランスフォーメーション(VT)の採用に苦慮する。
両戦略に3つの確率的測定を組み込んだ共有特徴変換を利用する統合フレームワークであるDualBEVを提案する。
提案手法は Transformer を使わずに, 55.2% mAP と 63.4% の NDS を nuScenes テストセット上で, LSS アプローチに匹敵する効率性を実現する。
- 参考スコア(独自算出の注目度): 0.02999888908665658
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Camera-based Bird's-Eye-View (BEV) perception often struggles between adopting 3D-to-2D or 2D-to-3D view transformation (VT). The 3D-to-2D VT typically employs resource-intensive Transformer to establish robust correspondences between 3D and 2D features, while the 2D-to-3D VT utilizes the Lift-Splat-Shoot (LSS) pipeline for real-time application, potentially missing distant information. To address these limitations, we propose DualBEV, a unified framework that utilizes a shared feature transformation incorporating three probabilistic measurements for both strategies. By considering dual-view correspondences in one stage, DualBEV effectively bridges the gap between these strategies, harnessing their individual strengths. Our method achieves state-of-the-art performance without Transformer, delivering comparable efficiency to the LSS approach, with 55.2% mAP and 63.4% NDS on the nuScenes test set. Code is available at \url{https://github.com/PeidongLi/DualBEV}
- Abstract(参考訳): カメラベースのBird's-Eye-View (BEV) の知覚は、しばしば3Dから2D、または2Dから3Dへのビュー変換(VT)に苦戦する。
3D-to-2D VTは通常、リソース集約トランスフォーマーを使用して3D特徴と2D特徴の堅牢な対応を確立する一方、2D-to-3D VTはLift-Splat-Shoot (LSS)パイプラインをリアルタイムアプリケーションに使用し、潜在的に遠い情報を欠く可能性がある。
これらの制約に対処するため,両戦略に3つの確率的測定を組み込んだ共有特徴変換を利用した統合フレームワークであるDualBEVを提案する。
デュアルビュー対応を1段階で考慮することで、DualBEVはこれらの戦略間のギャップを効果的に橋渡しし、個々の強みを活用する。
提案手法は Transformer を使わずに, 55.2% mAP と 63.4% の NDS を nuScenes テストセット上で, LSS アプローチに匹敵する効率性を実現する。
コードは \url{https://github.com/PeidongLi/DualBEV} で入手できる。
関連論文リスト
- EVT: Efficient View Transformation for Multi-Modal 3D Object Detection [2.9848894641223302]
効率的なビュー変換(EVT)による新しい3次元物体検出法を提案する。
EVTは、アダプティブサンプリングとアダプティブプロジェクション(ASAP)を使用して、3Dサンプリングポイントとアダプティブカーネルを生成する。
トランスデコーダ内で得られたマルチモーダルBEV機能を効果的に活用するように設計されている。
論文 参考訳(メタデータ) (2024-11-16T06:11:10Z) - Towards Human-Level 3D Relative Pose Estimation: Generalizable, Training-Free, with Single Reference [62.99706119370521]
人間は、単一のクエリ参照イメージペアのみを与えられたラベル/トレーニングなしで、目に見えないオブジェクトの相対的なポーズを容易に推論することができる。
そこで,本研究では,RGB-D参照から2.5D形状のRGB-D参照,オフザシェルフ微分可能なRGB-D参照,DINOv2のような事前学習モデルからのセマンティックキューを用いた3D一般化可能な相対ポーズ推定手法を提案する。
論文 参考訳(メタデータ) (2024-06-26T16:01:10Z) - Any2Point: Empowering Any-modality Large Models for Efficient 3D Understanding [83.63231467746598]
我々は,Any2Pointというパラメータ効率のよい大規模モデル(ビジョン,言語,音声)を3次元理解に活用する手法を紹介した。
入力された3Dポイントと元の1Dまたは2D位置との相関関係を示す3D-to-any (1Dまたは2D)仮想プロジェクション戦略を提案する。
論文 参考訳(メタデータ) (2024-04-11T17:59:45Z) - WidthFormer: Toward Efficient Transformer-based BEV View Transformation [21.10523575080856]
WidthFormerは、リアルタイム自動運転アプリケーションのためのマルチビューカメラからBirdのEye-View(BEV)表現を計算するトランスフォーマーベースのモジュールである。
まず,3次元幾何情報を正確にカプセル化できる新しい3次元位置符号化機構を提案する。
次に,特徴圧縮による潜在的な情報損失を補償する2つのモジュールを開発する。
論文 参考訳(メタデータ) (2024-01-08T11:50:23Z) - BEV-IO: Enhancing Bird's-Eye-View 3D Detection with Instance Occupancy [58.92659367605442]
我々は,BEV表現をインスタンス占有情報で拡張する新しい3次元検出パラダイムであるBEV-IOを提案する。
BEV-IOは、パラメータや計算オーバーヘッドの無視できる増加しか加えず、最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-26T11:16:12Z) - DSVT: Dynamic Sparse Voxel Transformer with Rotated Sets [95.84755169585492]
本研究では,屋外3次元知覚のためのシングルストライドウィンドウベースのボクセルトランスであるDynamic Sparse Voxel Transformer (DSVT)を提案する。
本モデルでは,3次元認識タスクを多岐にわたって行うことにより,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-01-15T09:31:58Z) - MVSTER: Epipolar Transformer for Efficient Multi-View Stereo [26.640495084316925]
学習ベースMulti-View Stereo法では,ソース画像を3Dボリュームにワープする。
従来の手法では、余分なネットワークを利用して2次元情報を融合キューとして学習し、3次元空間相関を利用して計算コストを増大させる。
本稿では,2次元のセマンティクスと3次元の空間的関連性の両方を効率的に学習するために,提案したエピポーラ変換器を利用するMVSTERを提案する。
論文 参考訳(メタデータ) (2022-04-15T06:47:57Z) - M^2BEV: Multi-Camera Joint 3D Detection and Segmentation with Unified
Birds-Eye View Representation [145.6041893646006]
M$2$BEVは3Dオブジェクトの検出とマップのセグメンテーションを共同で行う統合フレームワークである。
M$2$BEVは、両方のタスクを統一モデルで推論し、効率を向上する。
論文 参考訳(メタデータ) (2022-04-11T13:43:25Z) - Epipolar Transformers [39.98487207625999]
同期型および校正型マルチビューセットアップにおける3次元関節のローカライズのための一般的なアプローチは、2段階からなる。
2D検出器は、3Dでよりうまく解決できる可能性のある難問の解決に限られている。
本研究では,2次元検出器の3次元特徴を生かして2次元ポーズ推定を改善する「エピポーラ変圧器」を提案する。
論文 参考訳(メタデータ) (2020-05-10T02:22:54Z) - Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled
Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。
我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。
アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文 参考訳(メタデータ) (2020-04-05T12:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。