Fugu-MT 論文翻訳(概要): DualBEV: CNN is All You Need in View Transformation

論文の概要: DualBEV: CNN is All You Need in View Transformation

arxiv url: http://arxiv.org/abs/2403.05402v1
Date: Fri, 8 Mar 2024 15:58:00 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-11 13:17:53.134270
Title: DualBEV: CNN is All You Need in View Transformation
Title（参考訳）: DualBEV:CNNはビュートランスフォーメーションに必要なもの
Authors: Peidong Li, Wancheng Shen, Qihao Huang and Dixiao Cui
Abstract要約: カメラに基づくBird's-Eye-View(BEV)の知覚は、しばしば3D-to-2Dまたは2D-to-3Dビュートランスフォーメーション(VT)の採用に苦慮する。我々は,共有CNNに基づく特徴変換を利用した統合フレームワークであるDualBEVを提案する。提案手法は Transformer を使わずに, 55.2% mAP と 63.4% の NDS を nuScenes テストセット上で, LSS アプローチに匹敵する効率性を実現する。
参考スコア（独自算出の注目度）: 0.032771631221674334
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Camera-based Bird's-Eye-View (BEV) perception often struggles between adopting 3D-to-2D or 2D-to-3D view transformation (VT). The 3D-to-2D VT typically employs resource intensive Transformer to establish robust correspondences between 3D and 2D feature, while the 2D-to-3D VT utilizes the Lift-Splat-Shoot (LSS) pipeline for real-time application, potentially missing distant information. To address these limitations, we propose DualBEV, a unified framework that utilizes a shared CNN-based feature transformation incorporating three probabilistic measurements for both strategies. By considering dual-view correspondences in one-stage, DualBEV effectively bridges the gap between these strategies, harnessing their individual strengths. Our method achieves state-of-the-art performance without Transformer, delivering comparable efficiency to the LSS approach, with 55.2% mAP and 63.4% NDS on the nuScenes test set. Code will be released at https://github.com/PeidongLi/DualBEV.
Abstract（参考訳）: カメラベースのBird's-Eye-View (BEV) の知覚は、しばしば3Dから2D、または2Dから3Dへのビュー変換(VT)に苦戦する。 3D-to-2D VTは通常、リソース集約トランスフォーマーを使用して3D特徴と2D特徴の堅牢な対応を確立する。これらの制約に対処するために,両戦略の3つの確率的測定を組み込んだ共有CNNベースの特徴変換を利用する統合フレームワークであるDualBEVを提案する。 1段階のデュアルビュー対応を考慮することで、DualBEVはこれらの戦略間のギャップを効果的に橋渡しし、個々の強みを活用する。提案手法は Transformer を使わずに, 55.2% mAP と63.4% NDS を nuScenes テストセット上で, LSS 手法に匹敵する性能を実現する。コードはhttps://github.com/PeidongLi/DualBEV.comでリリースされる。

関連論文リスト

RUMPL: Ray-Based Transformers for Universal Multi-View 2D to 3D Human Pose Lifting [81.66201044236321]
2D画像から3D人間のポーズを推定することは依然として難しい。近年の手法では2次元ポーズ推定と2次元から3次元のポーズリフトを合成データで訓練した。 RUMPLは2次元キーポイントの3次元線による表現を導入するトランスフォーマーベースの3Dポーズリフト機である。
論文参考訳（メタデータ） (2025-12-17T14:37:27Z)
EVT: Efficient View Transformation for Multi-Modal 3D Object Detection [2.9848894641223302]
効率的なビュー変換(EVT)による新しい3次元物体検出法を提案する。 EVTは、アダプティブサンプリングとアダプティブプロジェクション(ASAP)を使用して、3Dサンプリングポイントとアダプティブカーネルを生成する。トランスデコーダ内で得られたマルチモーダルBEV機能を効果的に活用するように設計されている。
論文参考訳（メタデータ） (2024-11-16T06:11:10Z)
Cross-D Conv: Cross-Dimensional Transferable Knowledge Base via Fourier Shifting Operation [3.69758875412828]
クロスD Conv 演算はフーリエ領域における位相シフトを学習することで次元ギャップを橋渡しする。本手法は2次元と3次元の畳み込み操作間のシームレスな重み移動を可能にする。
論文参考訳（メタデータ） (2024-11-02T13:03:44Z)
GS-VTON: Controllable 3D Virtual Try-on with Gaussian Splatting [0.0]

論文参考訳（メタデータ） (2024-10-07T17:58:20Z)
Towards Human-Level 3D Relative Pose Estimation: Generalizable, Training-Free, with Single Reference [62.99706119370521]
人間は、単一のクエリ参照イメージペアのみを与えられたラベル/トレーニングなしで、目に見えないオブジェクトの相対的なポーズを容易に推論することができる。そこで,本研究では,RGB-D参照から2.5D形状のRGB-D参照,オフザシェルフ微分可能なRGB-D参照,DINOv2のような事前学習モデルからのセマンティックキューを用いた3D一般化可能な相対ポーズ推定手法を提案する。
論文参考訳（メタデータ） (2024-06-26T16:01:10Z)
Any2Point: Empowering Any-modality Large Models for Efficient 3D Understanding [83.63231467746598]
我々は,Any2Pointというパラメータ効率のよい大規模モデル(ビジョン,言語,音声)を3次元理解に活用する手法を紹介した。入力された3Dポイントと元の1Dまたは2D位置との相関関係を示す3D-to-any (1Dまたは2D)仮想プロジェクション戦略を提案する。
論文参考訳（メタデータ） (2024-04-11T17:59:45Z)
WidthFormer: Toward Efficient Transformer-based BEV View Transformation [21.10523575080856]
WidthFormerは、リアルタイム自動運転アプリケーションのためのマルチビューカメラからBirdのEye-View(BEV)表現を計算するトランスフォーマーベースのモジュールである。まず,3次元幾何情報を正確にカプセル化できる新しい3次元位置符号化機構を提案する。次に,特徴圧縮による潜在的な情報損失を補償する2つのモジュールを開発する。
論文参考訳（メタデータ） (2024-01-08T11:50:23Z)
BEV-IO: Enhancing Bird's-Eye-View 3D Detection with Instance Occupancy [58.92659367605442]
我々は,BEV表現をインスタンス占有情報で拡張する新しい3次元検出パラダイムであるBEV-IOを提案する。 BEV-IOは、パラメータや計算オーバーヘッドの無視できる増加しか加えず、最先端の手法よりも優れていることを示す。
論文参考訳（メタデータ） (2023-05-26T11:16:12Z)
DSVT: Dynamic Sparse Voxel Transformer with Rotated Sets [95.84755169585492]
本研究では,屋外3次元知覚のためのシングルストライドウィンドウベースのボクセルトランスであるDynamic Sparse Voxel Transformer (DSVT)を提案する。本モデルでは,3次元認識タスクを多岐にわたって行うことにより,最先端の性能を実現する。
論文参考訳（メタデータ） (2023-01-15T09:31:58Z)
MVSTER: Epipolar Transformer for Efficient Multi-View Stereo [26.640495084316925]
学習ベースMulti-View Stereo法では,ソース画像を3Dボリュームにワープする。従来の手法では、余分なネットワークを利用して2次元情報を融合キューとして学習し、3次元空間相関を利用して計算コストを増大させる。本稿では,2次元のセマンティクスと3次元の空間的関連性の両方を効率的に学習するために,提案したエピポーラ変換器を利用するMVSTERを提案する。
論文参考訳（メタデータ） (2022-04-15T06:47:57Z)
M^2BEV: Multi-Camera Joint 3D Detection and Segmentation with Unified Birds-Eye View Representation [145.6041893646006]
M$2$BEVは3Dオブジェクトの検出とマップのセグメンテーションを共同で行う統合フレームワークである。 M$2$BEVは、両方のタスクを統一モデルで推論し、効率を向上する。
論文参考訳（メタデータ） (2022-04-11T13:43:25Z)
Epipolar Transformers [39.98487207625999]
同期型および校正型マルチビューセットアップにおける3次元関節のローカライズのための一般的なアプローチは、2段階からなる。 2D検出器は、3Dでよりうまく解決できる可能性のある難問の解決に限られている。本研究では,2次元検出器の3次元特徴を生かして2次元ポーズ推定を改善する「エピポーラ変圧器」を提案する。
論文参考訳（メタデータ） (2020-05-10T02:22:54Z)
Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文参考訳（メタデータ） (2020-04-05T12:52:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。