Fugu-MT 論文翻訳(概要): DuoSpaceNet: Leveraging Both Bird's-Eye-View and Perspective View Representations for 3D Object Detection

論文の概要: DuoSpaceNet: Leveraging Both Bird's-Eye-View and Perspective View Representations for 3D Object Detection

arxiv url: http://arxiv.org/abs/2405.10577v3
Date: Mon, 07 Apr 2025 18:00:17 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-18 02:14:57.256175
Title: DuoSpaceNet: Leveraging Both Bird's-Eye-View and Perspective View Representations for 3D Object Detection
Title（参考訳）: DuoSpaceNet: 3Dオブジェクト検出のためのバードアイビューとパースペクティブビュー表現の活用
Authors: Zhe Huang, Yizhe Zhao, Hao Xiao, Chenyan Wu, Lingting Ge,
Abstract要約: 多視点カメラのみの3Dオブジェクト検出は、鳥の目視(BEV)表現を利用するか、視点視(PV)機能に焦点を当てる2つの主要なパラダイムに大きく従っている。我々は,BEVとPVの機能空間を完全に統合した新しいフレームワークであるDuoSpaceNetを,総合的な3次元知覚のための単一検出パイプライン内に提案する。
参考スコア（独自算出の注目度）: 3.526990431236137
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multi-view camera-only 3D object detection largely follows two primary paradigms: exploiting bird's-eye-view (BEV) representations or focusing on perspective-view (PV) features, each with distinct advantages. Although several recent approaches explore combining BEV and PV, many rely on partial fusion or maintain separate detection heads. In this paper, we propose DuoSpaceNet, a novel framework that fully unifies BEV and PV feature spaces within a single detection pipeline for comprehensive 3D perception. Our design includes a decoder to integrate BEV and PV features into unified detection queries, as well as a feature enhancement strategy that enriches different feature representations. In addition, DuoSpaceNet can be extended to handle multi-frame inputs, enabling more robust temporal analysis. Extensive experiments on nuScenes dataset show that DuoSpaceNet surpasses both BEV-based baselines (e.g., BEVFormer) and PV-based baselines (e.g., Sparse4D) in 3D object detection and BEV map segmentation, verifying the effectiveness of our proposed design.
Abstract（参考訳）: 多視点カメラのみの3Dオブジェクト検出は、鳥の目視(BEV)表現を利用するか、視点視(PV)機能に焦点を当てる2つの主要なパラダイムに大きく従っている。近年のいくつかのアプローチでは、BEVとPVの組み合わせが検討されているが、その多くは部分核融合や別個の検出ヘッドの維持に依存している。本稿では,BEVとPVの機能空間を完全に統合した新しいフレームワークであるDuoSpaceNetを提案する。我々の設計には、BEVとPV機能を統合された検出クエリに統合するデコーダと、異なる特徴表現を豊かにする機能拡張戦略が含まれています。さらに、DuoSpaceNetはマルチフレーム入力を処理するように拡張することができ、より堅牢な時間解析を可能にする。 nuScenesデータセットの大規模な実験により、DuoSpaceNetは3Dオブジェクト検出とBEVマップセグメンテーションにおいて、BEVベースのベースライン(例:BEVFormer)とPVベースのベースライン(例:Sparse4D)の両方を超越し、提案設計の有効性を検証する。

関連論文リスト

BEV$^2$PR: BEV-Enhanced Visual Place Recognition with Structural Cues [44.96177875644304]
本稿では,鳥眼ビュー(BEV)における構造的手がかりを1台のカメラから活用して,画像に基づく視覚的位置認識(VPR)フレームワークを提案する。 BEV$2$PRフレームワークは、単一のカメラに基づいて視覚的手がかりと空間的認識の両方を持つ複合記述子を生成する。
論文参考訳（メタデータ） (2024-03-11T10:46:43Z)
Towards Unified 3D Object Detection via Algorithm and Data Unification [70.27631528933482]
我々は、最初の統一型マルチモーダル3Dオブジェクト検出ベンチマークMM-Omni3Dを構築し、上記のモノクロ検出器をマルチモーダルバージョンに拡張する。設計した単分子・多モード検出器をそれぞれUniMODEとMM-UniMODEと命名した。
論文参考訳（メタデータ） (2024-02-28T18:59:31Z)
DA-BEV: Unsupervised Domain Adaptation for Bird's Eye View Perception [104.87876441265593]
カメラのみのBird's Eye View (BEV)は3次元空間における環境認識に大きな可能性を示した。非教師なし領域適応型BEVは、様々な未ラベル対象データから効果的に学習するが、まだ未探索である。 DA-BEVは、画像ビュー機能とBEV機能の相補性を利用して、ドメイン適応型BEV課題に対処する、最初のドメイン適応型カメラのみのBEVフレームワークである。
論文参考訳（メタデータ） (2024-01-13T04:21:24Z)
Towards Generalizable Multi-Camera 3D Object Detection via Perspective Debiasing [28.874014617259935]
マルチカメラ3Dオブジェクト検出(MC3D-Det)は,鳥眼ビュー(BEV)の出現によって注目されている。本研究では,3次元検出と2次元カメラ平面との整合性を両立させ,一貫した高精度な検出を実現する手法を提案する。
論文参考訳（メタデータ） (2023-10-17T15:31:28Z)
BEV-IO: Enhancing Bird's-Eye-View 3D Detection with Instance Occupancy [58.92659367605442]
我々は,BEV表現をインスタンス占有情報で拡張する新しい3次元検出パラダイムであるBEV-IOを提案する。 BEV-IOは、パラメータや計算オーバーヘッドの無視できる増加しか加えず、最先端の手法よりも優れていることを示す。
論文参考訳（メタデータ） (2023-05-26T11:16:12Z)
LiDAR-Based 3D Object Detection via Hybrid 2D Semantic Scene Generation [38.38852904444365]
本稿では,2次元空間における3次元環境のセマンティクスと幾何学の両方をエンコードするシーン表現を提案する。私たちのシンプルで効果的なデザインは、ほとんどの最先端の3Dオブジェクト検出器に簡単に統合できます。
論文参考訳（メタデータ） (2023-04-04T04:05:56Z)
Tri-Perspective View for Vision-Based 3D Semantic Occupancy Prediction [84.94140661523956]
本稿では,2つの垂直面を追加してBEVに付随するトリ・パースペクティブ・ビュー(TPV)表現を提案する。 3次元空間の各点を3次元平面上の投影された特徴をまとめてモデル化する。実験結果から,本モデルは全ボクセルのセマンティック占有率を効果的に予測できることが示唆された。
論文参考訳（メタデータ） (2023-02-15T17:58:10Z)
OA-BEV: Bringing Object Awareness to Bird's-Eye-View Representation for Multi-Camera 3D Object Detection [78.38062015443195]
OA-BEVは、BEVベースの3Dオブジェクト検出フレームワークにプラグインできるネットワークである。提案手法は,BEV ベースラインに対する平均精度と nuScenes 検出スコアの両面で一貫した改善を実現する。
論文参考訳（メタデータ） (2023-01-13T06:02:31Z)
SemanticBEVFusion: Rethink LiDAR-Camera Fusion in Unified Bird's-Eye View Representation for 3D Object Detection [14.706717531900708]
LiDARとカメラは、自律運転における3Dオブジェクト検出に不可欠な2つのセンサーである。近年の手法では,LiDAR点雲にカメラ機能を持たせた点レベルの融合に焦点が当てられている。 We present SemanticBEVFusion to deep fuse camera features with LiDAR features in an unified BEV representation。
論文参考訳（メタデータ） (2022-12-09T05:48:58Z)
A Simple Baseline for Multi-Camera 3D Object Detection [94.63944826540491]
周囲のカメラで3Dオブジェクトを検出することは、自動運転にとって有望な方向だ。マルチカメラオブジェクト検出のための簡易ベースラインであるSimMODを提案する。我々は, nuScenes の3次元オブジェクト検出ベンチマークにおいて, SimMOD の有効性を示す広範囲な実験を行った。
論文参考訳（メタデータ） (2022-08-22T03:38:01Z)
PersDet: Monocular 3D Detection in Perspective Bird's-Eye-View [26.264139933212892]
Bird's-Eye-View (BEV)は、自律走行とロボット工学のための他の3D検出器よりも優れている。画像特徴をBEVに変換するには、特別なオペレーターが特徴サンプリングを行う必要がある。特徴サンプリングを必要としない新しいBEV表現であるBEVの視点で物体を検出することを提案する。
論文参考訳（メタデータ） (2022-08-19T15:19:20Z)
CoBEVT: Cooperative Bird's Eye View Semantic Segmentation with Sparse Transformers [36.838065731893735]
CoBEVTは、BEVマップ予測を協調的に生成できる最初の汎用マルチエージェント認識フレームワークである。 CoBEVTは協調的BEVセマンティックセグメンテーションのための最先端性能を実現する。
論文参考訳（メタデータ） (2022-07-05T17:59:28Z)
Learning Ego 3D Representation as Ray Tracing [42.400505280851114]
我々は、制約のないカメラビューからエゴ3D表現学習のための新しいエンドツーエンドアーキテクチャを提案する。レイトレーシングの原理にインスパイアされた我々は、学習可能なエゴ3D表現として「虚視」の偏極格子を設計する。我々のモデルはすべての最先端の代替品を著しく上回ります。
論文参考訳（メタデータ） (2022-06-08T17:55:50Z)
BEVerse: Unified Perception and Prediction in Birds-Eye-View for Vision-Centric Autonomous Driving [92.05963633802979]
マルチカメラシステムに基づく3次元認識と予測のための統合フレームワークであるBEVerseを提案する。マルチタスクBEVerseは3次元オブジェクト検出,セマンティックマップ構築,動き予測において単一タスク法より優れていることを示す。
論文参考訳（メタデータ） (2022-05-19T17:55:35Z)
M^2BEV: Multi-Camera Joint 3D Detection and Segmentation with Unified Birds-Eye View Representation [145.6041893646006]
M$2$BEVは3Dオブジェクトの検出とマップのセグメンテーションを共同で行う統合フレームワークである。 M$2$BEVは、両方のタスクを統一モデルで推論し、効率を向上する。
論文参考訳（メタデータ） (2022-04-11T13:43:25Z)
Bidirectional Projection Network for Cross Dimension Scene Understanding [69.29443390126805]
本稿では,2次元および3次元の連立推論のための縦方向投影網(BPNet)をエンドツーエンドに提示する。 emphBPM、補完的な2D、および3D情報は、複数のアーキテクチャレベルで相互に相互作用することができる。我々のemphBPNetは2次元および3次元セマンティックセマンティックセグメンテーションのためのScanNetV2ベンチマークで最高性能を達成した。
論文参考訳（メタデータ） (2021-03-26T08:31:39Z)
Cross-Modality 3D Object Detection [63.29935886648709]
本稿では,3次元物体検出のための新しい2段階多モード融合ネットワークを提案する。アーキテクチャ全体が2段階の融合を促進する。 KITTIデータセットを用いた実験により,提案したマルチステージ融合により,ネットワークがより良い表現を学習できることが示唆された。
論文参考訳（メタデータ） (2020-08-16T11:01:20Z)
BirdNet+: End-to-End 3D Object Detection in LiDAR Bird's Eye View [117.44028458220427]
自動運転車のオンボード3Dオブジェクト検出は、LiDARデバイスが捉えた幾何学情報に依存することが多い。本稿では,BEV画像のみから指向性3Dボックスを推測可能な,エンドツーエンドの3Dオブジェクト検出フレームワークを提案する。
論文参考訳（メタデータ） (2020-03-09T15:08:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。