論文の概要: Zero-BEV: Zero-shot Projection of Any First-Person Modality to BEV Maps
- arxiv url: http://arxiv.org/abs/2402.13848v1
- Date: Wed, 21 Feb 2024 14:50:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-22 14:51:48.382260
- Title: Zero-BEV: Zero-shot Projection of Any First-Person Modality to BEV Maps
- Title(参考訳): Zero-BEV:BEVマップへの初歩的なモダリティのゼロショットプロジェクション
- Authors: Gianluca Monaci, Leonid Antsfeld, Boris Chidlovskii, Christian Wolf
- Abstract要約: 本稿では,対応するBEVマップに対して,一人称視点で利用可能な任意のモダリティをゼロショット投影できる新しいモデルを提案する。
本研究では,本モデルが競合手法,特に単眼深度推定に広く用いられているベースラインよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 14.774543742438178
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Bird's-eye view (BEV) maps are an important geometrically structured
representation widely used in robotics, in particular self-driving vehicles and
terrestrial robots. Existing algorithms either require depth information for
the geometric projection, which is not always reliably available, or are
trained end-to-end in a fully supervised way to map visual first-person
observations to BEV representation, and are therefore restricted to the output
modality they have been trained for. In contrast, we propose a new model
capable of performing zero-shot projections of any modality available in a
first person view to the corresponding BEV map. This is achieved by
disentangling the geometric inverse perspective projection from the modality
transformation, eg. RGB to occupancy. The method is general and we showcase
experiments projecting to BEV three different modalities: semantic
segmentation, motion vectors and object bounding boxes detected in first
person. We experimentally show that the model outperforms competing methods, in
particular the widely used baseline resorting to monocular depth estimation.
- Abstract(参考訳): バードズ・アイ・ビュー (bird's-eye view, bev) マップは、ロボット工学、特に自動運転車や地上ロボットで広く使われている、幾何学的に構造化された重要な表現である。
既存のアルゴリズムでは、常に確実に利用できるとは限らない幾何学的射影の深度情報を必要とするか、あるいは視覚的ファーストパーソンの観察をBEV表現にマッピングする完全に教師付き方法でエンドツーエンドに訓練されているため、訓練された出力モダリティに制限される。
対照的に、本研究では、対応するBEVマップに対して、一人称視点で利用可能な任意のモダリティをゼロショット投影できる新しいモデルを提案する。
これは、幾何学的逆視点射影をモジュラリティ変換から切り離すことによって達成される。
RGBを占有する。
提案手法は汎用的な手法であり,第1者から検出された意味セグメンテーション,動きベクトル,オブジェクトバウンディングボックスの3つの異なる特徴をbevに投影する実験を行う。
実験により,本モデルが競合手法,特に単眼深度推定に広く用いられているベースラインよりも優れていることを示す。
関連論文リスト
- GeoBEV: Learning Geometric BEV Representation for Multi-view 3D Object Detection [36.245654685143016]
Bird's-Eye-View (BEV)表現は、マルチビュー3Dオブジェクト検出の主流パラダイムとして登場した。
既存の方法では、BEV表現の幾何学的品質を見落とし、低分解能状態に置かれている。
論文 参考訳(メタデータ) (2024-09-03T11:57:36Z) - LetsMap: Unsupervised Representation Learning for Semantic BEV Mapping [23.366388601110913]
本稿では,FV画像からセマンティックなBEVマップをラベル効率よく生成するための,教師なし表現学習手法を提案する。
提案手法は,2つの解離したニューラルパスを教師なし方式で,シーン幾何学とシーン意味論を独立に推論するために,ネットワークを事前訓練する。
本研究では,FV画像の空間的・時間的整合性を利用して,シーン表現を符号化する新しい時間的マスク付きオートエンコーダの定式化に依存しながら,シーン形状を学習する。
論文 参考訳(メタデータ) (2024-05-29T08:03:36Z) - Improving Bird's Eye View Semantic Segmentation by Task Decomposition [42.57351039508863]
元のBEVセグメンテーションタスクを,BEVマップ再構成とRGB-BEV機能アライメントという2つの段階に分割する。
我々のアプローチは、知覚と生成を異なるステップに組み合わせることの複雑さを単純化し、複雑で挑戦的なシーンを効果的に扱うためのモデルを構築します。
論文 参考訳(メタデータ) (2024-04-02T13:19:45Z) - Towards Unified 3D Object Detection via Algorithm and Data Unification [70.27631528933482]
我々は、最初の統一型マルチモーダル3Dオブジェクト検出ベンチマークMM-Omni3Dを構築し、上記のモノクロ検出器をマルチモーダルバージョンに拡張する。
設計した単分子・多モード検出器をそれぞれUniMODEとMM-UniMODEと命名した。
論文 参考訳(メタデータ) (2024-02-28T18:59:31Z) - Instance-aware Multi-Camera 3D Object Detection with Structural Priors
Mining and Self-Boosting Learning [93.71280187657831]
カメラによる鳥眼視(BEV)知覚パラダイムは、自律運転分野において大きな進歩を遂げている。
画像平面のインスタンス認識をBEV検出器内の深度推定プロセスに統合するIA-BEVを提案する。
論文 参考訳(メタデータ) (2023-12-13T09:24:42Z) - BEV-IO: Enhancing Bird's-Eye-View 3D Detection with Instance Occupancy [58.92659367605442]
我々は,BEV表現をインスタンス占有情報で拡張する新しい3次元検出パラダイムであるBEV-IOを提案する。
BEV-IOは、パラメータや計算オーバーヘッドの無視できる増加しか加えず、最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-26T11:16:12Z) - Geometric-aware Pretraining for Vision-centric 3D Object Detection [77.7979088689944]
GAPretrainと呼ばれる新しい幾何学的事前学習フレームワークを提案する。
GAPretrainは、複数の最先端検出器に柔軟に適用可能なプラグアンドプレイソリューションとして機能する。
BEVFormer法を用いて, nuScenes val の 46.2 mAP と 55.5 NDS を実現し, それぞれ 2.7 と 2.1 点を得た。
論文 参考訳(メタデータ) (2023-04-06T14:33:05Z) - Monocular BEV Perception of Road Scenes via Front-to-Top View Projection [57.19891435386843]
本稿では,鳥の目視で道路配置と車両占有率によって形成された局所地図を再構築する新しい枠組みを提案する。
我々のモデルは1つのGPU上で25FPSで動作し、リアルタイムパノラマHDマップの再構築に有効である。
論文 参考訳(メタデータ) (2022-11-15T13:52:41Z) - GitNet: Geometric Prior-based Transformation for Birds-Eye-View
Segmentation [105.19949897812494]
Birds-eye-view (BEV) セマンティックセマンティックセグメンテーションは自動運転に不可欠である。
本稿では,GitNetという新しい2段階のGeometry Preside-based Transformationフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-16T06:46:45Z) - Bird's-Eye-View Panoptic Segmentation Using Monocular Frontal View
Images [4.449481309681663]
本研究では,Bird's-Eye-View (BEV) マップにおいて,高密度パノプティックセグメンテーションマップを直接予測するエンド・ツー・エンドの学習手法を提案する。
私たちのアーキテクチャはトップダウンパラダイムに従っており、新しい高密度トランスモジュールを組み込んでいます。
我々は、FV-BEV変換の感度を数学的に定式化し、BEV空間のピクセルをインテリジェントに重み付けすることができる。
論文 参考訳(メタデータ) (2021-08-06T17:59:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。