論文の概要: Zero-BEV: Zero-shot Projection of Any First-Person Modality to BEV Maps
- arxiv url: http://arxiv.org/abs/2402.13848v1
- Date: Wed, 21 Feb 2024 14:50:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-22 14:51:48.382260
- Title: Zero-BEV: Zero-shot Projection of Any First-Person Modality to BEV Maps
- Title(参考訳): Zero-BEV:BEVマップへの初歩的なモダリティのゼロショットプロジェクション
- Authors: Gianluca Monaci, Leonid Antsfeld, Boris Chidlovskii, Christian Wolf
- Abstract要約: 本稿では,対応するBEVマップに対して,一人称視点で利用可能な任意のモダリティをゼロショット投影できる新しいモデルを提案する。
本研究では,本モデルが競合手法,特に単眼深度推定に広く用いられているベースラインよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 14.774543742438178
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Bird's-eye view (BEV) maps are an important geometrically structured
representation widely used in robotics, in particular self-driving vehicles and
terrestrial robots. Existing algorithms either require depth information for
the geometric projection, which is not always reliably available, or are
trained end-to-end in a fully supervised way to map visual first-person
observations to BEV representation, and are therefore restricted to the output
modality they have been trained for. In contrast, we propose a new model
capable of performing zero-shot projections of any modality available in a
first person view to the corresponding BEV map. This is achieved by
disentangling the geometric inverse perspective projection from the modality
transformation, eg. RGB to occupancy. The method is general and we showcase
experiments projecting to BEV three different modalities: semantic
segmentation, motion vectors and object bounding boxes detected in first
person. We experimentally show that the model outperforms competing methods, in
particular the widely used baseline resorting to monocular depth estimation.
- Abstract(参考訳): バードズ・アイ・ビュー (bird's-eye view, bev) マップは、ロボット工学、特に自動運転車や地上ロボットで広く使われている、幾何学的に構造化された重要な表現である。
既存のアルゴリズムでは、常に確実に利用できるとは限らない幾何学的射影の深度情報を必要とするか、あるいは視覚的ファーストパーソンの観察をBEV表現にマッピングする完全に教師付き方法でエンドツーエンドに訓練されているため、訓練された出力モダリティに制限される。
対照的に、本研究では、対応するBEVマップに対して、一人称視点で利用可能な任意のモダリティをゼロショット投影できる新しいモデルを提案する。
これは、幾何学的逆視点射影をモジュラリティ変換から切り離すことによって達成される。
RGBを占有する。
提案手法は汎用的な手法であり,第1者から検出された意味セグメンテーション,動きベクトル,オブジェクトバウンディングボックスの3つの異なる特徴をbevに投影する実験を行う。
実験により,本モデルが競合手法,特に単眼深度推定に広く用いられているベースラインよりも優れていることを示す。
関連論文リスト
- UniMODE: Unified Monocular 3D Object Detection [76.77182583753051]
我々は,鳥眼視(BEV)検出パラダイムに基づく検出器を構築した。
本稿では,この課題に起因する収束不安定性に対応するために,不均一なBEVグリッド設計を提案する。
統一検出器UniMODEが導出され、挑戦的なOmni3Dデータセットの先行技術を上回る。
論文 参考訳(メタデータ) (2024-02-28T18:59:31Z) - Instance-aware Multi-Camera 3D Object Detection with Structural Priors
Mining and Self-Boosting Learning [93.71280187657831]
カメラによる鳥眼視(BEV)知覚パラダイムは、自律運転分野において大きな進歩を遂げている。
画像平面のインスタンス認識をBEV検出器内の深度推定プロセスに統合するIA-BEVを提案する。
論文 参考訳(メタデータ) (2023-12-13T09:24:42Z) - Semi-Supervised Learning for Visual Bird's Eye View Semantic
Segmentation [16.3996408206659]
トレーニング中にラベルのない画像を活用することで性能を向上させるために,視覚的BEVセマンティックセマンティックセマンティックセマンティクスのための新しい半教師付きフレームワークを提案する。
次に、ラベルのないデータを完全に利用する一貫性損失を提案し、セマンティックな予測だけでなく、BEV機能にもモデルを制約する。
nuScenesとArgoverseデータセットの実験により、我々のフレームワークは予測精度を効果的に向上できることが示された。
論文 参考訳(メタデータ) (2023-08-28T12:23:36Z) - BEV-IO: Enhancing Bird's-Eye-View 3D Detection with Instance Occupancy [58.92659367605442]
我々は,BEV表現をインスタンス占有情報で拡張する新しい3次元検出パラダイムであるBEV-IOを提案する。
BEV-IOは、パラメータや計算オーバーヘッドの無視できる増加しか加えず、最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-26T11:16:12Z) - Geometric-aware Pretraining for Vision-centric 3D Object Detection [77.7979088689944]
GAPretrainと呼ばれる新しい幾何学的事前学習フレームワークを提案する。
GAPretrainは、複数の最先端検出器に柔軟に適用可能なプラグアンドプレイソリューションとして機能する。
BEVFormer法を用いて, nuScenes val の 46.2 mAP と 55.5 NDS を実現し, それぞれ 2.7 と 2.1 点を得た。
論文 参考訳(メタデータ) (2023-04-06T14:33:05Z) - SkyEye: Self-Supervised Bird's-Eye-View Semantic Mapping Using Monocular
Frontal View Images [26.34702432184092]
本研究では,前景からの単一単眼画像を用いた鳥眼図(BEV)意味マップ作成のための,最初の自己教師型アプローチを提案する。
トレーニングでは、ビデオシーケンスのより容易に利用できるFVセマンティックアノテーションを活用することで、BEVの基底真理アノテーションの必要性を克服する。
提案手法は最先端の完全教師付き手法と同等に動作し,BEVにおける直接監督の1%のみを用いて競争結果を得る。
論文 参考訳(メタデータ) (2023-02-08T18:02:09Z) - BEV-Locator: An End-to-end Visual Semantic Localization Network Using
Multi-View Images [13.258689143949912]
マルチビューカメラ画像を用いたエンドツーエンドの視覚的セマンティックローカライゼーションニューラルネットワークを提案する。
BEV-Locatorは、多目的シナリオ下での車両のポーズを推定することができる。
実験では, 平均絶対誤差が0.052m, 0.135m, 0.251$circ$, 横方向, 縦方向の翻訳, 方向角の程度で満足な精度を報告した。
論文 参考訳(メタデータ) (2022-11-27T20:24:56Z) - Monocular BEV Perception of Road Scenes via Front-to-Top View Projection [57.19891435386843]
本稿では,鳥の目視で道路配置と車両占有率によって形成された局所地図を再構築する新しい枠組みを提案する。
我々のモデルは1つのGPU上で25FPSで動作し、リアルタイムパノラマHDマップの再構築に有効である。
論文 参考訳(メタデータ) (2022-11-15T13:52:41Z) - GitNet: Geometric Prior-based Transformation for Birds-Eye-View
Segmentation [105.19949897812494]
Birds-eye-view (BEV) セマンティックセマンティックセグメンテーションは自動運転に不可欠である。
本稿では,GitNetという新しい2段階のGeometry Preside-based Transformationフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-16T06:46:45Z) - Bird's-Eye-View Panoptic Segmentation Using Monocular Frontal View
Images [4.449481309681663]
本研究では,Bird's-Eye-View (BEV) マップにおいて,高密度パノプティックセグメンテーションマップを直接予測するエンド・ツー・エンドの学習手法を提案する。
私たちのアーキテクチャはトップダウンパラダイムに従っており、新しい高密度トランスモジュールを組み込んでいます。
我々は、FV-BEV変換の感度を数学的に定式化し、BEV空間のピクセルをインテリジェントに重み付けすることができる。
論文 参考訳(メタデータ) (2021-08-06T17:59:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。