論文の概要: Monocular BEV Perception of Road Scenes via Front-to-Top View Projection
- arxiv url: http://arxiv.org/abs/2211.08144v1
- Date: Tue, 15 Nov 2022 13:52:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-16 15:12:29.362282
- Title: Monocular BEV Perception of Road Scenes via Front-to-Top View Projection
- Title(参考訳): フロント・ツー・トップビュー投影による道路シーンの単眼的BEV知覚
- Authors: Wenxi Liu, Qi Li, Weixiang Yang, Jiaxin Cai, Yuanlong Yu, Yuexin Ma,
Shengfeng He, Jia Pan
- Abstract要約: 本稿では,鳥の目視で道路配置と車両占有率によって形成された局所地図を再構築する新しい枠組みを提案する。
我々のモデルは1つのGPU上で25FPSで動作し、リアルタイムパノラマHDマップの再構築に有効である。
- 参考スコア(独自算出の注目度): 57.19891435386843
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: HD map reconstruction is crucial for autonomous driving. LiDAR-based methods
are limited due to expensive sensors and time-consuming computation.
Camera-based methods usually need to perform road segmentation and view
transformation separately, which often causes distortion and missing content.
To push the limits of the technology, we present a novel framework that
reconstructs a local map formed by road layout and vehicle occupancy in the
bird's-eye view given a front-view monocular image only. We propose a
front-to-top view projection (FTVP) module, which takes the constraint of cycle
consistency between views into account and makes full use of their correlation
to strengthen the view transformation and scene understanding. In addition, we
also apply multi-scale FTVP modules to propagate the rich spatial information
of low-level features to mitigate spatial deviation of the predicted object
location. Experiments on public benchmarks show that our method achieves the
state-of-the-art performance in the tasks of road layout estimation, vehicle
occupancy estimation, and multi-class semantic estimation. For multi-class
semantic estimation, in particular, our model outperforms all competitors by a
large margin. Furthermore, our model runs at 25 FPS on a single GPU, which is
efficient and applicable for real-time panorama HD map reconstruction.
- Abstract(参考訳): HDマップの再構築は自動運転に不可欠である。
LiDARベースの手法は、高価なセンサーと時間を要する計算のために制限されている。
カメラベースの手法では、通常、道路分割とビュー変換を別々に行う必要がある。
本手法の限界を推し進めるために,前方単眼画像のみを与えられた鳥眼視において,道路配置と車両占有によって形成された局所地図を再構築する新しい枠組みを提案する。
本稿では,ビュー間のサイクル一貫性の制約を考慮し,その相関を最大限に活用し,ビュー変換とシーン理解を強化するフロント・ツー・トップ・ビュー・プロジェクション(ftvp)モジュールを提案する。
さらに,マルチスケールのftvpモジュールを用いて,低レベル特徴のリッチな空間情報伝達を行い,予測対象位置の空間的偏差を緩和する。
道路配置推定,車両占有率推定,マルチクラスセマンティック推定といったタスクにおいて,提案手法が最先端の性能を達成することを示す。
マルチクラスのセマンティック推定では、特に、我々のモデルは全ての競合よりも大きなマージンで優れている。
さらに,本モデルでは,1つのGPU上で25FPSで動作し,リアルタイムパノラマHDマップの再構築に有効である。
関連論文リスト
- Pixel to Elevation: Learning to Predict Elevation Maps at Long Range
using Images for Autonomous Offroad Navigation [12.389719757605162]
本稿では,車載エゴセントリック画像のみをリアルタイムに利用して,長距離の地形標高マップを予測できる学習型アプローチを提案する。
複雑で非構造的な地形における自律型オフロードロボットナビゲーションへの提案手法の適用性を実験的に検証した。
論文 参考訳(メタデータ) (2024-01-30T22:37:24Z) - OccNeRF: Self-Supervised Multi-Camera Occupancy Prediction with Neural
Radiance Fields [80.35807140179736]
自己監督型マルチカメラ占有率予測のためのOccNeRF法を提案する。
我々は、再構成された占有領域をパラメータ化し、サンプリング戦略を再編成する。
意味的占有予測のために,事前学習した開語彙2Dセグメンテーションモデルの出力をフィルタリングし,プロンプトを洗練するためのいくつかの戦略を設計する。
論文 参考訳(メタデータ) (2023-12-14T18:58:52Z) - Rethinking Range View Representation for LiDAR Segmentation [66.73116059734788]
「多対一」マッピング、意味的不整合、形状変形は、射程射影からの効果的な学習に対する障害となる可能性がある。
RangeFormerは、ネットワークアーキテクチャ、データ拡張、後処理を含む新しい設計を含む、フルサイクルのフレームワークである。
比較対象のLiDARセマンティックスとパノプティックスセグメンテーションのベンチマークにおいて,初めてレンジビュー法が点,ボクセル,マルチビューフュージョンを越えられることを示す。
論文 参考訳(メタデータ) (2023-03-09T16:13:27Z) - Street-View Image Generation from a Bird's-Eye View Layout [95.36869800896335]
近年,Bird's-Eye View (BEV) の知覚が注目されている。
自動運転のためのデータ駆動シミュレーションは、最近の研究の焦点となっている。
本稿では,現実的かつ空間的に一貫した周辺画像を合成する条件生成モデルであるBEVGenを提案する。
論文 参考訳(メタデータ) (2023-01-11T18:39:34Z) - NMR: Neural Manifold Representation for Autonomous Driving [2.2596039727344452]
本研究では,有限地平線上の多様体上の意味論を推論し,経路点を予測する自律運転の表現を提案する。
本研究では, 周辺単分子画像と部分エゴ車状態の潜時高次元埋め込みに適用した反復的注意機構を用いてこれを行う。
本研究では,BEV占有格子のエッジ適応被覆損失に基づくサンプリングアルゴリズムを提案し,表面多様体を生成する。
論文 参考訳(メタデータ) (2022-05-11T14:58:08Z) - Real Time Monocular Vehicle Velocity Estimation using Synthetic Data [78.85123603488664]
移動車に搭載されたカメラから車両の速度を推定する問題を考察する。
そこで本研究では,まずオフ・ザ・シェルフ・トラッカーを用いて車両バウンディングボックスを抽出し,その後,小型ニューラルネットワークを用いて車両速度を回帰する2段階のアプローチを提案する。
論文 参考訳(メタデータ) (2021-09-16T13:10:27Z) - NEAT: Neural Attention Fields for End-to-End Autonomous Driving [59.60483620730437]
本稿では、模倣学習モデルの効率的な推論を可能にする新しい表現であるNEAT(NEural Attention Field)を提案する。
NEATは、Bird's Eye View (BEV) シーン座標の位置をウェイポイントとセマンティクスにマッピングする連続関数である。
有害な環境条件や挑戦的なシナリオを含む新たな評価環境では、NEATはいくつかの強いベースラインを上回り、特権のあるCARLA専門家と同等の運転スコアを達成している。
論文 参考訳(メタデータ) (2021-09-09T17:55:28Z) - Bird's-Eye-View Panoptic Segmentation Using Monocular Frontal View
Images [4.449481309681663]
本研究では,Bird's-Eye-View (BEV) マップにおいて,高密度パノプティックセグメンテーションマップを直接予測するエンド・ツー・エンドの学習手法を提案する。
私たちのアーキテクチャはトップダウンパラダイムに従っており、新しい高密度トランスモジュールを組み込んでいます。
我々は、FV-BEV変換の感度を数学的に定式化し、BEV空間のピクセルをインテリジェントに重み付けすることができる。
論文 参考訳(メタデータ) (2021-08-06T17:59:11Z) - Predicting Semantic Map Representations from Images using Pyramid
Occupancy Networks [27.86228863466213]
単一エンドツーエンドのディープラーニングアーキテクチャを用いて,単分子画像から直接マップを推定する,シンプルで統一的なアプローチを提案する。
提案手法の有効性を,NuScenesとArgoverseデータセット上のいくつかの挑戦的ベースラインに対して評価することで実証する。
論文 参考訳(メタデータ) (2020-03-30T12:39:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。