論文の概要: Monocular BEV Perception of Road Scenes via Front-to-Top View Projection
- arxiv url: http://arxiv.org/abs/2211.08144v1
- Date: Tue, 15 Nov 2022 13:52:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-16 15:12:29.362282
- Title: Monocular BEV Perception of Road Scenes via Front-to-Top View Projection
- Title(参考訳): フロント・ツー・トップビュー投影による道路シーンの単眼的BEV知覚
- Authors: Wenxi Liu, Qi Li, Weixiang Yang, Jiaxin Cai, Yuanlong Yu, Yuexin Ma,
Shengfeng He, Jia Pan
- Abstract要約: 本稿では,鳥の目視で道路配置と車両占有率によって形成された局所地図を再構築する新しい枠組みを提案する。
我々のモデルは1つのGPU上で25FPSで動作し、リアルタイムパノラマHDマップの再構築に有効である。
- 参考スコア(独自算出の注目度): 57.19891435386843
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: HD map reconstruction is crucial for autonomous driving. LiDAR-based methods
are limited due to expensive sensors and time-consuming computation.
Camera-based methods usually need to perform road segmentation and view
transformation separately, which often causes distortion and missing content.
To push the limits of the technology, we present a novel framework that
reconstructs a local map formed by road layout and vehicle occupancy in the
bird's-eye view given a front-view monocular image only. We propose a
front-to-top view projection (FTVP) module, which takes the constraint of cycle
consistency between views into account and makes full use of their correlation
to strengthen the view transformation and scene understanding. In addition, we
also apply multi-scale FTVP modules to propagate the rich spatial information
of low-level features to mitigate spatial deviation of the predicted object
location. Experiments on public benchmarks show that our method achieves the
state-of-the-art performance in the tasks of road layout estimation, vehicle
occupancy estimation, and multi-class semantic estimation. For multi-class
semantic estimation, in particular, our model outperforms all competitors by a
large margin. Furthermore, our model runs at 25 FPS on a single GPU, which is
efficient and applicable for real-time panorama HD map reconstruction.
- Abstract(参考訳): HDマップの再構築は自動運転に不可欠である。
LiDARベースの手法は、高価なセンサーと時間を要する計算のために制限されている。
カメラベースの手法では、通常、道路分割とビュー変換を別々に行う必要がある。
本手法の限界を推し進めるために,前方単眼画像のみを与えられた鳥眼視において,道路配置と車両占有によって形成された局所地図を再構築する新しい枠組みを提案する。
本稿では,ビュー間のサイクル一貫性の制約を考慮し,その相関を最大限に活用し,ビュー変換とシーン理解を強化するフロント・ツー・トップ・ビュー・プロジェクション(ftvp)モジュールを提案する。
さらに,マルチスケールのftvpモジュールを用いて,低レベル特徴のリッチな空間情報伝達を行い,予測対象位置の空間的偏差を緩和する。
道路配置推定,車両占有率推定,マルチクラスセマンティック推定といったタスクにおいて,提案手法が最先端の性能を達成することを示す。
マルチクラスのセマンティック推定では、特に、我々のモデルは全ての競合よりも大きなマージンで優れている。
さらに,本モデルでは,1つのGPU上で25FPSで動作し,リアルタイムパノラマHDマップの再構築に有効である。
関連論文リスト
- CASPFormer: Trajectory Prediction from BEV Images with Deformable
Attention [4.9349065371630045]
本研究では,空間化されたBird-Eye-View(BEV)画像からマルチモーダルな動作予測を行うことができるコンテキスト認識シーン予測変換器(CASPFormer)を提案する。
我々のシステムは、BEV画像を生成することができる上流認識モジュールと統合することができる。
我々は、nuScenesデータセット上でモデルを評価し、複数のメトリクスにまたがって最先端に到達していることを示す。
論文 参考訳(メタデータ) (2024-09-26T12:37:22Z) - Homography Guided Temporal Fusion for Road Line and Marking Segmentation [73.47092021519245]
道路線やマーキングは、移動車両、影、グレアの存在下でしばしば閉鎖される。
本稿では,映像フレームを補足的に利用するHomography Guided Fusion (HomoFusion) モジュールを提案する。
カメラ固有のデータと地上平面の仮定をクロスフレーム対応に利用することにより,高速・高精度性能が向上した軽量ネットワークの実現が期待できることを示す。
論文 参考訳(メタデータ) (2024-04-11T10:26:40Z) - Pixel to Elevation: Learning to Predict Elevation Maps at Long Range using Images for Autonomous Offroad Navigation [10.898724668444125]
本稿では,車載エゴセントリック画像のみをリアルタイムに利用して,長距離の地形標高マップを予測できる学習型アプローチを提案する。
複雑で非構造的な地形における自律型オフロードロボットナビゲーションへの提案手法の適用性を実験的に検証した。
論文 参考訳(メタデータ) (2024-01-30T22:37:24Z) - OccNeRF: Advancing 3D Occupancy Prediction in LiDAR-Free Environments [77.0399450848749]
本稿では,OccNeRF法を用いて,3次元監視なしで占有ネットワークを訓練する手法を提案する。
我々は、再構成された占有領域をパラメータ化し、サンプリング戦略を再編成し、カメラの無限知覚範囲に合わせる。
意味的占有予測のために,事前学習した開語彙2Dセグメンテーションモデルの出力をフィルタリングし,プロンプトを洗練するためのいくつかの戦略を設計する。
論文 参考訳(メタデータ) (2023-12-14T18:58:52Z) - Rethinking Range View Representation for LiDAR Segmentation [66.73116059734788]
「多対一」マッピング、意味的不整合、形状変形は、射程射影からの効果的な学習に対する障害となる可能性がある。
RangeFormerは、ネットワークアーキテクチャ、データ拡張、後処理を含む新しい設計を含む、フルサイクルのフレームワークである。
比較対象のLiDARセマンティックスとパノプティックスセグメンテーションのベンチマークにおいて,初めてレンジビュー法が点,ボクセル,マルチビューフュージョンを越えられることを示す。
論文 参考訳(メタデータ) (2023-03-09T16:13:27Z) - Street-View Image Generation from a Bird's-Eye View Layout [95.36869800896335]
近年,Bird's-Eye View (BEV) の知覚が注目されている。
自動運転のためのデータ駆動シミュレーションは、最近の研究の焦点となっている。
本稿では,現実的かつ空間的に一貫した周辺画像を合成する条件生成モデルであるBEVGenを提案する。
論文 参考訳(メタデータ) (2023-01-11T18:39:34Z) - NMR: Neural Manifold Representation for Autonomous Driving [2.2596039727344452]
本研究では,有限地平線上の多様体上の意味論を推論し,経路点を予測する自律運転の表現を提案する。
本研究では, 周辺単分子画像と部分エゴ車状態の潜時高次元埋め込みに適用した反復的注意機構を用いてこれを行う。
本研究では,BEV占有格子のエッジ適応被覆損失に基づくサンプリングアルゴリズムを提案し,表面多様体を生成する。
論文 参考訳(メタデータ) (2022-05-11T14:58:08Z) - Real Time Monocular Vehicle Velocity Estimation using Synthetic Data [78.85123603488664]
移動車に搭載されたカメラから車両の速度を推定する問題を考察する。
そこで本研究では,まずオフ・ザ・シェルフ・トラッカーを用いて車両バウンディングボックスを抽出し,その後,小型ニューラルネットワークを用いて車両速度を回帰する2段階のアプローチを提案する。
論文 参考訳(メタデータ) (2021-09-16T13:10:27Z) - Bird's-Eye-View Panoptic Segmentation Using Monocular Frontal View
Images [4.449481309681663]
本研究では,Bird's-Eye-View (BEV) マップにおいて,高密度パノプティックセグメンテーションマップを直接予測するエンド・ツー・エンドの学習手法を提案する。
私たちのアーキテクチャはトップダウンパラダイムに従っており、新しい高密度トランスモジュールを組み込んでいます。
我々は、FV-BEV変換の感度を数学的に定式化し、BEV空間のピクセルをインテリジェントに重み付けすることができる。
論文 参考訳(メタデータ) (2021-08-06T17:59:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。