論文の概要: Predicting Semantic Map Representations from Images using Pyramid
Occupancy Networks
- arxiv url: http://arxiv.org/abs/2003.13402v1
- Date: Mon, 30 Mar 2020 12:39:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-18 08:04:58.555429
- Title: Predicting Semantic Map Representations from Images using Pyramid
Occupancy Networks
- Title(参考訳): ピラミッド占有ネットワークを用いた画像からの意味地図表現の予測
- Authors: Thomas Roddick, Roberto Cipolla
- Abstract要約: 単一エンドツーエンドのディープラーニングアーキテクチャを用いて,単分子画像から直接マップを推定する,シンプルで統一的なアプローチを提案する。
提案手法の有効性を,NuScenesとArgoverseデータセット上のいくつかの挑戦的ベースラインに対して評価することで実証する。
- 参考スコア(独自算出の注目度): 27.86228863466213
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autonomous vehicles commonly rely on highly detailed birds-eye-view maps of
their environment, which capture both static elements of the scene such as road
layout as well as dynamic elements such as other cars and pedestrians.
Generating these map representations on the fly is a complex multi-stage
process which incorporates many important vision-based elements, including
ground plane estimation, road segmentation and 3D object detection. In this
work we present a simple, unified approach for estimating maps directly from
monocular images using a single end-to-end deep learning architecture. For the
maps themselves we adopt a semantic Bayesian occupancy grid framework, allowing
us to trivially accumulate information over multiple cameras and timesteps. We
demonstrate the effectiveness of our approach by evaluating against several
challenging baselines on the NuScenes and Argoverse datasets, and show that we
are able to achieve a relative improvement of 9.1% and 22.3% respectively
compared to the best-performing existing method.
- Abstract(参考訳): 自律車は通常、環境の詳細な鳥眼ビューマップに依存しており、道路レイアウトのようなシーンの静的要素と、他の車や歩行者のような動的な要素の両方を捉えている。
これらの地図表現をオンザフライで生成することは、平面推定、道路分割、および3dオブジェクト検出など、多くの重要なビジョンベースの要素を組み込んだ複雑な多段階プロセスである。
本研究では,単一のエンドツーエンドのディープラーニングアーキテクチャを用いて,単眼画像から直接地図を推定する手法を提案する。
マップ自体にはセマンティックベイズ占有グリッドフレームワークを採用しており、複数のカメラやタイムステップに簡単に情報を蓄積することができます。
本手法の有効性を,数種類の難解なベースラインに対して評価することで実証し,既存の手法と比較して,それぞれ9.1%,22.3%の相対的改善を達成できることを示した。
関連論文リスト
- TopView: Vectorising road users in a bird's eye view from uncalibrated street-level imagery with deep learning [2.7195102129095003]
本研究では、カメラの内在的・外在的パラメータを事前に把握せずに、画像から鳥の視線を推定するための簡単なアプローチを提案する。
このフレームワークは、カメラフィードからライブマップを生成し、都市規模での社会的距離違反を分析するために、いくつかのアプリケーションに適用されている。
論文 参考訳(メタデータ) (2024-12-18T21:55:58Z) - Neural Semantic Map-Learning for Autonomous Vehicles [85.8425492858912]
本稿では,道路環境のコヒーレントな地図を作成するために,車両群から収集した局所部分写像を中心インスタンスに融合するマッピングシステムを提案する。
本手法は,シーン特異的なニューラルサイン距離場を用いて,雑音と不完全局所部分写像を併用する。
我々は,記憶効率の高いスパース機能グリッドを活用して大規模にスケールし,シーン再構築における不確実性をモデル化するための信頼スコアを導入する。
論文 参考訳(メタデータ) (2024-10-10T10:10:03Z) - Pixel to Elevation: Learning to Predict Elevation Maps at Long Range using Images for Autonomous Offroad Navigation [10.898724668444125]
本稿では,車載エゴセントリック画像のみをリアルタイムに利用して,長距離の地形標高マップを予測できる学習型アプローチを提案する。
複雑で非構造的な地形における自律型オフロードロボットナビゲーションへの提案手法の適用性を実験的に検証した。
論文 参考訳(メタデータ) (2024-01-30T22:37:24Z) - Monocular BEV Perception of Road Scenes via Front-to-Top View Projection [57.19891435386843]
本稿では,鳥の目視で道路配置と車両占有率によって形成された局所地図を再構築する新しい枠組みを提案する。
我々のモデルは1つのGPU上で25FPSで動作し、リアルタイムパノラマHDマップの再構築に有効である。
論文 参考訳(メタデータ) (2022-11-15T13:52:41Z) - Sparse Semantic Map-Based Monocular Localization in Traffic Scenes Using
Learned 2D-3D Point-Line Correspondences [29.419138863851526]
クエリー画像が与えられた場合、カメラのポーズが先行マップに対応すると見積もることが目的である。
既存のアプローチは、登録問題を解決するために、機能レベルでの高密度な点記述子に大きく依存している。
本稿では,よく設計されたディープニューラルネットワークを用いて2D-3D登録を行う,スパースセマンティックマップに基づく単眼位置推定法を提案する。
論文 参考訳(メタデータ) (2022-10-10T10:29:07Z) - Satellite Image Based Cross-view Localization for Autonomous Vehicle [59.72040418584396]
本稿では,市販の高精細衛星画像を使用可能な地図として利用することにより,良好な精度でクロスビュー車両のローカライゼーションを実現することができることを示す。
本手法はKITTIとFord Multi-AVの季節データセットを地上ビューとして,Google Mapsを衛星ビューとして検証した。
論文 参考訳(メタデータ) (2022-07-27T13:16:39Z) - Vision-based Large-scale 3D Semantic Mapping for Autonomous Driving
Applications [53.553924052102126]
ステレオカメラシステムのみに基づく3次元セマンティックマッピングのための完全なパイプラインを提案する。
パイプラインは、直接視覚的オドメトリーのフロントエンドと、グローバルな時間統合のためのバックエンドで構成されている。
本稿では,3次元点ラベルの品質と一貫性を向上する,単純だが効果的な投票方式を提案する。
論文 参考訳(メタデータ) (2022-03-02T13:18:38Z) - TANDEM: Tracking and Dense Mapping in Real-time using Deep Multi-view
Stereo [55.30992853477754]
本稿では,リアルタイムな単分子追跡と高密度フレームワークであるTANDEMを紹介する。
ポーズ推定のために、TANDEMはアライメントのスライディングウィンドウに基づいて光度バンドル調整を行う。
TANDEMは最先端のリアルタイム3D再構成性能を示す。
論文 参考訳(メタデータ) (2021-11-14T19:01:02Z) - Semantic Image Alignment for Vehicle Localization [111.59616433224662]
単眼カメラからのセマンティックセグメンテーションを用いた高密度セマンティックマップにおける車両位置推定手法を提案する。
既存の視覚的ローカライゼーションアプローチとは対照的に、システムは追加のキーポイント機能、手作りのローカライゼーションランドマーク抽出器、高価なLiDARセンサーを必要としない。
論文 参考訳(メタデータ) (2021-10-08T14:40:15Z) - Crowdsourced 3D Mapping: A Combined Multi-View Geometry and
Self-Supervised Learning Approach [10.610403488989428]
本稿では,意味的意味のあるランドマークの3次元位置を,カメラ固有の知識を仮定せずに推定するフレームワークを提案する。
交通標識の位置推定には,多視点幾何と深層学習に基づく自己校正,深度,エゴモーション推定を利用する。
我々はそれぞれ39cmと1.26mの平均単方向相対位置と絶対位置の精度を達成した。
論文 参考訳(メタデータ) (2020-07-25T12:10:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。