論文の概要: SkyEye: Self-Supervised Bird's-Eye-View Semantic Mapping Using Monocular
Frontal View Images
- arxiv url: http://arxiv.org/abs/2302.04233v1
- Date: Wed, 8 Feb 2023 18:02:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-09 15:16:07.907033
- Title: SkyEye: Self-Supervised Bird's-Eye-View Semantic Mapping Using Monocular
Frontal View Images
- Title(参考訳): SkyEye:単眼正面画像を用いた自己監督型鳥の目視意味マッピング
- Authors: Nikhil Gosala, K\"ursat Petek, Paulo L. J. Drews-Jr, Wolfram Burgard,
Abhinav Valada
- Abstract要約: 本研究では,前景からの単一単眼画像を用いた鳥眼図(BEV)意味マップ作成のための,最初の自己教師型アプローチを提案する。
トレーニングでは、ビデオシーケンスのより容易に利用できるFVセマンティックアノテーションを活用することで、BEVの基底真理アノテーションの必要性を克服する。
提案手法は最先端の完全教師付き手法と同等に動作し,BEVにおける直接監督の1%のみを用いて競争結果を得る。
- 参考スコア(独自算出の注目度): 26.34702432184092
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Bird's-Eye-View (BEV) semantic maps have become an essential component of
automated driving pipelines due to the rich representation they provide for
decision-making tasks. However, existing approaches for generating these maps
still follow a fully supervised training paradigm and hence rely on large
amounts of annotated BEV data. In this work, we address this limitation by
proposing the first self-supervised approach for generating a BEV semantic map
using a single monocular image from the frontal view (FV). During training, we
overcome the need for BEV ground truth annotations by leveraging the more
easily available FV semantic annotations of video sequences. Thus, we propose
the SkyEye architecture that learns based on two modes of self-supervision,
namely, implicit supervision and explicit supervision. Implicit supervision
trains the model by enforcing spatial consistency of the scene over time based
on FV semantic sequences, while explicit supervision exploits BEV pseudolabels
generated from FV semantic annotations and self-supervised depth estimates.
Extensive evaluations on the KITTI-360 dataset demonstrate that our
self-supervised approach performs on par with the state-of-the-art fully
supervised methods and achieves competitive results using only 1% of direct
supervision in the BEV compared to fully supervised approaches. Finally, we
publicly release both our code and the BEV datasets generated from the
KITTI-360 and Waymo datasets.
- Abstract(参考訳): Bird's-Eye-View (BEV)セマンティックマップは、意思決定タスクに豊富な表現を提供するため、自動走行パイプラインの重要なコンポーネントとなっている。
しかしながら、これらのマップを生成する既存のアプローチは、完全に教師付きトレーニングパラダイムに従っているため、大量の注釈付きBEVデータに依存している。
本研究では,この限界に対処するために,正面からの単一単眼画像(FV)を用いたBEVセマンティックマップを生成するための,最初の自己教師型アプローチを提案する。
トレーニング中、ビデオシーケンスのより容易に利用できるFVセマンティックアノテーションを活用することで、BEVの基底真理アノテーションの必要性を克服する。
そこで我々は,暗黙の監督と明示的な監督という2つのモードに基づいて学習するSkyEyeアーキテクチャを提案する。
暗黙の監督は、FVセマンティックシーケンスに基づいてシーンの空間的一貫性を時間とともに強制し、明示的な監督は、FVセマンティックアノテーションと自己監督深度推定から生成されたBEV疑似ラベルを活用する。
kitti-360データセットの広範な評価は、我々の自己監督アプローチが最先端の完全監督手法と同等の性能を発揮し、完全に監督されたアプローチと比較してbevの直接監督のわずか1%で競争結果を達成していることを示している。
最後に、KITTI-360およびWaymoデータセットから生成されたコードとBEVデータセットの両方を公開します。
関連論文リスト
- VQ-Map: Bird's-Eye-View Map Layout Estimation in Tokenized Discrete Space via Vector Quantization [108.68014173017583]
Bird's-eye-view (BEV) マップのレイアウト推定には、エゴ車の周囲の環境要素のセマンティクスを正確に完全に理解する必要がある。
本稿では,Vector Quantized-Variational AutoEncoder (VQ-VAE) に似た生成モデルを用いて,トークン化された離散空間における高レベルのBEVセマンティクスの事前知識を取得することを提案する。
得られたBEVトークンには,異なるBEV要素のセマンティクスを包含したコードブックが組み込まれているため,スパースバックボーン画像特徴と得られたBEVトークンとを直接一致させることができる。
論文 参考訳(メタデータ) (2024-11-03T16:09:47Z) - LetsMap: Unsupervised Representation Learning for Semantic BEV Mapping [23.366388601110913]
本稿では,FV画像からセマンティックなBEVマップをラベル効率よく生成するための,教師なし表現学習手法を提案する。
提案手法は,2つの解離したニューラルパスを教師なし方式で,シーン幾何学とシーン意味論を独立に推論するために,ネットワークを事前訓練する。
本研究では,FV画像の空間的・時間的整合性を利用して,シーン表現を符号化する新しい時間的マスク付きオートエンコーダの定式化に依存しながら,シーン形状を学習する。
論文 参考訳(メタデータ) (2024-05-29T08:03:36Z) - Zero-BEV: Zero-shot Projection of Any First-Person Modality to BEV Maps [13.524499163234342]
本稿では,対応するBEVマップに対して,一人称視点で利用可能な任意のモダリティをゼロショット投影できる新しいモデルを提案する。
本研究では,本モデルが競合手法,特に単眼深度推定に広く用いられているベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-02-21T14:50:24Z) - Semi-Supervised Learning for Visual Bird's Eye View Semantic
Segmentation [16.3996408206659]
トレーニング中にラベルのない画像を活用することで性能を向上させるために,視覚的BEVセマンティックセマンティックセマンティックセマンティクスのための新しい半教師付きフレームワークを提案する。
次に、ラベルのないデータを完全に利用する一貫性損失を提案し、セマンティックな予測だけでなく、BEV機能にもモデルを制約する。
nuScenesとArgoverseデータセットの実験により、我々のフレームワークは予測精度を効果的に向上できることが示された。
論文 参考訳(メタデータ) (2023-08-28T12:23:36Z) - Bird's-Eye-View Scene Graph for Vision-Language Navigation [85.72725920024578]
視覚言語ナビゲーション(VLN)は、人間の指示に従って3D環境をナビゲートするエージェントである。
室内環境のシーンレイアウトと幾何学的手がかりを符号化するために,多段階のBEV表現を利用するBEVシーングラフ(BSG)を提案する。
BSGに基づいて、エージェントは、ローカルなBEVグリッドレベル決定スコアとグローバルなグラフレベル決定スコアを予測し、パノラマビューのサブビュー選択スコアと組み合わせる。
論文 参考訳(メタデータ) (2023-08-09T07:48:20Z) - Tri-Perspective View for Vision-Based 3D Semantic Occupancy Prediction [84.94140661523956]
本稿では,2つの垂直面を追加してBEVに付随するトリ・パースペクティブ・ビュー(TPV)表現を提案する。
3次元空間の各点を3次元平面上の投影された特徴をまとめてモデル化する。
実験結果から,本モデルは全ボクセルのセマンティック占有率を効果的に予測できることが示唆された。
論文 参考訳(メタデータ) (2023-02-15T17:58:10Z) - BEV-MAE: Bird's Eye View Masked Autoencoders for Point Cloud
Pre-training in Autonomous Driving Scenarios [51.285561119993105]
自律運転におけるLiDARに基づく3Dオブジェクト検出のための,効率的なマスク付きオートエンコーダ事前学習フレームワークであるBEV-MAEを提案する。
具体的には、3Dエンコーダ学習特徴表現を導くために,鳥の目視(BEV)誘導マスキング戦略を提案する。
学習可能なポイントトークンを導入し、3Dエンコーダの一貫性のある受容的フィールドサイズを維持する。
論文 参考訳(メタデータ) (2022-12-12T08:15:03Z) - BEVFormer v2: Adapting Modern Image Backbones to Bird's-Eye-View
Recognition via Perspective Supervision [101.36648828734646]
本稿では、視線を監督する新しい鳥眼ビュー(BEV)検出器について述べる。
提案手法は,従来および現代の画像バックボーンの幅広いスペクトルを用いて検証し,大規模なnuScenesデータセット上で新たなSoTA結果を得る。
論文 参考訳(メタデータ) (2022-11-18T18:59:48Z) - BEVerse: Unified Perception and Prediction in Birds-Eye-View for
Vision-Centric Autonomous Driving [92.05963633802979]
マルチカメラシステムに基づく3次元認識と予測のための統合フレームワークであるBEVerseを提案する。
マルチタスクBEVerseは3次元オブジェクト検出,セマンティックマップ構築,動き予測において単一タスク法より優れていることを示す。
論文 参考訳(メタデータ) (2022-05-19T17:55:35Z) - Bird's-Eye-View Panoptic Segmentation Using Monocular Frontal View
Images [4.449481309681663]
本研究では,Bird's-Eye-View (BEV) マップにおいて,高密度パノプティックセグメンテーションマップを直接予測するエンド・ツー・エンドの学習手法を提案する。
私たちのアーキテクチャはトップダウンパラダイムに従っており、新しい高密度トランスモジュールを組み込んでいます。
我々は、FV-BEV変換の感度を数学的に定式化し、BEV空間のピクセルをインテリジェントに重み付けすることができる。
論文 参考訳(メタデータ) (2021-08-06T17:59:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。