論文の概要: Bird's-Eye-View Panoptic Segmentation Using Monocular Frontal View
Images
- arxiv url: http://arxiv.org/abs/2108.03227v1
- Date: Fri, 6 Aug 2021 17:59:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-09 14:25:34.227467
- Title: Bird's-Eye-View Panoptic Segmentation Using Monocular Frontal View
Images
- Title(参考訳): 単眼前頭視野画像を用いた鳥眼視パンオプティカルセグメンテーション
- Authors: Nikhil Gosala and Abhinav Valada
- Abstract要約: 本研究では,Bird's-Eye-View (BEV) マップにおいて,高密度パノプティックセグメンテーションマップを直接予測するエンド・ツー・エンドの学習手法を提案する。
私たちのアーキテクチャはトップダウンパラダイムに従っており、新しい高密度トランスモジュールを組み込んでいます。
我々は、FV-BEV変換の感度を数学的に定式化し、BEV空間のピクセルをインテリジェントに重み付けすることができる。
- 参考スコア(独自算出の注目度): 4.449481309681663
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Bird's-Eye-View (BEV) maps have emerged as one of the most powerful
representations for scene understanding due to their ability to provide rich
spatial context while being easy to interpret and process. However, generating
BEV maps requires complex multi-stage paradigms that encapsulate a series of
distinct tasks such as depth estimation, ground plane estimation, and semantic
segmentation. These sub-tasks are often learned in a disjoint manner which
prevents the model from holistic reasoning and results in erroneous BEV maps.
Moreover, existing algorithms only predict the semantics in the BEV space,
which limits their use in applications where the notion of object instances is
critical. In this work, we present the first end-to-end learning approach for
directly predicting dense panoptic segmentation maps in the BEV, given a single
monocular image in the frontal view (FV). Our architecture follows the top-down
paradigm and incorporates a novel dense transformer module consisting of two
distinct transformers that learn to independently map vertical and flat regions
in the input image from the FV to the BEV. Additionally, we derive a
mathematical formulation for the sensitivity of the FV-BEV transformation which
allows us to intelligently weight pixels in the BEV space to account for the
varying descriptiveness across the FV image. Extensive evaluations on the
KITTI-360 and nuScenes datasets demonstrate that our approach exceeds the
state-of-the-art in the PQ metric by 3.61 pp and 4.93 pp respectively.
- Abstract(参考訳): bird's-eye-view (bev) マップは、解釈や処理が容易なリッチな空間的コンテキストを提供する能力から、シーン理解のための最も強力な表現の1つとして登場した。
しかし、BEVマップの生成には、深度推定、地平面推定、セマンティックセグメンテーションといった一連の異なるタスクをカプセル化する複雑な多段階パラダイムが必要である。
これらのサブタスクは、モデルが全体論的推論を妨げ、誤ったBEVマップをもたらすような、相補的な方法でしばしば学習される。
さらに、既存のアルゴリズムはBEV空間のセマンティクスのみを予測するため、オブジェクトインスタンスの概念が重要なアプリケーションでの使用を制限する。
本研究では,前景(FV)に1つの単眼画像が与えられた場合,BEV内の高密度パノプティカルセグメンテーションマップを直接予測するエンド・ツー・エンドの学習手法を提案する。
我々のアーキテクチャはトップダウンのパラダイムに従っており、FVからBEVへの入力画像の垂直領域と平坦領域を独立にマッピングすることを学ぶ2つの異なるトランスフォーマーからなる新しい高密度トランスフォーマーモジュールを組み込んでいる。
さらに、FV-BEV変換の感度を数学的に定式化することで、BEV空間の画素をインテリジェントに重み付けし、FV画像の様々な記述性を考慮することができる。
KITTI-360データセットとnuScenesデータセットの広範囲な評価は、我々のアプローチがPQ測定の最先端を3.61 ppと4.93 ppで上回っていることを示している。
関連論文リスト
- Zero-BEV: Zero-shot Projection of Any First-Person Modality to BEV Maps [14.774543742438178]
本稿では,対応するBEVマップに対して,一人称視点で利用可能な任意のモダリティをゼロショット投影できる新しいモデルを提案する。
本研究では,本モデルが競合手法,特に単眼深度推定に広く用いられているベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-02-21T14:50:24Z) - DA-BEV: Unsupervised Domain Adaptation for Bird's Eye View Perception [111.13119809216313]
カメラのみのBird's Eye View (BEV)は3次元空間における環境認識に大きな可能性を示した。
非教師なし領域適応型BEVは、様々な未ラベル対象データから効果的に学習するが、まだ未探索である。
DA-BEVは、画像ビュー機能とBEV機能の相補性を利用して、ドメイン適応型BEV課題に対処する、最初のドメイン適応型カメラのみのBEVフレームワークである。
論文 参考訳(メタデータ) (2024-01-13T04:21:24Z) - Instance-aware Multi-Camera 3D Object Detection with Structural Priors
Mining and Self-Boosting Learning [93.71280187657831]
カメラによる鳥眼視(BEV)知覚パラダイムは、自律運転分野において大きな進歩を遂げている。
画像平面のインスタンス認識をBEV検出器内の深度推定プロセスに統合するIA-BEVを提案する。
論文 参考訳(メタデータ) (2023-12-13T09:24:42Z) - FB-BEV: BEV Representation from Forward-Backward View Transformations [131.11787050205697]
本稿では,Bird-Eye-View (BEV) 表現のためのビュートランスフォーメーションモジュール (VTM) を提案する。
我々は提案したモジュールをFB-BEVでインスタンス化し、nuScenesテストセット上で62.4%のNDSの最先端結果を達成する。
論文 参考訳(メタデータ) (2023-08-04T10:26:55Z) - Leveraging BEV Representation for 360-degree Visual Place Recognition [14.497501941931759]
本稿では,360度視覚位置認識(VPR)におけるBird's Eye View表現の利点について検討する。
本稿では,特徴抽出,特徴集約,視覚-LiDAR融合におけるBEV表現を利用した新しいネットワークアーキテクチャを提案する。
提案手法は,2つのデータセットのアブレーションおよび比較研究において評価される。
論文 参考訳(メタデータ) (2023-05-23T08:29:42Z) - SkyEye: Self-Supervised Bird's-Eye-View Semantic Mapping Using Monocular
Frontal View Images [26.34702432184092]
本研究では,前景からの単一単眼画像を用いた鳥眼図(BEV)意味マップ作成のための,最初の自己教師型アプローチを提案する。
トレーニングでは、ビデオシーケンスのより容易に利用できるFVセマンティックアノテーションを活用することで、BEVの基底真理アノテーションの必要性を克服する。
提案手法は最先端の完全教師付き手法と同等に動作し,BEVにおける直接監督の1%のみを用いて競争結果を得る。
論文 参考訳(メタデータ) (2023-02-08T18:02:09Z) - Monocular BEV Perception of Road Scenes via Front-to-Top View Projection [57.19891435386843]
本稿では,鳥の目視で道路配置と車両占有率によって形成された局所地図を再構築する新しい枠組みを提案する。
我々のモデルは1つのGPU上で25FPSで動作し、リアルタイムパノラマHDマップの再構築に有効である。
論文 参考訳(メタデータ) (2022-11-15T13:52:41Z) - ViT-BEVSeg: A Hierarchical Transformer Network for Monocular
Birds-Eye-View Segmentation [2.70519393940262]
本研究では,バードアイビュー (BEV) マップを生成するために,視覚変換器 (ViT) をバックボーンアーキテクチャとして用いることを評価する。
我々のネットワークアーキテクチャであるViT-BEVSegは、入力画像のマルチスケール表現を生成するために標準視覚変換器を使用している。
我々は、最先端のアプローチと比較してかなり改善されたnuScenesデータセットに対するアプローチを評価した。
論文 参考訳(メタデータ) (2022-05-31T10:18:36Z) - GitNet: Geometric Prior-based Transformation for Birds-Eye-View
Segmentation [105.19949897812494]
Birds-eye-view (BEV) セマンティックセマンティックセグメンテーションは自動運転に不可欠である。
本稿では,GitNetという新しい2段階のGeometry Preside-based Transformationフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-16T06:46:45Z) - M^2BEV: Multi-Camera Joint 3D Detection and Segmentation with Unified
Birds-Eye View Representation [145.6041893646006]
M$2$BEVは3Dオブジェクトの検出とマップのセグメンテーションを共同で行う統合フレームワークである。
M$2$BEVは、両方のタスクを統一モデルで推論し、効率を向上する。
論文 参考訳(メタデータ) (2022-04-11T13:43:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。