論文の概要: X-Align: Cross-Modal Cross-View Alignment for Bird's-Eye-View
Segmentation
- arxiv url: http://arxiv.org/abs/2210.06778v1
- Date: Thu, 13 Oct 2022 06:42:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-14 16:18:18.797960
- Title: X-Align: Cross-Modal Cross-View Alignment for Bird's-Eye-View
Segmentation
- Title(参考訳): X-Align:Bird's-Eye-Viewセグメンテーションのためのクロスプラットフォームクロスビューアライメント
- Authors: Shubhankar Borse, Marvin Klingner, Varun Ravi Kumar, Hong Cai,
Abdulaziz Almuzairee, Senthil Yogamani, Fatih Porikli
- Abstract要約: X-Alignは、BEVセグメンテーションのための新しいエンドツーエンドのクロスモーダルおよびクロスビュー学習フレームワークである。
X-Align は nuScene 上で 3 つの絶対 mIoU 点によって最先端を著しく上回る。
- 参考スコア(独自算出の注目度): 44.95630790801856
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Bird's-eye-view (BEV) grid is a common representation for the perception of
road components, e.g., drivable area, in autonomous driving. Most existing
approaches rely on cameras only to perform segmentation in BEV space, which is
fundamentally constrained by the absence of reliable depth information. Latest
works leverage both camera and LiDAR modalities, but sub-optimally fuse their
features using simple, concatenation-based mechanisms.
In this paper, we address these problems by enhancing the alignment of the
unimodal features in order to aid feature fusion, as well as enhancing the
alignment between the cameras' perspective view (PV) and BEV representations.
We propose X-Align, a novel end-to-end cross-modal and cross-view learning
framework for BEV segmentation consisting of the following components: (i) a
novel Cross-Modal Feature Alignment (X-FA) loss, (ii) an attention-based
Cross-Modal Feature Fusion (X-FF) module to align multi-modal BEV features
implicitly, and (iii) an auxiliary PV segmentation branch with Cross-View
Segmentation Alignment (X-SA) losses to improve the PV-to-BEV transformation.
We evaluate our proposed method across two commonly used benchmark datasets,
i.e., nuScenes and KITTI-360. Notably, X-Align significantly outperforms the
state-of-the-art by 3 absolute mIoU points on nuScenes. We also provide
extensive ablation studies to demonstrate the effectiveness of the individual
components.
- Abstract(参考訳): バードズ・アイ・ビュー(bird's-eye-view、bev)グリッドは、自律運転における道路要素の認識の共通表現である。
既存のアプローチのほとんどはbev空間でのセグメンテーションのみをカメラに頼っており、これは基本的に信頼できる深度情報がないことによる制約がある。
最新の作品では、カメラとlidarの両方のモードを利用しているが、サブオプティマイズでは、単純な結合ベースのメカニズムを使って機能を融合している。
本稿では,カメラの視界ビュー(PV)とBEV表現との整合性を高めるとともに,特徴融合を支援するため,一方向特徴の整合性を高めることでこれらの問題を解決する。
我々は,BEVセグメンテーションのための新しいエンドツーエンドのクロスモーダル・クロスビュー学習フレームワークであるX-Alignを提案する。
(i)新規なクロスモーダル特徴アライメント(x-fa)損失
(II)マルチモーダルBEV機能を暗黙的に整列する注目型クロスモーダル機能融合(X-FF)モジュール
3) PV-to-BEV変換を改善するため, クロスビューセグメンテーションアライメント(X-SA)損失を伴う補助PVセグメンテーションブランチ。
提案手法は2つの一般的なベンチマークデータセット(nuScenesとKITTI-360)で評価する。
特に、X-Align は nuScene 上で 3 つの絶対 mIoU 点によって最先端よりも著しく優れている。
また, 個々の成分の有効性を示すため, 広範囲のアブレーション研究を行った。
関連論文リスト
- LSSInst: Improving Geometric Modeling in LSS-Based BEV Perception with Instance Representation [10.434754671492723]
本稿では,BEVおよびインスタンス表現をタンデムに組み込んだ2段階物体検出器であるLSSInstを提案する。
提案した検出器は、既存のLSSベースのBEVネットワークに柔軟に統合可能な、きめ細かいピクセルレベルの特徴を利用する。
提案するフレームワークは,高性能な一般化能力と性能を備え,ベルやホイッスルを使わずに,現代のLSSベースのBEV認識手法の性能を向上させる。
論文 参考訳(メタデータ) (2024-11-09T13:03:54Z) - An Efficient Transformer for Simultaneous Learning of BEV and Lane
Representations in 3D Lane Detection [55.281369497158515]
3次元車線検出のための効率的な変圧器を提案する。
バニラ変圧器と異なり、我々のモデルは車線とBEVの表現を同時に学習するクロスアテンション機構を含んでいる。
本手法は,2次元および3次元の車線特徴を画像ビューとBEVの特徴にそれぞれ適用することにより,2次元および3次元車線予測を実現する。
論文 参考訳(メタデータ) (2023-06-08T04:18:31Z) - X-Align++: cross-modal cross-view alignment for Bird's-eye-view
segmentation [44.58686493878629]
X-Alignは、BEVセグメンテーションのための新しいエンドツーエンドのクロスモーダルおよびクロスビュー学習フレームワークである。
X-Alignは、nuScenesとKITTI-360データセットの3つの絶対mIoUポイントにより、最先端を著しく上回る。
論文 参考訳(メタデータ) (2023-06-06T15:52:55Z) - Leveraging BEV Representation for 360-degree Visual Place Recognition [14.497501941931759]
本稿では,360度視覚位置認識(VPR)におけるBird's Eye View表現の利点について検討する。
本稿では,特徴抽出,特徴集約,視覚-LiDAR融合におけるBEV表現を利用した新しいネットワークアーキテクチャを提案する。
提案手法は,2つのデータセットのアブレーションおよび比較研究において評価される。
論文 参考訳(メタデータ) (2023-05-23T08:29:42Z) - A Cross-Scale Hierarchical Transformer with Correspondence-Augmented
Attention for inferring Bird's-Eye-View Semantic Segmentation [13.013635162859108]
マルチカメラビュー画像に条件付きBEVセマンティックセマンティックセマンティクスを推定することは、安価なデバイスとリアルタイム処理としてコミュニティで人気がある。
セマンティックセグメンテーション推論のための対応強化された注目度を持つ新しいクロススケール階層変換器を提案する。
マルチカメラビュー画像上でのBEVセマンティックセマンティックセグメンテーションの推測における最先端性能を有する。
論文 参考訳(メタデータ) (2023-04-07T13:52:47Z) - Rethinking Range View Representation for LiDAR Segmentation [66.73116059734788]
「多対一」マッピング、意味的不整合、形状変形は、射程射影からの効果的な学習に対する障害となる可能性がある。
RangeFormerは、ネットワークアーキテクチャ、データ拡張、後処理を含む新しい設計を含む、フルサイクルのフレームワークである。
比較対象のLiDARセマンティックスとパノプティックスセグメンテーションのベンチマークにおいて,初めてレンジビュー法が点,ボクセル,マルチビューフュージョンを越えられることを示す。
論文 参考訳(メタデータ) (2023-03-09T16:13:27Z) - CoBEVT: Cooperative Bird's Eye View Semantic Segmentation with Sparse
Transformers [36.838065731893735]
CoBEVTは、BEVマップ予測を協調的に生成できる最初の汎用マルチエージェント認識フレームワークである。
CoBEVTは協調的BEVセマンティックセグメンテーションのための最先端性能を実現する。
論文 参考訳(メタデータ) (2022-07-05T17:59:28Z) - Voxel Field Fusion for 3D Object Detection [140.6941303279114]
本稿では,3次元オブジェクト検出のための概念的にシンプルなフレームワークであるvoxel field fusionを提案する。
提案手法は, ボクセル領域における画像特徴を線として表現し, 融合することにより, モダリティの整合性を維持することを目的としている。
このフレームワークは、さまざまなベンチマークで一貫したゲインを達成し、KITTIとnuScenesデータセットでの従来のフュージョンベースのメソッドを上回っている。
論文 参考訳(メタデータ) (2022-05-31T16:31:36Z) - GitNet: Geometric Prior-based Transformation for Birds-Eye-View
Segmentation [105.19949897812494]
Birds-eye-view (BEV) セマンティックセマンティックセグメンテーションは自動運転に不可欠である。
本稿では,GitNetという新しい2段階のGeometry Preside-based Transformationフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-16T06:46:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。