Fugu-MT 論文翻訳(概要): X-Align++: cross-modal cross-view alignment for Bird's-eye-view segmentation

論文の概要: X-Align++: cross-modal cross-view alignment for Bird's-eye-view segmentation

arxiv url: http://arxiv.org/abs/2306.03810v1
Date: Tue, 6 Jun 2023 15:52:55 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-07 14:37:21.344958
Title: X-Align++: cross-modal cross-view alignment for Bird's-eye-view segmentation
Title（参考訳）: x-align++:bird's-eye-viewセグメンテーションのためのクロスモーダルクロスビューアライメント
Authors: Shubhankar Borse, Senthil Yogamani, Marvin Klingner, Varun Ravi, Hong Cai, Abdulaziz Almuzairee and Fatih Porikli
Abstract要約: X-Alignは、BEVセグメンテーションのための新しいエンドツーエンドのクロスモーダルおよびクロスビュー学習フレームワークである。 X-Alignは、nuScenesとKITTI-360データセットの3つの絶対mIoUポイントにより、最先端を著しく上回る。
参考スコア（独自算出の注目度）: 44.58686493878629
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Bird's-eye-view (BEV) grid is a typical representation of the perception of road components, e.g., drivable area, in autonomous driving. Most existing approaches rely on cameras only to perform segmentation in BEV space, which is fundamentally constrained by the absence of reliable depth information. The latest works leverage both camera and LiDAR modalities but suboptimally fuse their features using simple, concatenation-based mechanisms. In this paper, we address these problems by enhancing the alignment of the unimodal features in order to aid feature fusion, as well as enhancing the alignment between the cameras' perspective view (PV) and BEV representations. We propose X-Align, a novel end-to-end cross-modal and cross-view learning framework for BEV segmentation consisting of the following components: (i) a novel Cross-Modal Feature Alignment (X-FA) loss, (ii) an attention-based Cross-Modal Feature Fusion (X-FF) module to align multi-modal BEV features implicitly, and (iii) an auxiliary PV segmentation branch with Cross-View Segmentation Alignment (X-SA) losses to improve the PV-to-BEV transformation. We evaluate our proposed method across two commonly used benchmark datasets, i.e., nuScenes and KITTI-360. Notably, X-Align significantly outperforms the state-of-the-art by 3 absolute mIoU points on nuScenes. We also provide extensive ablation studies to demonstrate the effectiveness of the individual components.
Abstract（参考訳）: バードズ・アイ・ビュー(bird's-eye-view, bev)グリッドは、自動車運転における道路要素の認識の典型例である。既存のアプローチのほとんどはbev空間でのセグメンテーションのみをカメラに頼っており、これは基本的に信頼できる深度情報がないことによる制約がある。最新の作品は、カメラとlidarの両方のモードを利用しているが、シンプルで結合性に基づくメカニズムを使って機能をサブオプティマイズしている。本稿では,カメラの視界ビュー(PV)とBEV表現との整合性を高めるとともに,特徴融合を支援するため,一方向特徴の整合性を高めることでこれらの問題を解決する。我々は,BEVセグメンテーションのための新しいエンドツーエンドのクロスモーダル・クロスビュー学習フレームワークであるX-Alignを提案する。 (i)新規なクロスモーダル特徴アライメント(x-fa)損失 (II)マルチモーダルBEV機能を暗黙的に整列する注目型クロスモーダル機能融合(X-FF)モジュール 3) PV-to-BEV変換を改善するため, クロスビューセグメンテーションアライメント(X-SA)損失を伴う補助PVセグメンテーションブランチ。提案手法は2つの一般的なベンチマークデータセット(nuScenesとKITTI-360)で評価する。特に、X-Align は nuScene 上で 3 つの絶対 mIoU 点によって最先端よりも著しく優れている。また, 個々の成分の有効性を示すため, 広範囲のアブレーション研究を行った。

関連論文リスト

PC-BEV: An Efficient Polar-Cartesian BEV Fusion Framework for LiDAR Semantic Segmentation [42.879223792782334]
本稿では,ハイパフォーマンスを実現するためにマルチビュー融合が不可欠である,という一般的な概念に挑戦する。ポラリとカルテシアンの分配戦略を直接融合させることで, 顕著な利得を実現することができることを示す。提案手法は高密度な特徴融合を促進し, 疎点に基づく代替手法と比較して, よりリッチな文脈情報を保存する。
論文参考訳（メタデータ） (2024-12-19T13:12:15Z)
LSSInst: Improving Geometric Modeling in LSS-Based BEV Perception with Instance Representation [10.434754671492723]
本稿では,BEVおよびインスタンス表現をタンデムに組み込んだ2段階物体検出器であるLSSInstを提案する。提案した検出器は、既存のLSSベースのBEVネットワークに柔軟に統合可能な、きめ細かいピクセルレベルの特徴を利用する。提案するフレームワークは,高性能な一般化能力と性能を備え,ベルやホイッスルを使わずに,現代のLSSベースのBEV認識手法の性能を向上させる。
論文参考訳（メタデータ） (2024-11-09T13:03:54Z)
OE-BevSeg: An Object Informed and Environment Aware Multimodal Framework for Bird's-eye-view Vehicle Semantic Segmentation [57.2213693781672]
Bird's-eye-view (BEV)セマンティックセマンティックセグメンテーションは自律運転システムにおいて重要である。本稿では,BEVセグメンテーション性能を向上させるエンドツーエンドマルチモーダルフレームワークであるOE-BevSegを提案する。提案手法は,車両セグメンテーションのためのnuScenesデータセットにおいて,最先端の成果を大きなマージンで達成する。
論文参考訳（メタデータ） (2024-07-18T03:48:22Z)
An Efficient Transformer for Simultaneous Learning of BEV and Lane Representations in 3D Lane Detection [55.281369497158515]
3次元車線検出のための効率的な変圧器を提案する。バニラ変圧器と異なり、我々のモデルは車線とBEVの表現を同時に学習するクロスアテンション機構を含んでいる。本手法は,2次元および3次元の車線特徴を画像ビューとBEVの特徴にそれぞれ適用することにより,2次元および3次元車線予測を実現する。
論文参考訳（メタデータ） (2023-06-08T04:18:31Z)
Leveraging BEV Representation for 360-degree Visual Place Recognition [14.497501941931759]
本稿では,360度視覚位置認識(VPR)におけるBird's Eye View表現の利点について検討する。本稿では,特徴抽出,特徴集約,視覚-LiDAR融合におけるBEV表現を利用した新しいネットワークアーキテクチャを提案する。提案手法は,2つのデータセットのアブレーションおよび比較研究において評価される。
論文参考訳（メタデータ） (2023-05-23T08:29:42Z)
A Cross-Scale Hierarchical Transformer with Correspondence-Augmented Attention for inferring Bird's-Eye-View Semantic Segmentation [13.013635162859108]
マルチカメラビュー画像に条件付きBEVセマンティックセマンティックセマンティクスを推定することは、安価なデバイスとリアルタイム処理としてコミュニティで人気がある。セマンティックセグメンテーション推論のための対応強化された注目度を持つ新しいクロススケール階層変換器を提案する。マルチカメラビュー画像上でのBEVセマンティックセマンティックセグメンテーションの推測における最先端性能を有する。
論文参考訳（メタデータ） (2023-04-07T13:52:47Z)
Rethinking Range View Representation for LiDAR Segmentation [66.73116059734788]
「多対一」マッピング、意味的不整合、形状変形は、射程射影からの効果的な学習に対する障害となる可能性がある。 RangeFormerは、ネットワークアーキテクチャ、データ拡張、後処理を含む新しい設計を含む、フルサイクルのフレームワークである。比較対象のLiDARセマンティックスとパノプティックスセグメンテーションのベンチマークにおいて,初めてレンジビュー法が点,ボクセル,マルチビューフュージョンを越えられることを示す。
論文参考訳（メタデータ） (2023-03-09T16:13:27Z)
X-Align: Cross-Modal Cross-View Alignment for Bird's-Eye-View Segmentation [44.95630790801856]
X-Alignは、BEVセグメンテーションのための新しいエンドツーエンドのクロスモーダルおよびクロスビュー学習フレームワークである。 X-Align は nuScene 上で 3 つの絶対 mIoU 点によって最先端を著しく上回る。
論文参考訳（メタデータ） (2022-10-13T06:42:46Z)
CoBEVT: Cooperative Bird's Eye View Semantic Segmentation with Sparse Transformers [36.838065731893735]
CoBEVTは、BEVマップ予測を協調的に生成できる最初の汎用マルチエージェント認識フレームワークである。 CoBEVTは協調的BEVセマンティックセグメンテーションのための最先端性能を実現する。
論文参考訳（メタデータ） (2022-07-05T17:59:28Z)
GitNet: Geometric Prior-based Transformation for Birds-Eye-View Segmentation [105.19949897812494]
Birds-eye-view (BEV) セマンティックセマンティックセグメンテーションは自動運転に不可欠である。本稿では,GitNetという新しい2段階のGeometry Preside-based Transformationフレームワークを提案する。
論文参考訳（メタデータ） (2022-04-16T06:46:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。