論文の概要: SG-BEV: Satellite-Guided BEV Fusion for Cross-View Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2404.02638v1
- Date: Wed, 3 Apr 2024 10:57:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 17:40:49.838623
- Title: SG-BEV: Satellite-Guided BEV Fusion for Cross-View Semantic Segmentation
- Title(参考訳): SG-BEV:衛星誘導型BEVフュージョンによるセマンティックセマンティックセグメンテーション
- Authors: Junyan Ye, Qiyan Luo, Jinhua Yu, Huaping Zhong, Zhimeng Zheng, Conghui He, Weijia Li,
- Abstract要約: 本稿では,衛星誘導型BEV融合によるクロスビューセマンティックセマンティックセグメンテーションのための新しいアプローチであるSG-BEVを紹介する。
本手法は,現状の衛星ベースおよびクロスビュー法と比較して,mIOUの10.13%,5.21%の増加を実現している。
- 参考スコア(独自算出の注目度): 12.692812966686066
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper aims at achieving fine-grained building attribute segmentation in a cross-view scenario, i.e., using satellite and street-view image pairs. The main challenge lies in overcoming the significant perspective differences between street views and satellite views. In this work, we introduce SG-BEV, a novel approach for satellite-guided BEV fusion for cross-view semantic segmentation. To overcome the limitations of existing cross-view projection methods in capturing the complete building facade features, we innovatively incorporate Bird's Eye View (BEV) method to establish a spatially explicit mapping of street-view features. Moreover, we fully leverage the advantages of multiple perspectives by introducing a novel satellite-guided reprojection module, optimizing the uneven feature distribution issues associated with traditional BEV methods. Our method demonstrates significant improvements on four cross-view datasets collected from multiple cities, including New York, San Francisco, and Boston. On average across these datasets, our method achieves an increase in mIOU by 10.13% and 5.21% compared with the state-of-the-art satellite-based and cross-view methods. The code and datasets of this work will be released at https://github.com/yejy53/SG-BEV.
- Abstract(参考訳): 本稿では,衛星画像とストリートビュー画像のペアを用いたクロスビューシナリオにおいて,きめ細かい建物属性のセグメンテーションを実現することを目的とする。
主な課題は、ストリートビューと衛星ビューの間の重要な視点の違いを克服することである。
本研究では,衛星誘導型BEV融合によるクロスビューセマンティックセマンティックセグメンテーションのための新しいアプローチであるSG-BEVを紹介する。
建築ファサードの特徴を捉えた既存のクロスビュー投影手法の限界を克服するため,バードアイビュー(BEV)手法を革新的に取り入れ,空間的に明示的なストリートビュー特徴のマッピングを確立する。
さらに,衛星誘導リジェクションモジュールを導入し,従来のBEV手法に係わる不均一な特徴分布問題を最適化することで,複数の視点の利点を十分に活用する。
提案手法は,ニューヨーク,サンフランシスコ,ボストンなど,複数の都市から収集した4つのクロスビューデータセットに対して,大幅な改善を示す。
これらのデータセットを平均して、我々の手法は、最先端の衛星ベースおよびクロスビュー手法と比較して、mIOUの10.13%、および5.21%の増加を達成する。
この作業のコードとデータセットはhttps://github.com/yejy53/SG-BEVで公開される。
関連論文リスト
- Learning Dense Flow Field for Highly-accurate Cross-view Camera
Localization [15.89357790711828]
本稿では,衛星画像に対する地上画像に対する3DFカメラのポーズ推定の問題に対処する。
地上画像と衛星画像のペアにおいて,高密度な画素単位の流れ場を学習する手法を提案する。
提案手法は,KITTI,Ford multi-AV,VIGOR,Oxford RobotCarデータセットにおいて,中央値のローカライゼーション誤差を89%,19%,80%,35%削減する。
論文 参考訳(メタデータ) (2023-09-27T10:26:26Z) - Bird's-Eye-View Scene Graph for Vision-Language Navigation [85.72725920024578]
視覚言語ナビゲーション(VLN)は、人間の指示に従って3D環境をナビゲートするエージェントである。
室内環境のシーンレイアウトと幾何学的手がかりを符号化するために,多段階のBEV表現を利用するBEVシーングラフ(BSG)を提案する。
BSGに基づいて、エージェントは、ローカルなBEVグリッドレベル決定スコアとグローバルなグラフレベル決定スコアを予測し、パノラマビューのサブビュー選択スコアと組み合わせる。
論文 参考訳(メタデータ) (2023-08-09T07:48:20Z) - FB-BEV: BEV Representation from Forward-Backward View Transformations [131.11787050205697]
本稿では,Bird-Eye-View (BEV) 表現のためのビュートランスフォーメーションモジュール (VTM) を提案する。
我々は提案したモジュールをFB-BEVでインスタンス化し、nuScenesテストセット上で62.4%のNDSの最先端結果を達成する。
論文 参考訳(メタデータ) (2023-08-04T10:26:55Z) - CROVIA: Seeing Drone Scenes from Car Perspective via Cross-View
Adaptation [20.476683921252867]
道路車両の視界から得られた知識をUAVの視界に適応させる新しいCROVIA(Cross-View Adaptation)アプローチを提案する。
まず、ビュー間の幾何学的相関に基づいて、クロスビュー適応に対する新しい幾何学的制約を導入する。
第2に、画像空間からのクロスビュー相関を、ペアオンロードとUAVのビューデータを必要としないセグメンテーション空間に効果的に転送する。
論文 参考訳(メタデータ) (2023-04-14T15:20:40Z) - Rethinking Range View Representation for LiDAR Segmentation [66.73116059734788]
「多対一」マッピング、意味的不整合、形状変形は、射程射影からの効果的な学習に対する障害となる可能性がある。
RangeFormerは、ネットワークアーキテクチャ、データ拡張、後処理を含む新しい設計を含む、フルサイクルのフレームワークである。
比較対象のLiDARセマンティックスとパノプティックスセグメンテーションのベンチマークにおいて,初めてレンジビュー法が点,ボクセル,マルチビューフュージョンを越えられることを示す。
論文 参考訳(メタデータ) (2023-03-09T16:13:27Z) - SkyEye: Self-Supervised Bird's-Eye-View Semantic Mapping Using Monocular
Frontal View Images [26.34702432184092]
本研究では,前景からの単一単眼画像を用いた鳥眼図(BEV)意味マップ作成のための,最初の自己教師型アプローチを提案する。
トレーニングでは、ビデオシーケンスのより容易に利用できるFVセマンティックアノテーションを活用することで、BEVの基底真理アノテーションの必要性を克服する。
提案手法は最先端の完全教師付き手法と同等に動作し,BEVにおける直接監督の1%のみを用いて競争結果を得る。
論文 参考訳(メタデータ) (2023-02-08T18:02:09Z) - Street-View Image Generation from a Bird's-Eye View Layout [95.36869800896335]
近年,Bird's-Eye View (BEV) の知覚が注目されている。
自動運転のためのデータ駆動シミュレーションは、最近の研究の焦点となっている。
本稿では,現実的かつ空間的に一貫した周辺画像を合成する条件生成モデルであるBEVGenを提案する。
論文 参考訳(メタデータ) (2023-01-11T18:39:34Z) - Monocular BEV Perception of Road Scenes via Front-to-Top View Projection [57.19891435386843]
本稿では,鳥の目視で道路配置と車両占有率によって形成された局所地図を再構築する新しい枠組みを提案する。
我々のモデルは1つのGPU上で25FPSで動作し、リアルタイムパノラマHDマップの再構築に有効である。
論文 参考訳(メタデータ) (2022-11-15T13:52:41Z) - GitNet: Geometric Prior-based Transformation for Birds-Eye-View
Segmentation [105.19949897812494]
Birds-eye-view (BEV) セマンティックセマンティックセグメンテーションは自動運転に不可欠である。
本稿では,GitNetという新しい2段階のGeometry Preside-based Transformationフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-16T06:46:45Z) - Bird's-Eye-View Panoptic Segmentation Using Monocular Frontal View
Images [4.449481309681663]
本研究では,Bird's-Eye-View (BEV) マップにおいて,高密度パノプティックセグメンテーションマップを直接予測するエンド・ツー・エンドの学習手法を提案する。
私たちのアーキテクチャはトップダウンパラダイムに従っており、新しい高密度トランスモジュールを組み込んでいます。
我々は、FV-BEV変換の感度を数学的に定式化し、BEV空間のピクセルをインテリジェントに重み付けすることができる。
論文 参考訳(メタデータ) (2021-08-06T17:59:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。