論文の概要: SG-BEV: Satellite-Guided BEV Fusion for Cross-View Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2404.02638v1
- Date: Wed, 3 Apr 2024 10:57:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 17:40:49.838623
- Title: SG-BEV: Satellite-Guided BEV Fusion for Cross-View Semantic Segmentation
- Title(参考訳): SG-BEV:衛星誘導型BEVフュージョンによるセマンティックセマンティックセグメンテーション
- Authors: Junyan Ye, Qiyan Luo, Jinhua Yu, Huaping Zhong, Zhimeng Zheng, Conghui He, Weijia Li,
- Abstract要約: 本稿では,衛星誘導型BEV融合によるクロスビューセマンティックセマンティックセグメンテーションのための新しいアプローチであるSG-BEVを紹介する。
本手法は,現状の衛星ベースおよびクロスビュー法と比較して,mIOUの10.13%,5.21%の増加を実現している。
- 参考スコア(独自算出の注目度): 12.692812966686066
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper aims at achieving fine-grained building attribute segmentation in a cross-view scenario, i.e., using satellite and street-view image pairs. The main challenge lies in overcoming the significant perspective differences between street views and satellite views. In this work, we introduce SG-BEV, a novel approach for satellite-guided BEV fusion for cross-view semantic segmentation. To overcome the limitations of existing cross-view projection methods in capturing the complete building facade features, we innovatively incorporate Bird's Eye View (BEV) method to establish a spatially explicit mapping of street-view features. Moreover, we fully leverage the advantages of multiple perspectives by introducing a novel satellite-guided reprojection module, optimizing the uneven feature distribution issues associated with traditional BEV methods. Our method demonstrates significant improvements on four cross-view datasets collected from multiple cities, including New York, San Francisco, and Boston. On average across these datasets, our method achieves an increase in mIOU by 10.13% and 5.21% compared with the state-of-the-art satellite-based and cross-view methods. The code and datasets of this work will be released at https://github.com/yejy53/SG-BEV.
- Abstract(参考訳): 本稿では,衛星画像とストリートビュー画像のペアを用いたクロスビューシナリオにおいて,きめ細かい建物属性のセグメンテーションを実現することを目的とする。
主な課題は、ストリートビューと衛星ビューの間の重要な視点の違いを克服することである。
本研究では,衛星誘導型BEV融合によるクロスビューセマンティックセマンティックセグメンテーションのための新しいアプローチであるSG-BEVを紹介する。
建築ファサードの特徴を捉えた既存のクロスビュー投影手法の限界を克服するため,バードアイビュー(BEV)手法を革新的に取り入れ,空間的に明示的なストリートビュー特徴のマッピングを確立する。
さらに,衛星誘導リジェクションモジュールを導入し,従来のBEV手法に係わる不均一な特徴分布問題を最適化することで,複数の視点の利点を十分に活用する。
提案手法は,ニューヨーク,サンフランシスコ,ボストンなど,複数の都市から収集した4つのクロスビューデータセットに対して,大幅な改善を示す。
これらのデータセットを平均して、我々の手法は、最先端の衛星ベースおよびクロスビュー手法と比較して、mIOUの10.13%、および5.21%の増加を達成する。
この作業のコードとデータセットはhttps://github.com/yejy53/SG-BEVで公開される。
関連論文リスト
- VQ-Map: Bird's-Eye-View Map Layout Estimation in Tokenized Discrete Space via Vector Quantization [108.68014173017583]
Bird's-eye-view (BEV) マップのレイアウト推定には、エゴ車の周囲の環境要素のセマンティクスを正確に完全に理解する必要がある。
本稿では,Vector Quantized-Variational AutoEncoder (VQ-VAE) に似た生成モデルを用いて,トークン化された離散空間における高レベルのBEVセマンティクスの事前知識を取得することを提案する。
得られたBEVトークンには,異なるBEV要素のセマンティクスを包含したコードブックが組み込まれているため,スパースバックボーン画像特徴と得られたBEVトークンとを直接一致させることができる。
論文 参考訳(メタデータ) (2024-11-03T16:09:47Z) - CrossViewDiff: A Cross-View Diffusion Model for Satellite-to-Street View Synthesis [54.852701978617056]
CrossViewDiffは、衛星間ビュー合成のためのクロスビュー拡散モデルである。
ビュー間の大きな相違による課題に対処するため、衛星シーン構造推定とクロスプラットフォームテクスチャマッピングモジュールを設計する。
合成結果のより包括的な評価を実現するため,GPTに基づくスコアリング手法を設計する。
論文 参考訳(メタデータ) (2024-08-27T03:41:44Z) - Cross-view image geo-localization with Panorama-BEV Co-Retrieval Network [12.692812966686066]
クロスビュージオローカライゼーションは、地理参照衛星データベースとマッチングすることで、ストリートビュー画像の地理的位置を識別する。
そこで我々は,パノラマBEVコレトリヴァルネットワーク(Panorama-BEV Co-Retrieval Network)という,クロスビュー画像のジオローカライズのための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2024-08-10T08:03:58Z) - SkyDiffusion: Street-to-Satellite Image Synthesis with Diffusion Models and BEV Paradigm [12.818880200888504]
本研究では,ストリートビュー画像から衛星画像を合成する新しいクロスビュー生成手法であるSkyDiffusionを紹介する。
SkyDiffusionは郊外(CVUSAとCVACT)と都市横断的なデータセットの両方において最先端の手法より優れていることを示す。
論文 参考訳(メタデータ) (2024-08-03T15:43:56Z) - Learning Dense Flow Field for Highly-accurate Cross-view Camera
Localization [15.89357790711828]
本稿では,衛星画像に対する地上画像に対する3DFカメラのポーズ推定の問題に対処する。
地上画像と衛星画像のペアにおいて,高密度な画素単位の流れ場を学習する手法を提案する。
提案手法は,KITTI,Ford multi-AV,VIGOR,Oxford RobotCarデータセットにおいて,中央値のローカライゼーション誤差を89%,19%,80%,35%削減する。
論文 参考訳(メタデータ) (2023-09-27T10:26:26Z) - FB-BEV: BEV Representation from Forward-Backward View Transformations [131.11787050205697]
本稿では,Bird-Eye-View (BEV) 表現のためのビュートランスフォーメーションモジュール (VTM) を提案する。
我々は提案したモジュールをFB-BEVでインスタンス化し、nuScenesテストセット上で62.4%のNDSの最先端結果を達成する。
論文 参考訳(メタデータ) (2023-08-04T10:26:55Z) - SkyEye: Self-Supervised Bird's-Eye-View Semantic Mapping Using Monocular
Frontal View Images [26.34702432184092]
本研究では,前景からの単一単眼画像を用いた鳥眼図(BEV)意味マップ作成のための,最初の自己教師型アプローチを提案する。
トレーニングでは、ビデオシーケンスのより容易に利用できるFVセマンティックアノテーションを活用することで、BEVの基底真理アノテーションの必要性を克服する。
提案手法は最先端の完全教師付き手法と同等に動作し,BEVにおける直接監督の1%のみを用いて競争結果を得る。
論文 参考訳(メタデータ) (2023-02-08T18:02:09Z) - Street-View Image Generation from a Bird's-Eye View Layout [95.36869800896335]
近年,Bird's-Eye View (BEV) の知覚が注目されている。
自動運転のためのデータ駆動シミュレーションは、最近の研究の焦点となっている。
本稿では,現実的かつ空間的に一貫した周辺画像を合成する条件生成モデルであるBEVGenを提案する。
論文 参考訳(メタデータ) (2023-01-11T18:39:34Z) - Monocular BEV Perception of Road Scenes via Front-to-Top View Projection [57.19891435386843]
本稿では,鳥の目視で道路配置と車両占有率によって形成された局所地図を再構築する新しい枠組みを提案する。
我々のモデルは1つのGPU上で25FPSで動作し、リアルタイムパノラマHDマップの再構築に有効である。
論文 参考訳(メタデータ) (2022-11-15T13:52:41Z) - GitNet: Geometric Prior-based Transformation for Birds-Eye-View
Segmentation [105.19949897812494]
Birds-eye-view (BEV) セマンティックセマンティックセグメンテーションは自動運転に不可欠である。
本稿では,GitNetという新しい2段階のGeometry Preside-based Transformationフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-16T06:46:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。