論文の概要: A Semantic Segmentation-guided Approach for Ground-to-Aerial Image Matching
- arxiv url: http://arxiv.org/abs/2404.11302v2
- Date: Thu, 23 May 2024 11:30:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-25 05:40:24.888184
- Title: A Semantic Segmentation-guided Approach for Ground-to-Aerial Image Matching
- Title(参考訳): 地対空画像マッチングのためのセマンティックセグメンテーション誘導手法
- Authors: Francesco Pro, Nikolaos Dionelis, Luca Maiano, Bertrand Le Saux, Irene Amerini,
- Abstract要約: 本研究は,GPSデータを使わずに,問合せ地上画像と対応する衛星画像とをマッチングする問題に対処する。
これは地上画像と衛星画像の特徴を比較することで行われ、3ストリームのシームズ様のネットワークを通じて、対応する衛星のセグメンテーションマスクを革新的に活用する。
この新しさは、衛星画像とセマンティックセグメンテーションマスクの融合にあり、モデルが有用な特徴を抽出し、画像の重要な部分に集中できるようにすることを目的としている。
- 参考スコア(独自算出の注目度): 30.324252605889356
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Nowadays the accurate geo-localization of ground-view images has an important role across domains as diverse as journalism, forensics analysis, transports, and Earth Observation. This work addresses the problem of matching a query ground-view image with the corresponding satellite image without GPS data. This is done by comparing the features from a ground-view image and a satellite one, innovatively leveraging the corresponding latter's segmentation mask through a three-stream Siamese-like network. The proposed method, Semantic Align Net (SAN), focuses on limited Field-of-View (FoV) and ground panorama images (images with a FoV of 360{\deg}). The novelty lies in the fusion of satellite images in combination with their semantic segmentation masks, aimed at ensuring that the model can extract useful features and focus on the significant parts of the images. This work shows how SAN through semantic analysis of images improves the performance on the unlabelled CVUSA dataset for all the tested FoVs.
- Abstract(参考訳): 現在、地上画像の正確な地理的局在化は、ジャーナリズム、法科学分析、輸送、地球観測といった分野において重要な役割を担っている。
本研究は,GPSデータを使わずに,問合せ地上画像と対応する衛星画像とをマッチングする問題に対処する。
これは地上画像と衛星画像の特徴を比較することで行われ、3ストリームのシームズ様のネットワークを通じて、対応する衛星のセグメンテーションマスクを革新的に活用する。
提案手法であるSemantic Align Net (SAN)は,FoV(FoV)と地上パノラマ画像(FoV of 360{\deg})に焦点をあてる。
この斬新さは、衛星画像とセマンティックセグメンテーションマスクを融合させ、モデルが有用な特徴を抽出し、画像の重要な部分に集中できるようにすることを目的としている。
この研究は、画像のセマンティック解析を通してSANが、テストされた全FoVに対する未ラベルCVUSAデータセットのパフォーマンスを改善する方法を示す。
関連論文リスト
- SatSynth: Augmenting Image-Mask Pairs through Diffusion Models for Aerial Semantic Segmentation [69.42764583465508]
我々は,地球観測における注釈付きデータの不足に対処するために,生成的画像拡散の可能性を探る。
我々の知る限りでは、衛星セグメンテーションのための画像と対応するマスクの両方を最初に生成する。
論文 参考訳(メタデータ) (2024-03-25T10:30:22Z) - MetaSegNet: Metadata-collaborative Vision-Language Representation Learning for Semantic Segmentation of Remote Sensing Images [7.0622873873577054]
リモートセンシング画像のセグメンテーションのための新しいメタデータ協調セグメンテーションネットワーク(MetaSegNet)を提案する。
一元的視覚データのみを使用する一般的なモデル構造とは異なり、我々は自由に利用可能なリモートセンシング画像メタデータから重要な特徴を抽出する。
画像エンコーダ,テキストエンコーダ,およびクロスモーダルアテンション融合サブネットワークを構築し,画像とテキストの特徴を抽出する。
論文 参考訳(メタデータ) (2023-12-20T03:16:34Z) - CLiSA: A Hierarchical Hybrid Transformer Model using Orthogonal Cross
Attention for Satellite Image Cloud Segmentation [5.178465447325005]
ディープラーニングアルゴリズムは画像セグメンテーション問題を解決するための有望なアプローチとして登場してきた。
本稿では,Lipschitz Stable Attention NetworkによるCLiSA - Cloudセグメンテーションという,効果的なクラウドマスク生成のためのディープラーニングモデルを提案する。
Landsat-8, Sentinel-2, Cartosat-2sを含む複数の衛星画像データセットの質的および定量的な結果を示す。
論文 参考訳(メタデータ) (2023-11-29T09:31:31Z) - Advancing Visual Grounding with Scene Knowledge: Benchmark and Method [74.72663425217522]
ビジュアルグラウンドディング(VG)は、視覚と言語の間にきめ細かいアライメントを確立することを目的としている。
既存のVGデータセットの多くは、単純な記述テキストを使って構築されている。
我々は、アンダーラインScene underline-guided underlineVisual underlineGroundingの新たなベンチマークを提案する。
論文 参考訳(メタデータ) (2023-07-21T13:06:02Z) - DCN-T: Dual Context Network with Transformer for Hyperspectral Image
Classification [109.09061514799413]
複雑な撮像条件による空間変動のため,HSI分類は困難である。
本稿では,HSIを高品質な三スペクトル画像に変換する三スペクトル画像生成パイプラインを提案する。
提案手法は,HSI分類における最先端手法よりも優れている。
論文 参考訳(メタデータ) (2023-04-19T18:32:52Z) - High-Quality Entity Segmentation [110.55724145851725]
CropFormerは高解像度画像におけるインスタンスレベルのセグメンテーションの難易度に対処するために設計されている。
よりきめ細かい画像とフルイメージを提供する高解像度の画像作物を融合することで、マスク予測を改善する。
CropFormerでは、難易度の高いエンティティセグメンテーションタスクで1.9ドルという大きなAP利益を達成しています。
論文 参考訳(メタデータ) (2022-11-10T18:58:22Z) - CVLNet: Cross-View Semantic Correspondence Learning for Video-based
Camera Localization [89.69214577915959]
本稿では,クロスビューカメラのローカライゼーション問題に対処する。
本稿では、類似性マッチングの前に、問合せカメラの衛星画像に対する相対変位を推定する。
実験は、単一の画像に基づく位置決めよりもビデオベースの位置決めの有効性を実証した。
論文 参考訳(メタデータ) (2022-08-07T07:35:17Z) - Geo-Localization via Ground-to-Satellite Cross-View Image Retrieval [25.93015219830576]
ランドマークの地平面画像から,衛星視画像の検索により地理空間のクロスビュー化を図っている。
我々は、地上視と衛星視の橋渡しとして、ドローン視情報を利用する。
論文 参考訳(メタデータ) (2022-05-22T17:35:13Z) - Geometry-Guided Street-View Panorama Synthesis from Satellite Imagery [80.6282101835164]
オーバヘッド衛星画像から新しいストリートビューパノラマを合成するための新しいアプローチを提案する。
本手法は,googleの全方位ストリートビュー型パノラマを,衛星パッチの中央と同じ地理的位置から取得したかのように生成する。
論文 参考訳(メタデータ) (2021-03-02T10:27:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。