Fugu-MT 論文翻訳(概要): Deep Multimodal Fusion for Semantic Segmentation of Remote Sensing Earth Observation Data

論文の概要: Deep Multimodal Fusion for Semantic Segmentation of Remote Sensing Earth Observation Data

arxiv url: http://arxiv.org/abs/2410.00469v1
Date: Tue, 1 Oct 2024 07:50:37 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-05 05:27:01.767528
Title: Deep Multimodal Fusion for Semantic Segmentation of Remote Sensing Earth Observation Data
Title（参考訳）: リモートセンシング地球観測データのセマンティックセグメンテーションのための深層マルチモーダル核融合
Authors: Ivica Dimitrovski, Vlatko Spasev, Ivan Kitanovski,
Abstract要約: 本稿では,セマンティックセグメンテーションのための後期融合深層学習モデル(LF-DLM)を提案する。 1つのブランチは、UNetFormerがキャプチャした空中画像の詳細なテクスチャと、ViT(Multi-Axis Vision Transformer)バックボーンを統合する。もう一方のブランチは、U-ViNet(U-TAE)を用いてSentinel-2衛星画像Max時系列から複雑な時間ダイナミクスをキャプチャする。
参考スコア（独自算出の注目度）: 0.08192907805418582
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Accurate semantic segmentation of remote sensing imagery is critical for various Earth observation applications, such as land cover mapping, urban planning, and environmental monitoring. However, individual data sources often present limitations for this task. Very High Resolution (VHR) aerial imagery provides rich spatial details but cannot capture temporal information about land cover changes. Conversely, Satellite Image Time Series (SITS) capture temporal dynamics, such as seasonal variations in vegetation, but with limited spatial resolution, making it difficult to distinguish fine-scale objects. This paper proposes a late fusion deep learning model (LF-DLM) for semantic segmentation that leverages the complementary strengths of both VHR aerial imagery and SITS. The proposed model consists of two independent deep learning branches. One branch integrates detailed textures from aerial imagery captured by UNetFormer with a Multi-Axis Vision Transformer (MaxViT) backbone. The other branch captures complex spatio-temporal dynamics from the Sentinel-2 satellite image time series using a U-Net with Temporal Attention Encoder (U-TAE). This approach leads to state-of-the-art results on the FLAIR dataset, a large-scale benchmark for land cover segmentation using multi-source optical imagery. The findings highlight the importance of multi-modality fusion in improving the accuracy and robustness of semantic segmentation in remote sensing applications.
Abstract（参考訳）: リモートセンシング画像の正確なセマンティックセグメンテーションは、土地被覆マッピング、都市計画、環境モニタリングなど、様々な地球観測用途に不可欠である。しかし、個々のデータソースは、しばしばこのタスクの制限を提示する。超高分解能(VHR)空中画像は、豊富な空間的詳細を提供するが、土地被覆の変化に関する時間的情報を取得することはできない。逆に、衛星画像時系列(SITS)は植生の季節変動のような時間的ダイナミクスを捉えているが、空間分解能は限られており、微細な物体を区別することは困難である。本稿では,VHR空中画像とSITSの相補的強度を利用する意味的セグメンテーションのための後期融合深層学習モデル(LF-DLM)を提案する。提案するモデルは,2つの独立したディープラーニングブランチで構成されている。 1つのブランチは、UNetFormerがキャプチャした空中画像の詳細なテクスチャと、MaxViT(Multi-Axis Vision Transformer)バックボーンを統合する。もう一方のブランチは、U-Net with Temporal Attention Encoder (U-TAE)を用いてSentinel-2衛星画像時系列からの複雑な時空間ダイナミクスをキャプチャする。このアプローチは、マルチソース光学画像を用いた土地被覆セグメンテーションのための大規模ベンチマークであるFLAIRデータセットの最先端結果をもたらす。この結果は,リモートセンシングアプリケーションにおけるセマンティックセグメンテーションの精度と堅牢性を向上させるために,マルチモーダリティ融合の重要性を強調した。

関連論文リスト

A Diffusion-Based Framework for Terrain-Aware Remote Sensing Image Reconstruction [4.824120664293887]
SatelliteMakerは、さまざまなレベルのデータ損失で失われたデータを再構成する拡散ベースの方法である。条件入力としてのDEM(Digital Elevation Model)は、リアルな画像を生成するために調整されたプロンプトを使用する。分散損失に基づくVGG-Adapterモジュール。
論文参考訳（メタデータ） (2025-04-16T14:19:57Z)
Image-Based Relocalization and Alignment for Long-Term Monitoring of Dynamic Underwater Environments [57.59857784298534]
本稿では,視覚的位置認識(VPR),特徴マッチング,画像分割を組み合わせた統合パイプラインを提案する。本手法は, 再検討領域のロバスト同定, 剛性変換の推定, 生態系変化の下流解析を可能にする。
論文参考訳（メタデータ） (2025-03-06T05:13:19Z)
EarthView: A Large Scale Remote Sensing Dataset for Self-Supervision [72.84868704100595]
本稿では,地球モニタリングタスクにおける深層学習アプリケーションを強化することを目的とした,リモートセンシングデータの自己監督を目的としたデータセットを提案する。このデータセットは15テラピクセルのグローバルリモートセンシングデータにまたがっており、NEON、Sentinel、Satellogicによる1mの空間解像度データの新たなリリースなど、さまざまなソースの画像を組み合わせている。このデータセットは、リモートセンシングデータの異なる課題に取り組むために開発されたMasked Autoencoderである。
論文参考訳（メタデータ） (2025-01-14T13:42:22Z)
STCMOT: Spatio-Temporal Cohesion Learning for UAV-Based Multiple Object Tracking [13.269416985959404]
無人航空機(UAV)ビデオにおける複数物体追跡(MOT)は、コンピュータビジョンにおける多様な用途において重要である。時空間結合型多目的追跡フレームワーク(STCMOT)を提案する。歴史的埋め込み機能を用いて,ReIDの表現と検出機能を逐次的にモデル化する。我々のフレームワークはMOTAとIDF1メトリクスで新しい最先端のパフォーマンスを設定します。
論文参考訳（メタデータ） (2024-09-17T14:34:18Z)
SatSwinMAE: Efficient Autoencoding for Multiscale Time-series Satellite Imagery [1.6180992915701702]
衛星時系列データのための時間情報を統合するために,SwinEモデルを拡張した。このアーキテクチャでは、階層的な3D Masked Autoencoder (MAE) と Video Swin Transformer ブロックを採用している。提案手法は, 既存の基盤モデルに対して, 評価された下流タスクすべてに対して, 大幅な性能向上を図っている。
論文参考訳（メタデータ） (2024-05-03T22:55:56Z)
Multi-view Aggregation Network for Dichotomous Image Segmentation [76.75904424539543]
Dichotomous Image (DIS) は近年,高解像度自然画像からの高精度物体分割に向けて出現している。既存の手法は、グローバルなローカライゼーションと局所的な洗練を徐々に完了させるために、退屈な複数のエンコーダ・デコーダストリームとステージに依存している。これに触発されて、我々は多視点オブジェクト認識問題としてdisをモデル化し、擬似多視点アグリゲーションネットワーク(MVANet)を提供する。一般的なdis-5Kデータセットの実験では、我々のMVANetは精度と速度の両方で最先端の手法を大きく上回っている。
論文参考訳（メタデータ） (2024-04-11T03:00:00Z)
SatSynth: Augmenting Image-Mask Pairs through Diffusion Models for Aerial Semantic Segmentation [69.42764583465508]
我々は,地球観測における注釈付きデータの不足に対処するために,生成的画像拡散の可能性を探る。我々の知る限りでは、衛星セグメンテーションのための画像と対応するマスクの両方を最初に生成する。
論文参考訳（メタデータ） (2024-03-25T10:30:22Z)
FLAIR #2: textural and temporal information for semantic segmentation from multi-source optical imagery [0.0]
このデータセットには、土地被覆のマッピングを目的としたセマンティックセグメンテーションタスクに利用される、2つの非常に異なるタイプのデータが含まれている。データ融合ワークフローは、超高空間分解能(VHR)単時間時空間画像の微細空間情報とテクスチャ情報と、コペルニクス・センチネル2衛星画像の高空間分解能(HR)時系列の時間的およびスペクトル的富化の活用を提案する。
論文参考訳（メタデータ） (2023-05-23T18:47:19Z)
Local-Global Temporal Difference Learning for Satellite Video Super-Resolution [55.69322525367221]
本稿では,時間的差分を効果的かつ効果的な時間的補償に利用することを提案する。フレーム内における局所的・大域的時間的情報を完全に活用するために,短期・長期的時間的相違を体系的にモデル化した。 5つの主流ビデオ衛星に対して行われた厳密な客観的および主観的評価は、我々の手法が最先端のアプローチに対して好適に機能することを実証している。
論文参考訳（メタデータ） (2023-04-10T07:04:40Z)
SatMAE: Pre-training Transformers for Temporal and Multi-Spectral Satellite Imagery [74.82821342249039]
Masked Autoencoder(MAE)に基づく時間・マルチスペクトル衛星画像の事前学習フレームワークであるSatMAEについて述べる。時間的情報を活用するために、時間にわたって画像パッチを個別にマスキングする時間的埋め込みを含む。
論文参考訳（メタデータ） (2022-07-17T01:35:29Z)
Transformer Meets Convolution: A Bilateral Awareness Net-work for Semantic Segmentation of Very Fine Resolution Ur-ban Scene Images [6.460167724233707]
本稿では,依存経路とテクスチャパスを含む相互認知ネットワーク(BANet)を提案する。 BANetは、VFR画像の長距離関係と細かな詳細をキャプチャする。 3つの大規模都市景観画像セグメンテーションデータセット(ISPRS Vaihingen データセット、ISPRS Potsdam データセット、UAVid データセット)で実施された実験は、BANetの有効性を実証している。
論文参考訳（メタデータ） (2021-06-23T13:57:36Z)
DS-Net: Dynamic Spatiotemporal Network for Video Salient Object Detection [78.04869214450963]
時間情報と空間情報のより効果的な融合のための新しい動的時空間ネットワーク(DSNet)を提案する。提案手法は最先端アルゴリズムよりも優れた性能が得られることを示す。
論文参考訳（メタデータ） (2020-12-09T06:42:30Z)
Dense Attention Fluid Network for Salient Object Detection in Optical Remote Sensing Images [193.77450545067967]
光リモートセンシング画像(RSI)における有意物体検出のためのエンド・ツー・エンドDense Attention Fluid Network(DAFNet)を提案する。 GCA(Global Context-Aware Attention)モジュールは、長距離の意味的関係を適応的にキャプチャするために提案される。我々は、2000枚の画像とピクセルワイドなサリエンシアノテーションを含むSODのための新しい、挑戦的な光学RSIデータセットを構築した。
論文参考訳（メタデータ） (2020-11-26T06:14:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。