論文の概要: Assessing the value of Geo-Foundational Models for Flood Inundation Mapping: Benchmarking models for Sentinel-1, Sentinel-2, and Planetscope for end-users
- arxiv url: http://arxiv.org/abs/2511.01990v2
- Date: Thu, 06 Nov 2025 02:22:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-07 13:46:06.489859
- Title: Assessing the value of Geo-Foundational Models for Flood Inundation Mapping: Benchmarking models for Sentinel-1, Sentinel-2, and Planetscope for end-users
- Title(参考訳): フラッドインダクションマッピングのためのジオファンデーションモデルの価値評価:エンドユーザー向けSentinel-1,Sentinel-2,Planetscopeのベンチマークモデル
- Authors: Saurabh Kaushik, Lalit Maurya, Elizabeth Tellman, ZhiJie Zhang,
- Abstract要約: Foundationsal Models (GFMs) は、衛星画像から高速かつ信頼性の高い情報抽出を可能にする。
これらの可能性にもかかわらず、GFMがU-Netのような従来のモデルより優れているかどうかは不明だ。
我々はTransNorm, U-Net, Attention U-Netに対して, Prithvi 2.0, Clay V1.5, DOFA, UViTの3つのGFMを評価した。
- 参考スコア(独自算出の注目度): 1.3877194435621216
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Geo-Foundational Models (GFMs) enable fast and reliable extraction of spatiotemporal information from satellite imagery, improving flood inundation mapping by leveraging location and time embeddings. Despite their potential, it remains unclear whether GFMs outperform traditional models like U-Net. A systematic comparison across sensors and data availability scenarios is still lacking, which is an essential step to guide end-users in model selection. To address this, we evaluate three GFMs, Prithvi 2.0, Clay V1.5, DOFA, and UViT (a Prithvi variant), against TransNorm, U-Net, and Attention U-Net using PlanetScope, Sentinel-1, and Sentinel-2. We observe competitive performance among all GFMs, with only 2-5% variation between the best and worst models across sensors. Clay outperforms others on PlanetScope (0.79 mIoU) and Sentinel-2 (0.70), while Prithvi leads on Sentinel-1 (0.57). In leave-one-region-out cross-validation across five regions, Clay shows slightly better performance across all sensors (mIoU: 0.72(0.04), 0.66(0.07), 0.51(0.08)) compared to Prithvi (0.70(0.05), 0.64(0.09), 0.49(0.13)) and DOFA (0.67(0.07), 0.64(0.04), 0.49(0.09)) for PlanetScope, Sentinel-2, and Sentinel-1, respectively. Across all 19 sites, leave-one-region-out cross-validation reveals a 4% improvement by Clay compared to U-Net. Visual inspection highlights Clay's superior ability to retain fine details. Few-shot experiments show Clay achieves 0.64 mIoU on PlanetScope with just five training images, outperforming Prithvi (0.24) and DOFA (0.35). In terms of computational time, Clay is a better choice due to its smaller model size (26M parameters), making it ~3x faster than Prithvi (650M) and 2x faster than DOFA (410M). Contrary to previous findings, our results suggest GFMs offer small to moderate improvements in flood mapping accuracy at lower computational cost and labeling effort compared to traditional U-Net.
- Abstract(参考訳): GFM(Geo-Foundational Models)は、衛星画像からの時空間情報の高速かつ信頼性の高い抽出を可能にし、位置と時間埋め込みを活用して浸水マッピングを改善する。
これらの可能性にもかかわらず、GFMがU-Netのような従来のモデルより優れているかどうかは不明だ。
センサとデータ可用性シナリオの体系的な比較はまだ不十分であり、モデル選択においてエンドユーザーを導くための重要なステップである。
そこで我々は,PlanetScope,Sentinel-1,Sentinel-2を用いたTransNorm,U-Net,Atention U-Netに対して,Prithvi 2.0,Clay V1.5,DOFA,UViTの3つのGFMを評価した。
センサ間の最良のモデルと最悪のモデルの間には,わずか2-5%のばらつきしかなかった。
クレイはPlanetScope (0.79 mIoU) とSentinel-2 (0.70) で他より優れており、PrithviはSentinel-1 (0.57) をリードしている。
5つの領域にわたる領域外クロスバリデーションでは、PlanetScope、Sentinel-2、Sentinel-1のPrithvi (0.70(0.05), 0.64(0.09), 0.49(0.13))およびDOFA (0.67(0.07), 0.64(0.04), 0.49(0.09))と比較して、すべてのセンサ(mIoU: 0.72(0.04), 0.66(0.07), 0.51(0.08)))で若干性能が向上した。
すべての19のサイトにおいて、Leave-one-rea-outクロスバリデーションは、U-Netと比較して、Clayによって4%改善されている。
視覚検査は、クレイの細部を詳細に保持する優れた能力を強調している。
クレイはPlanetScopeで0.64 mIoUを達成し、Prithvi (0.24) とDOFA (0.35) を上回った。
計算時間に関して、クレイはモデルのサイズが小さい(26Mパラメータ)ため、プリスヴィ(650M)より3倍、DOFA(410M)より2倍高速である。
その結果, 従来のU-Netと比較して, フラッドマッピングの精度は小さく, 適度に向上し, 計算コストが低く, ラベル付けの労力も小さいことが示唆された。
関連論文リスト
- Habitat and Land Cover Change Detection in Alpine Protected Areas: A Comparison of AI Architectures [0.0]
オーストリア・ゲザエウス国立公園の長期アルプス生息地データを用いて, 変化検出に深層学習を適用した。
Clay v1.0はU-Netの41%のマルチクラスの生息地変更に対して51%の全体的な精度を達成するが、どちらもバイナリの変更検出では67%に達する。
論文 参考訳(メタデータ) (2025-10-29T12:32:28Z) - Cross-View UAV Geo-Localization with Precision-Focused Efficient Design: A Hierarchical Distillation Approach with Multi-view Refinement [47.16612614191333]
クロスビュージオローカライゼーション(CVGL)により、航空画像とジオタグ付き衛星データベースとのマッチングによるUAVローカライゼーションが可能となる。
既存の方法は、リソース集約的なきめ細かい特徴抽出とアライメントに依存している。
階層的な知識伝達と多視点表現の洗練を組み合わせた資源効率の高いフレームワークであるPFED(Precision-Focused Efficient Design)を提案する。
論文 参考訳(メタデータ) (2025-10-26T08:47:20Z) - Toward Onboard AI-Enabled Solutions to Space Object Detection for Space Sustainability [29.817805350971366]
本稿では,空間物体検出のための視覚センサの実現可能性と有効性について検討する。
Squeeze-and-Excitation (SE) 層, Vision Transformer (ViT) および Generalized Efficient Layer Aggregation Network (GELAN) に基づくモデルを導入する。
実験の結果, 提案モデルでは, 結合閾値0.5(mAP50)の交点平均精度が0.751, 結合閾値0.5から0.95(mAP50:95)の交点平均精度が0.280に達することがわかった。
論文 参考訳(メタデータ) (2025-05-03T01:56:52Z) - Time Frequency Analysis of EMG Signal for Gesture Recognition using Fine grained Features [3.9440964696313485]
本稿では,細粒度分類を用いた手動作認識のための新しい手法を提案する。
XMANetは、浅層から深層CNNの専門家の間での相互注意を通じて、低レベルの局所的および高レベルのセマンティックキューを統一する。
論文 参考訳(メタデータ) (2025-04-20T18:51:10Z) - STRMs: Spatial Temporal Reasoning Models for Vision-Based Localization Rivaling GPS Precision [3.671692919685993]
VAE-RNNとVAE-Transformerという2つの逐次生成モデルを導入し,一対一の視点観察をグローバルマップの視点表現に変換する。
我々は、ジャカルロボットによってナビゲートされた大学キャンパスと、Teslaセダンによってナビゲートされた都市中心街の2つの現実世界環境において、これらのモデルを評価した。
論文 参考訳(メタデータ) (2025-03-11T00:38:54Z) - Automating global landslide detection with heterogeneous ensemble
deep-learning classification [44.99833362998488]
地すべりは道路、鉄道、建物、人間の生活などのインフラを脅かす。
危険に基づく空間計画と早期警戒システムは、地すべりから社会へのリスクを減らすための費用対効果の戦略である。
近年,中~高解像度の衛星画像を入力として,深層学習モデルを陸地マッピングに適用している。
論文 参考訳(メタデータ) (2023-09-12T10:56:16Z) - Patch-Level Contrasting without Patch Correspondence for Accurate and
Dense Contrastive Representation Learning [79.43940012723539]
ADCLRは、正確で高密度な視覚表現を学習するための自己教師型学習フレームワークである。
提案手法は, コントラッシブな手法のための新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2023-06-23T07:38:09Z) - Vision Transformers, a new approach for high-resolution and large-scale
mapping of canopy heights [50.52704854147297]
分類(離散化)と連続損失関数を最適化した新しい視覚変換器(ViT)モデルを提案する。
このモデルは、従来使用されていた畳み込みベースのアプローチ(ConvNet)よりも、連続損失関数のみで最適化された精度が向上する。
論文 参考訳(メタデータ) (2023-04-22T22:39:03Z) - ERNIE-SPARSE: Learning Hierarchical Efficient Transformer Through
Regularized Self-Attention [48.697458429460184]
情報ボトルネック感度と異なる注目トポロジ間の不整合の2つの要因がスパース変換器の性能に影響を及ぼす可能性がある。
本稿では,ERNIE-Sparseというモデルを提案する。
i) 局所情報とグローバル情報を逐次統一する階層スパース変換器(HST) と、(ii) 注意トポロジの異なる変換器の距離を最小化する自己注意正規化(SAR) の2つの特徴がある。
論文 参考訳(メタデータ) (2022-03-23T08:47:01Z) - Continental-scale land cover mapping at 10 m resolution over Europe
(ELC10) [0.0]
衛星駆動機械学習のワークフローに基づいて,欧州の高解像度(10m)土地被覆地図(elc10)を提案する。
ランダムフォレスト分類モデルはLUCASデータセットから70K地点で訓練された。
この地図は8つの土地被覆クラスで90%の正確さを達成し、3.9%以内に統計単位の土地被覆率を計算できた。
論文 参考訳(メタデータ) (2021-04-22T08:24:15Z) - Neural Network Virtual Sensors for Fuel Injection Quantities with
Provable Performance Specifications [71.1911136637719]
証明可能な保証が、他の現実世界の設定にどのように自然に適用できるかを示す。
本研究では, 燃料噴射量を一定範囲で最大化するために, 特定の間隔の燃料噴射量を目標にする方法を示す。
論文 参考訳(メタデータ) (2020-06-30T23:33:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。