論文の概要: Prithvi-Complimentary Adaptive Fusion Encoder (CAFE): unlocking full-potential for flood inundation mapping
- arxiv url: http://arxiv.org/abs/2601.02315v1
- Date: Mon, 05 Jan 2026 18:07:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:23.344425
- Title: Prithvi-Complimentary Adaptive Fusion Encoder (CAFE): unlocking full-potential for flood inundation mapping
- Title(参考訳): Prithvi-Complimentary Adaptive Fusion Encoder (CAFE) : 洪水浸水マッピングのための全電位アンロック
- Authors: Saurabh Kaushik, Lalit Maurya, Beth Tellman,
- Abstract要約: Geo-Foundation Models (GFMs) は、セマンティックセグメンテーション、分類、回帰タスクを含む様々な下流アプリケーションで有効であることが証明されている。
今回,Prithvi-Floodary Adaptive Fusion (CAFE) を施行した。
Sen1Flood11とFloodPlanetの2つの総合的なフラッドマッピングデータセットについて、最先端の結果を得た。
- 参考スコア(独自算出の注目度): 0.6281229317487581
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Geo-Foundation Models (GFMs), have proven effective in diverse downstream applications, including semantic segmentation, classification, and regression tasks. However, in case of flood mapping using Sen1Flood11 dataset as a downstream task, GFMs struggles to outperform the baseline U-Net, highlighting model's limitation in capturing critical local nuances. To address this, we present the Prithvi-Complementary Adaptive Fusion Encoder (CAFE), which integrate Prithvi GFM pretrained encoder with a parallel CNN residual branch enhanced by Convolutional Attention Modules (CAM). Prithvi-CAFE enables fast and efficient fine-tuning through adapters in Prithvi and performs multi-scale, multi-level fusion with CNN features, capturing critical local details while preserving long-range dependencies. We achieve state-of-the-art results on two comprehensive flood mapping datasets: Sen1Flood11 and FloodPlanet. On Sen1Flood11 test data, Prithvi-CAFE (IoU 83.41) outperforms the original Prithvi (IoU 82.50) and other major GFMs (TerraMind 82.90, DOFA 81.54, spectralGPT: 81.02). The improvement is even more pronounced on the hold-out test site, where Prithvi-CAFE achieves an IoU of 81.37 compared to the baseline U-Net (70.57) and original Prithvi (72.42). On FloodPlanet, Prithvi-CAFE also surpasses the baseline U-Net and other GFMs, achieving an IoU of 64.70 compared to U-Net (60.14), Terramind (62.33), DOFA (59.15) and Prithvi 2.0 (61.91). Our proposed simple yet effective Prithvi-CAFE demonstrates strong potential for improving segmentation tasks where multi-channel and multi-modal data provide complementary information and local details are critical. The code is released on \href{https://github.com/Sk-2103/Prithvi-CAFE}{Prithvi-CAFE Github}
- Abstract(参考訳): Geo-Foundation Models (GFMs) は、セマンティックセグメンテーション、分類、回帰タスクを含む様々な下流アプリケーションで有効であることが証明されている。
しかし、Sen1Flood11データセットを下流タスクとして使用したフラッドマッピングでは、GFMはベースラインのU-Netを上回り、重要なローカルニュアンスをキャプチャするモデルの制限を強調している。
そこで本研究では,Prithvi-Complementary Adaptive Fusion Encoder (CAFE) をCAM(Convolutional Attention Modules)により強化された並列CNN残差分枝とPrithvi GFM事前訓練エンコーダを統合する。
Prithvi-CAFEは、Prithviのアダプタによる高速かつ効率的な微調整を可能にし、CNN機能とマルチスケールのマルチレベル融合を実行し、長距離依存関係を保ちながら重要なローカル詳細をキャプチャする。
Sen1Flood11とFloodPlanetの2つの総合的なフラッドマッピングデータセットについて、最先端の結果を得た。
Sen1Flood11のテストデータでは、Prithvi-CAFE (IoU 83.41) はオリジナルのPrithvi (IoU 82.50) と他の主要なGFM (TerraMind 82.90, DOFA 81.54, spectrumGPT: 81.02) を上回っている。
Prithvi-CAFEはベースラインのU-Net (70.57) とオリジナルのPrithvi (72.42) と比較して81.37のIoUを達成した。
FloodPlanetでは、Prithvi-CAFEがベースラインのU-Netや他のGFMを上回り、U-Net (60.14)、Terramind (62.33)、DOFA (59.15)、Prithvi 2.0 (61.91)と比較して64.70のIoUを達成した。
提案手法は,マルチチャネルおよびマルチモーダルデータを補完する情報を提供し,局所的な詳細が重要となるセグメンテーションタスクを改善する強力な可能性を示すものである。
コードは \href{https://github.com/Sk-2103/Prithvi-CAFE}{Prithvi-CAFE Github} で公開されている。
関連論文リスト
- LC4-DViT: Land-cover Creation for Land-cover Classification with Deformable Vision Transformer [14.684808109822386]
LC4-DViTは、生成データ生成と変形対応のVision Transformerを組み合わせたフレームワークである。
テキスト誘導拡散パイプラインは、GPT-4o生成シーン記述を用いて高忠実度トレーニング画像を合成する。
DViTは、DCNv4変形可能な畳み込みバックボーンとVision Transformerエンコーダを結合して、微細な幾何学とグローバルなコンテキストを共同でキャプチャする。
論文 参考訳(メタデータ) (2025-11-27T23:56:35Z) - MobileGeo: Exploring Hierarchical Knowledge Distillation for Resource-Efficient Cross-view Drone Geo-Localization [47.16612614191333]
クロスビューなジオローカライゼーションにより、航空画像とジオタグ付き衛星データベースとのマッチングによるドローンのローカライゼーションが可能になる。
MobileGeoは、デバイス上の効率的なCVGL用に設計されたモバイルフレンドリーなフレームワークである。
MobileGeoはNVIDIA AGX Orinエッジデバイス上で251.5FPSで動作する。
論文 参考訳(メタデータ) (2025-10-26T08:47:20Z) - SenseExpo: Efficient Autonomous Exploration with Prediction Information from Lightweight Neural Networks [3.6404856388891793]
SenseExpoは、軽量な予測ネットワークに基づく効率的な自律探査フレームワークである。
我々の最小モデルでは、U-netやLaMaよりもKTHデータセットの性能が向上している。
論文 参考訳(メタデータ) (2025-03-20T10:07:51Z) - EPBC-YOLOv8: An efficient and accurate improved YOLOv8 underwater detector based on an attention mechanism [4.081096260595706]
YOLOv8の背骨にチャネルと空間的注意を組み込むことにより,水中目標検出の精度を高めた。
我々のフレームワークは水中画像の劣化に対処し、データセットで0.5のスコアが76.7%、79.0のmAPを達成した。
これらのスコアは元のYOLOv8よりも2.3%高く、0.7%高い。
論文 参考訳(メタデータ) (2025-02-09T06:09:56Z) - DiRecNetV2: A Transformer-Enhanced Network for Aerial Disaster Recognition [4.678150356894011]
災害評価における航空画像処理のための人工知能(AI)モデルと無人航空機の統合には、例外的な精度、計算効率、リアルタイム処理能力が必要である。
伝統的に、畳み込みニューラルネットワーク(CNN)は局所的特徴抽出の効率を示すが、大域的文脈解釈の可能性によって制限される。
視覚変換器(ViT)は、注意機構を用いることで、グローバルな文脈解釈の改善を約束するが、それでもUAVベースの災害対応アプリケーションでは未検討である。
論文 参考訳(メタデータ) (2024-10-17T15:25:13Z) - SFNet: Faster and Accurate Semantic Segmentation via Semantic Flow [88.97790684009979]
性能を改善するための一般的な実践は、強力な意味表現を持つ高解像度の特徴写像を得ることである。
隣接レベルの特徴マップ間のテキストセマンティックフローを学習するためのフローアライメントモジュール(FAM)を提案する。
また,高分解能特徴写像と低分解能特徴写像を直接整列するGated Dual Flow Alignment Moduleを提案する。
論文 参考訳(メタデータ) (2022-07-10T08:25:47Z) - Global Context Vision Transformers [78.5346173956383]
我々は,コンピュータビジョンのパラメータと計算利用を向上する新しいアーキテクチャであるGC ViT(Global context vision transformer)を提案する。
本稿では,ViTにおける帰納バイアスの欠如に対処し,アーキテクチャにおける可溶性逆残差ブロックを改良して活用することを提案する。
提案したGC ViTは,画像分類,オブジェクト検出,セマンティックセマンティックセグメンテーションタスクにまたがる最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2022-06-20T18:42:44Z) - CPFN: Cascaded Primitive Fitting Networks for High-Resolution Point
Clouds [51.47100091540298]
本稿では,グローバルおよびローカルなプリミティブ検出ネットワークの検出結果をアダプティブパッチサンプリングネットワークに依存したCPFN(Cascaded Primitive Fitting Networks)を提案する。
CPFNは、高解像度のポイントクラウドデータセット上で、最先端のSPFNのパフォーマンスを13-14%改善し、特に20-22%の微細プリミティブの検出を改善している。
論文 参考訳(メタデータ) (2021-08-31T23:27:33Z) - VOLO: Vision Outlooker for Visual Recognition [148.12522298731807]
視覚変換器 (ViT) はイメージネット分類において自己注意に基づくモデルの可能性を示している。
我々は、新しい展望の展望を導入し、VoLO(Vision Outlooker)と呼ばれる、シンプルで一般的なアーキテクチャを提示する。
グローバルな依存性モデリングを粗いレベルで重視する自己注意とは異なり、展望はより詳細な機能やコンテキストをトークンに効率的にエンコードする。
実験の結果、私たちのVOLOはImageNet-1K分類で87.1%のトップ1の精度を達成しており、これはこの競合ベンチマークで87%以上の精度で最初のモデルである。
論文 参考訳(メタデータ) (2021-06-24T15:46:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。