論文の概要: Clustering Guided Domain-Specific Pretrained Foundation Model for Very High-Resolution Arctic Remote Sensing
- arxiv url: http://arxiv.org/abs/2605.30467v2
- Date: Wed, 03 Jun 2026 22:12:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-06 06:55:34.597856
- Title: Clustering Guided Domain-Specific Pretrained Foundation Model for Very High-Resolution Arctic Remote Sensing
- Title(参考訳): 超高分解能北極リモートセンシングのためのクラスタリングガイドドメイン特化事前学習基礎モデル
- Authors: Amal S. Perera, Chandi Witharana, Elias Manos, Michael Pimenta, Anna K. Liljedahl,
- Abstract要約: 本研究は,北極を対象とする新しいリモートセンシング基盤モデル(RSFM)を提案する。
多様性を意識した地域規模の画像キュレーションと、衛星画像解析のためのビジョントランスフォーマー(VHSR)エンコーダの自己教師付き事前トレーニングを組み合わせる。
我々は、領域適応MAE再構成目標を用いて、キュレートされたコーパス上のViT-Largeエンコーダを事前訓練し、下流の特徴マッピングのための北極固有のトランスフォーマーウェイトを生成した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study introduces a novel Arctic-focused remote sensing foundation model (RSFM) by combining diversity-aware regional-scale image curation with masked autoencoder (MAE) self-supervised pretraining of a Vision Transformer (ViT) encoder for very-high-spatial-resolution (VHSR) satellite image analysis. Spectral and acquisition-metadata descriptors were used in a scalable affinity-propagation clustering workflow to select approximately 3 million chips from 267 TB of Vantor VHSR imagery This curation strategy was designed to reduce oversampling of visually repetitive or low-information areas while preserving broad scene diversity across the study domain. We pretrained a ViT-Large encoder on the curated corpus using a domain-adapted MAE reconstruction objective, producing Arctic-specific transformer weights for downstream feature mapping. The pretrained encoder was integrated into an existing location-aware detection and segmentation framework and evaluated across four hand-labeled Arctic datasets. Compared to ImageNet-initialized ViT-Large baseline, Arctic MAE pretraining produced consistent improvements in foreground mean F1 scores of 0.87, 0.72, 0.93, and 0.87, for infrastructure, IWP, RTS, and TCNs, with approximately 5-8 percentage increase. The proposed model also outperformed Prithvi-EO-2.0 in all downstream comparisons, with the smallest gain corresponding to at least a 15 percentage improvement mean F1, suggesting that domain-specific self-supervised pretraining on curated Arctic VHSR imagery provides more transferable representations for fine-scale Arctic mapping than a general-purpose Earth observation foundation model. These results demonstrate that optimizing the pretraining data distribution at regional scale, while keeping the architecture and MAE objective fixed, can produce a reusable Arctic-domain encoder for multiple VHSR remote sensing applications.
- Abstract(参考訳): 本研究では、高度空間分解能(VHSR)衛星画像解析のためのビジョントランスフォーマー(ViT)エンコーダの自己教師付き事前学習を、多様性を意識した地域規模の画像キュレーションと、マスク付きオートエンコーダ(MAE)との組み合わせにより、北極に焦点を絞った新しいリモートセンシング基盤モデル(RSFM)を提案する。
Vantor VHSR画像の267TBから約300万個のチップを選択するために、スケーラブルなアフィニティ・プロパゲーションクラスタリングワークフローでスペクトルおよび取得・メタタディスクリプタを使用していた。
領域適応MAE再構成目標を用いて, キュレートコーパス上のVT-Largeエンコーダを事前訓練し, 下流特徴マッピングのための北極固有のトランスフォーマー重みを生成した。
事前訓練されたエンコーダは、既存の位置認識検出とセグメンテーションフレームワークに統合され、4つの手動ラベル付き北極データセットで評価された。
ImageNet-initialized ViT-Largeベースラインと比較すると、アークティックMAEプレトレーニングでは、インフラ、IWP、RTS、TCNのF1スコアが0.87、0.72、0.93、0.87で、約5~8パーセント向上した。
提案モデルはまた,全下流比較でPrithvi-EO-2.0を上回り,最低利得は少なくとも15パーセント改善平均F1に対応し,北極VHSR画像の領域固有の自己教師付き事前訓練により,汎用地球観測基盤モデルよりも大規模な北極マッピングの表現性の向上が示唆された。
これらの結果は、アーキテクチャとMAEの目標を固定しつつ、地域規模の事前学習データ分布を最適化し、複数のVHSRリモートセンシングアプリケーションのための再利用可能な北極領域エンコーダを生成することを実証している。
関連論文リスト
- FLORO: A Multimodal Geospatial Foundation Model for Ecological Remote Sensing Across Sensors and Scales [65.4821703903285]
FLOROは、小さなが高度に多様なリモートセンシングコーパスから転送可能な表現を学習するために設計されたマルチモーダル基礎モデルである。
FLOROは、Sentinel-1、Sentinel-2、SkySAT画像、標高、UAV由来のデータとの不均一な組み合わせによるマスク付きオートエンコーディングを用いて事前訓練される。
我々は、シーン分類、セグメンテーション、回帰タスクにまたがる凍結エンコーダプロトコルを用いて、PANGAEAベンチマーク上でFLOROを評価した。
論文 参考訳(メタデータ) (2026-05-27T08:55:54Z) - Improved Baselines with Representation Autoencoders [61.47127824064028]
表現オートエンコーダ(RAE)は、従来のVAEを事前訓練された視覚エンコーダに置き換える。
RAEを単純化し、改善する3つの洞察が得られます。
RAEv2はオリジナルのRAEよりも10倍以上早く収束する。
論文 参考訳(メタデータ) (2026-05-18T12:42:34Z) - Efficient Hybrid CNN-GNN Architecture for Monocular Depth Estimation [0.0]
畳み込みエンコーダ・デコーダフレームワークにグラフニューラルネットワーク(GNN)を統合する単眼深度推定アーキテクチャであるGraphDepthを提案する。
我々のアプローチは、効率的なGraphSAGEレイヤをResNet-101 U-Netバックボーンの複数スケールに埋め込む。
NYU Depth V2、WHU Aerial、ETH3D、Mid-Airベンチマークの実験では、最先端のトランスフォーマーの4.6%で競合精度が示されている。
論文 参考訳(メタデータ) (2026-05-11T09:21:04Z) - VFM-Recon: Unlocking Cross-Domain Scene-Level Neural Reconstruction with Scale-Aligned Foundation Priors [49.39553550491549]
VFMReconは, シーンレベルの神経再構成において, スケール一貫性の要求を満たすトランスファー可能なVFMプリエントをブリッジする最初の試みである。
具体的には、まず、マルチビュースケールコヒーレンスを復元する軽量なスケールアライメントステージを導入する。
次に、トレーニング済みのVFM機能を、軽量なタスク固有アダプタを介して、ニューラルボリューム再構築パイプラインに統合する。
論文 参考訳(メタデータ) (2026-03-13T05:00:44Z) - Post-Disaster Affected Area Segmentation with a Vision Transformer (ViT)-based EVAP Model using Sentinel-2 and Formosat-5 Imagery [0.0]
リモートセンシング画像から災害影響領域のセグメンテーションを洗練するための視覚変換器(ViT)ベースのディープラーニングフレームワークを提案する。
本フレームワークはセグメント化結果のスムーズさと信頼性を向上し,正確な地下真実が得られない場合の災害対応にスケーラブルなアプローチを提供する。
論文 参考訳(メタデータ) (2025-07-21T07:48:07Z) - Pan-Arctic Permafrost Landform and Human-built Infrastructure Feature Detection with Vision Transformers and Location Embeddings [1.2895931807247418]
視覚変換器(ViT)は、注意機構を介して長距離依存関係とグローバルコンテキストをキャプチャする利点を提供する。
ViTは、自己教師付き学習による事前トレーニングをサポートし、北極の特徴検出におけるラベル付きデータの共通制限を補完する。
本研究は,(1)高分解能北極リモートセンシングタスクのための特徴抽出器としての事前学習型ViTの適合性,(2)画像と位置情報の埋め込みの利点について検討する。
論文 参考訳(メタデータ) (2025-06-03T13:34:01Z) - NeRF-VIO: Map-Based Visual-Inertial Odometry with Initialization Leveraging Neural Radiance Fields [14.294558959621892]
先行マップは、拡張現実(AR)のようなコンテキスト認識アプリケーションにおけるローカライゼーションの基礎となる参照として機能する。
地図に基づく視覚慣性局所化アルゴリズム(NeRF-VIO)を提案する。
マルチステート制約カルマンフィルタ(MSCKF)フレームワークに2段階更新機構を統合することにより、NeRF-VIOの状態は、オンボードカメラからの撮像画像と、事前訓練されたNeRFモデルからのレンダリング画像の両方によって制約される。
論文 参考訳(メタデータ) (2025-03-11T01:23:22Z) - RS-vHeat: Heat Conduction Guided Efficient Remote Sensing Foundation Model [59.37279559684668]
本稿では,効率的なマルチモーダルリモートセンシング基盤モデルであるRS-vHeatを紹介する。
具体的には、RS-vHeatは、O(N1.5)$の複雑さを持つ熱伝導演算子(HCO)と、大域的受容場を適用している。
注意に基づくリモートセンシング基礎モデルと比較して、メモリ使用量を84%削減し、FLOPを24%削減し、スループットを2.7倍改善する。
論文 参考訳(メタデータ) (2024-11-27T01:43:38Z) - Sub-token ViT Embedding via Stochastic Resonance Transformers [51.12001699637727]
Vision Transformer (ViT) アーキテクチャは、画像を高次元のベクトル化トークンの集合として表現し、それぞれが長方形の非重複パッチに対応する。
我々は「確率共鳴」にインスパイアされた無訓練法を提案する。
結果として得られるSRT(Stochastic Resonance Transformer)は、元の表現のリッチな意味情報を保持するが、空間的トークン化の粗い効果を軽減し、より微細な空間領域に基盤を置いている。
論文 参考訳(メタデータ) (2023-10-06T01:53:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。