論文の概要: DeepAndes: A Self-Supervised Vision Foundation Model for Multi-Spectral Remote Sensing Imagery of the Andes
- arxiv url: http://arxiv.org/abs/2504.20303v1
- Date: Mon, 28 Apr 2025 23:15:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.689906
- Title: DeepAndes: A Self-Supervised Vision Foundation Model for Multi-Spectral Remote Sensing Imagery of the Andes
- Title(参考訳): DeepAndes: アンデスのマルチスペクトルリモートセンシング画像のための自己監督型ビジョンファウンデーションモデル
- Authors: Junlin Guo, James R. Zimmer-Dauphinee, Jordan M. Nieusma, Siqi Lu, Quan Liu, Ruining Deng, Can Cui, Jialin Yue, Yizhe Lin, Tianyuan Yao, Juming Xiong, Junchao Zhu, Chongyu Qu, Yuechen Yang, Mitchell Wilkes, Xiao Wang, Parker VanValkenburgh, Steven A. Wernke, Yuankai Huo,
- Abstract要約: 我々は,3千万個のマルチスペクトル衛星画像に基づいてトレーニングされた視覚基盤モデルであるDeepAndesを紹介する。
不均衡な画像分類、画像インスタンス検索、画素レベルのセマンティックセマンティックセグメンテーションタスクによる画像理解性能の評価を行った。
実験の結果,DeepAndesはF1スコア,平均精度,Diceスコアを数ショットの学習シナリオで達成できることがわかった。
- 参考スコア(独自算出の注目度): 12.521057263579522
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: By mapping sites at large scales using remotely sensed data, archaeologists can generate unique insights into long-term demographic trends, inter-regional social networks, and past adaptations to climate change. Remote sensing surveys complement field-based approaches, and their reach can be especially great when combined with deep learning and computer vision techniques. However, conventional supervised deep learning methods face challenges in annotating fine-grained archaeological features at scale. While recent vision foundation models have shown remarkable success in learning large-scale remote sensing data with minimal annotations, most off-the-shelf solutions are designed for RGB images rather than multi-spectral satellite imagery, such as the 8-band data used in our study. In this paper, we introduce DeepAndes, a transformer-based vision foundation model trained on three million multi-spectral satellite images, specifically tailored for Andean archaeology. DeepAndes incorporates a customized DINOv2 self-supervised learning algorithm optimized for 8-band multi-spectral imagery, marking the first foundation model designed explicitly for the Andes region. We evaluate its image understanding performance through imbalanced image classification, image instance retrieval, and pixel-level semantic segmentation tasks. Our experiments show that DeepAndes achieves superior F1 scores, mean average precision, and Dice scores in few-shot learning scenarios, significantly outperforming models trained from scratch or pre-trained on smaller datasets. This underscores the effectiveness of large-scale self-supervised pre-training in archaeological remote sensing. Codes will be available on https://github.com/geopacha/DeepAndes.
- Abstract(参考訳): リモートセンシングデータを用いて大規模にサイトをマッピングすることで、考古学者は長期的な人口動態、地域間ソーシャルネットワーク、過去の気候変動への適応に関するユニークな洞察を得ることができる。
リモートセンシングサーベイはフィールドベースのアプローチを補完するものであり、深層学習とコンピュータビジョン技術を組み合わせると、その到達度は特に優れている。
しかし,従来の教師付き深層学習手法は,詳細な考古学的特徴を大規模に注釈付けする上で,課題に直面している。
近年の視覚基盤モデルは、最小限のアノテーションで大規模なリモートセンシングデータを学習することに成功したが、ほとんどの市販のソリューションは、我々の研究で使用される8バンドデータのようなマルチスペクトル衛星画像ではなく、RGB画像用に設計されている。
本稿では,300万個のマルチスペクトル衛星画像に基づいてトレーニングされたトランスフォーマーに基づく視覚基盤モデルであるDeepAndesについて紹介する。
DeepAndesには8バンドマルチスペクトル画像に最適化されたDINOv2自己教師学習アルゴリズムが組み込まれており、アンデス地域向けに明示的に設計された最初の基礎モデルとなっている。
不均衡な画像分類、画像インスタンス検索、画素レベルのセマンティックセマンティックセグメンテーションタスクによる画像理解性能の評価を行った。
実験の結果,DeepAndesは,より優れたF1スコア,平均精度,Diceスコアを数ショットの学習シナリオで達成し,スクラッチからトレーニングしたモデルや,より小さなデータセットで事前学習したモデルよりも大幅に優れていた。
このことは、考古学的リモートセンシングにおける大規模自己監督型事前訓練の有効性を裏付けるものである。
コードはhttps://github.com/geopacha/DeepAndes.comで入手できる。
関連論文リスト
- Efficient Self-Supervised Learning for Earth Observation via Dynamic Dataset Curation [67.23953699167274]
自己教師付き学習(SSL)により、地球観測のための視覚基盤モデルの開発が可能になった。
EOでは、この課題は衛星画像に共通する冗長性と重尾分布によって増幅される。
本稿では,データセットの多様性とバランスを最大化し,SSL事前トレーニングを改善するために設計された動的データセットプルーニング戦略を提案する。
論文 参考訳(メタデータ) (2025-04-09T15:13:26Z) - A Recipe for Improving Remote Sensing VLM Zero Shot Generalization [0.4427533728730559]
本稿では,リモートセンシング基礎モデルのトレーニングのための2つの新しい画像キャプチャーデータセットを提案する。
最初のデータセットは、Google Mapsから抽出されたランドマークを使用して、Geminiによって生成されたキャプションと航空画像と衛星画像のペアである。
第2のデータセットは、リモートセンシングドメインのためにフィルタリングされたパブリックWebイメージとそれに対応するalt-textを利用する。
論文 参考訳(メタデータ) (2025-03-10T21:09:02Z) - Contrasting Deepfakes Diffusion via Contrastive Learning and Global-Local Similarities [88.398085358514]
Contrastive Deepfake Embeddings (CoDE)は、ディープフェイク検出に特化した新しい埋め込み空間である。
CoDEは、グローバルローカルな類似性をさらに強化することで、対照的な学習を通じて訓練される。
論文 参考訳(メタデータ) (2024-07-29T18:00:10Z) - Rethinking Transformers Pre-training for Multi-Spectral Satellite
Imagery [78.43828998065071]
教師なし学習の最近の進歩は、下流タスクにおける有望な結果を達成するための大きな視覚モデルの可能性を示している。
このような事前学習技術は、大量の未学習データが利用可能であることから、リモートセンシング領域でも最近研究されている。
本稿では,マルチモーダルで効果的に活用されるマルチスケール情報の事前学習と活用について述べる。
論文 参考訳(メタデータ) (2024-03-08T16:18:04Z) - GenFace: A Large-Scale Fine-Grained Face Forgery Benchmark and Cross Appearance-Edge Learning [50.7702397913573]
フォトリアリスティック・ジェネレータの急速な進歩は、真の画像と操作された画像の相違がますます不明瞭になっている臨界点に達している。
公開されている顔の偽造データセットはいくつかあるが、偽造顔は主にGANベースの合成技術を用いて生成される。
我々は,大規模で多様できめ細かな高忠実度データセットであるGenFaceを提案し,ディープフェイク検出の進展を促進する。
論文 参考訳(メタデータ) (2024-02-03T03:13:50Z) - Extending global-local view alignment for self-supervised learning with remote sensing imagery [1.5192294544599656]
自己教師付きモデルは、大量のラベルのないデータに対して擬似ラベルを生成するプレテキストタスクを定式化することにより、一般的な特徴表現を取得する。
DINOに触発されて、リモートセンシング画像(SSLRS)を用いた自己教師型学習のための2つのプレテキストタスクを定式化した。
我々は,DINOを拡張し,単一の固定サイズではなく,様々な大きさの作物の局所的なビューを利用するDINO-MCを提案する。
論文 参考訳(メタデータ) (2023-03-12T14:24:10Z) - Supervised and Contrastive Self-Supervised In-Domain Representation
Learning for Dense Prediction Problems in Remote Sensing [0.0]
本稿では、リモートセンシングと画像Netデータセットの領域差を解決するために、教師付きおよび自己教師型両方のドメイン表現の有効性について検討する。
自己教師付き事前学習では,SimSiamアルゴリズムは単純であり,膨大な計算資源を必要としない。
その結果,自己教師付き表現学習に空間分解能の高いデータセットを用いることで,下流タスクの性能が向上することが実証された。
論文 参考訳(メタデータ) (2023-01-29T20:56:51Z) - Learning Efficient Representations for Enhanced Object Detection on
Large-scene SAR Images [16.602738933183865]
SAR(Synthetic Aperture Radar)画像のターゲットの検出と認識は難しい問題である。
近年開発されたディープラーニングアルゴリズムは,SAR画像の固有の特徴を自動的に学習することができる。
本稿では,効率的かつ堅牢なディープラーニングに基づくターゲット検出手法を提案する。
論文 参考訳(メタデータ) (2022-01-22T03:25:24Z) - Self-supervised Audiovisual Representation Learning for Remote Sensing Data [96.23611272637943]
遠隔センシングにおける深層ニューラルネットワークの事前学習のための自己教師型アプローチを提案する。
ジオタグ付きオーディオ記録とリモートセンシングの対応を利用して、これは完全にラベルなしの方法で行われる。
提案手法は,既存のリモートセンシング画像の事前学習方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-02T07:50:50Z) - Two-shot Spatially-varying BRDF and Shape Estimation [89.29020624201708]
形状とSVBRDFを段階的に推定した新しいディープラーニングアーキテクチャを提案する。
ドメインランダム化された幾何学と現実的な材料を用いた大規模合成学習データセットを作成する。
合成データセットと実世界のデータセットの両方の実験により、合成データセットでトレーニングされたネットワークが、実世界の画像に対してうまく一般化できることが示されている。
論文 参考訳(メタデータ) (2020-04-01T12:56:13Z) - Single Image Depth Estimation Trained via Depth from Defocus Cues [105.67073923825842]
単一のRGB画像から深度を推定することはコンピュータビジョンの基本的な課題である。
この作業では、異なる視点ではなく、フォーカスキューからの奥行きに依存しています。
我々は,KITTIとMake3Dデータセットの教師あり手法と同等な結果を提示し,教師なし学習手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-01-14T20:22:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。