論文の概要: Pan-Arctic Permafrost Landform and Human-built Infrastructure Feature Detection with Vision Transformers and Location Embeddings
- arxiv url: http://arxiv.org/abs/2506.02868v1
- Date: Tue, 03 Jun 2025 13:34:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:35.710865
- Title: Pan-Arctic Permafrost Landform and Human-built Infrastructure Feature Detection with Vision Transformers and Location Embeddings
- Title(参考訳): 視覚変換器と位置埋め込みを用いたパンArctic Permafrostランドフォームと人為的インフラ特徴検出
- Authors: Amal S. Perera, David Fernandez, Chandi Witharana, Elias Manos, Michael Pimenta, Anna K. Liljedahl, Ingmar Nitze, Yili Yang, Todd Nicholson, Chia-Yu Hsu, Wenwen Li, Guido Grosse,
- Abstract要約: 視覚変換器(ViT)は、注意機構を介して長距離依存関係とグローバルコンテキストをキャプチャする利点を提供する。
ViTは、自己教師付き学習による事前トレーニングをサポートし、北極の特徴検出におけるラベル付きデータの共通制限を補完する。
本研究は,(1)高分解能北極リモートセンシングタスクのための特徴抽出器としての事前学習型ViTの適合性,(2)画像と位置情報の埋め込みの利点について検討する。
- 参考スコア(独自算出の注目度): 1.2895931807247418
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accurate mapping of permafrost landforms, thaw disturbances, and human-built infrastructure at pan-Arctic scale using sub-meter satellite imagery is increasingly critical. Handling petabyte-scale image data requires high-performance computing and robust feature detection models. While convolutional neural network (CNN)-based deep learning approaches are widely used for remote sensing (RS),similar to the success in transformer based large language models, Vision Transformers (ViTs) offer advantages in capturing long-range dependencies and global context via attention mechanisms. ViTs support pretraining via self-supervised learning-addressing the common limitation of labeled data in Arctic feature detection and outperform CNNs on benchmark datasets. Arctic also poses challenges for model generalization, especially when features with the same semantic class exhibit diverse spectral characteristics. To address these issues for Arctic feature detection, we integrate geospatial location embeddings into ViTs to improve adaptation across regions. This work investigates: (1) the suitability of pre-trained ViTs as feature extractors for high-resolution Arctic remote sensing tasks, and (2) the benefit of combining image and location embeddings. Using previously published datasets for Arctic feature detection, we evaluate our models on three tasks-detecting ice-wedge polygons (IWP), retrogressive thaw slumps (RTS), and human-built infrastructure. We empirically explore multiple configurations to fuse image embeddings and location embeddings. Results show that ViTs with location embeddings outperform prior CNN-based models on two of the three tasks including F1 score increase from 0.84 to 0.92 for RTS detection, demonstrating the potential of transformer-based models with spatial awareness for Arctic RS applications.
- Abstract(参考訳): サブメーター衛星画像による永久凍土地形の正確なマッピング, ソー障害, 人為的なインフラのパン・アルティックスケールでのマッピングはますます重要になっている。
ペタバイト規模の画像データを扱うには、高性能な計算とロバストな特徴検出モデルが必要である。
畳み込みニューラルネットワーク(CNN)ベースのディープラーニングアプローチは、トランスフォーマーベースの大規模言語モデルの成功に類似したリモートセンシング(RS)に広く使用されているが、ViT(Vision Transformer)は、注意機構を通じて長距離依存関係とグローバルコンテキストをキャプチャする利点を提供する。
ViTは、自己教師型学習による事前トレーニングをサポートする。北極の特徴検出におけるラベル付きデータの共通制限と、ベンチマークデータセットでのCNNのパフォーマンス向上。
アークティックはモデル一般化にも挑戦しており、特に同じ意味クラスを持つ特徴が様々なスペクトル特性を示す場合である。
北極の特徴検出におけるこれらの課題に対処するため、地域間の適応を改善するために、地理空間的位置埋め込みをViTsに統合する。
本研究は,(1)高分解能北極リモートセンシングタスクのための特徴抽出器としての事前学習型ViTの適合性,(2)画像と位置情報の埋め込みの利点について検討する。
これまでに公表された北極の特徴検出のためのデータセットを用いて,IWP,RTS,人体構築インフラの3つのタスク検出型アイスウェッジ多角形(IWP)のモデルを評価する。
画像埋め込みと位置埋め込みを融合する複数の構成を実証的に検討する。
F1スコアを含む3つのタスクのうち2つのタスクにおいて、位置埋め込みを持つViTは、RTS検出において0.84から0.92に増加し、北極RSアプリケーションに対する空間認識を備えたトランスフォーマーモデルの可能性を示した。
関連論文リスト
- A Deep Learning Architecture for Land Cover Mapping Using Spatio-Temporal Sentinel-1 Features [1.907072234794597]
この研究は、アマゾン、アフリカ、シベリアの3つの異なる地域に焦点を当て、これらの地域の様々なエコリージョンにおけるモデルパフォーマンスを評価する。
その結果,訓練データに制限のある地域においても,総合的精度(O.A.)の達成における提案手法の有効性と能力が示された。
論文 参考訳(メタデータ) (2025-03-10T12:15:35Z) - PVAFN: Point-Voxel Attention Fusion Network with Multi-Pooling Enhancing for 3D Object Detection [59.355022416218624]
点とボクセルの表現の統合は、LiDARベースの3Dオブジェクト検出においてより一般的になりつつある。
PVAFN(Point-Voxel Attention Fusion Network)と呼ばれる新しい2段3次元物体検出器を提案する。
PVAFNはマルチプール戦略を使用して、マルチスケールとリージョン固有の情報を効果的に統合する。
論文 参考訳(メタデータ) (2024-08-26T19:43:01Z) - No-Reference Image Quality Assessment with Global-Local Progressive Integration and Semantic-Aligned Quality Transfer [6.095342999639137]
視覚変換器(ViT)を用いたグローバル特徴抽出器と畳み込みニューラルネットワーク(CNN)を用いた局所特徴抽出器を組み合わせた二重測定フレームワークを開発した。
多様な画像コンテンツの品質スコアを主観的な意見スコアで自動的にラベル付けすることで、トレーニングデータを拡張するセマンティック・アライン・クオリティ・トランスファー手法を提案する。
論文 参考訳(メタデータ) (2024-08-07T16:34:32Z) - Boosting Cross-Domain Point Classification via Distilling Relational Priors from 2D Transformers [59.0181939916084]
従来の3Dネットワークは主に局所幾何学的詳細に焦点を当て、局所幾何学間の位相構造を無視する。
そこで本稿では,大規模画像上においてよく訓練されたトランスフォーマーから前駆体を抽出する,新しい先駆体蒸留法を提案する。
PointDA-10とSim-to-Realデータセットの実験は、提案手法が点クラウド分類におけるUDAの最先端性能を一貫して達成していることを検証する。
論文 参考訳(メタデータ) (2024-07-26T06:29:09Z) - Leveraging Swin Transformer for Local-to-Global Weakly Supervised
Semantic Segmentation [12.103012959947055]
本研究では、初期シードCAMの精度を高めるために「SWTformer」を提案することで、Swin Transformerの使用について検討する。
SWTformer-V1は、精度0.98%のmAPを実現し、最先端モデルより優れている。
SWTformer-V2は、追加情報を抽出するためにマルチスケールの機能融合機構を組み込んでいる。
論文 参考訳(メタデータ) (2024-01-31T13:41:17Z) - Sub-token ViT Embedding via Stochastic Resonance Transformers [51.12001699637727]
Vision Transformer (ViT) アーキテクチャは、画像を高次元のベクトル化トークンの集合として表現し、それぞれが長方形の非重複パッチに対応する。
我々は「確率共鳴」にインスパイアされた無訓練法を提案する。
結果として得られるSRT(Stochastic Resonance Transformer)は、元の表現のリッチな意味情報を保持するが、空間的トークン化の粗い効果を軽減し、より微細な空間領域に基盤を置いている。
論文 参考訳(メタデータ) (2023-10-06T01:53:27Z) - DETR Doesn't Need Multi-Scale or Locality Design [69.56292005230185]
本稿では,"プレーン"特性を維持できる改良型DETR検出器を提案する。
特定の局所性制約を伴わずに、単一スケールの機能マップとグローバルなクロスアテンション計算を使用する。
マルチスケールな特徴マップと局所性制約の欠如を補うために,2つの単純な技術が平易な設計において驚くほど効果的であることを示す。
論文 参考訳(メタデータ) (2023-08-03T17:59:04Z) - DFTR: Depth-supervised Hierarchical Feature Fusion Transformer for
Salient Object Detection [44.94166578314837]
我々は、純粋なトランスフォーマーベースのSODフレームワーク、すなわち、Depth-supervised Hierarchical Feature Fusion TRansformer (DFTR)を提案する。
我々は,提案したDFTRを10個のベンチマークデータセット上で広範囲に評価し,実験結果から,既存のRGBおよびRGB-D SODタスクにおいて,DFTRが従来手法よりも一貫して優れていることが示された。
論文 参考訳(メタデータ) (2022-03-12T12:59:12Z) - GANav: Group-wise Attention Network for Classifying Navigable Regions in
Unstructured Outdoor Environments [54.21959527308051]
本稿では,RGB画像から,オフロード地形および非構造環境における安全かつ航行可能な領域を識別する新しい学習手法を提案する。
本手法は,粒度の粗いセマンティックセグメンテーションを用いて,そのナビビリティレベルに基づいて地形分類群を分類する。
RUGD と RELLIS-3D のデータセットを広範囲に評価することにより,我々の学習アルゴリズムがナビゲーションのためのオフロード地形における視覚知覚の精度を向上させることを示す。
論文 参考訳(メタデータ) (2021-03-07T02:16:24Z) - CFC-Net: A Critical Feature Capturing Network for Arbitrary-Oriented
Object Detection in Remote Sensing Images [0.9462808515258465]
本稿では,物体検出における識別的特徴の役割について論じる。
次に,検出精度を向上させるために,cfc-net (critical feature capture network) を提案する。
本手法は多くの最先端手法と比較して優れた検出性能が得られることを示す。
論文 参考訳(メタデータ) (2021-01-18T02:31:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。