論文の概要: A multi-scale vision transformer-based multimodal GeoAI model for mapping Arctic permafrost thaw
- arxiv url: http://arxiv.org/abs/2504.17822v1
- Date: Wed, 23 Apr 2025 22:18:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.51731
- Title: A multi-scale vision transformer-based multimodal GeoAI model for mapping Arctic permafrost thaw
- Title(参考訳): マルチスケール視覚変換器を用いた北極永久凍土のマッピングのためのマルチモーダルジオAIモデル
- Authors: Wenwen Li, Chia-Yu Hsu, Sizhe Wang, Zhining Gu, Yili Yang, Brendan M. Rogers, Anna Liljedahl,
- Abstract要約: 北極地域のレトロ・ソー・スランプ(RTS)は、環境に重大な影響を与える永久凍土の地形である。
本稿では,現在最先端の深層学習モデルであるMask R-CNNを用いて,北極圏のRTS特徴を記述した。
マルチモーダル学習を最適化し、モデルの予測性能を向上させるための2つの新しい戦略が導入された。
- 参考スコア(独自算出の注目度): 2.906027992527643
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrogressive Thaw Slumps (RTS) in Arctic regions are distinct permafrost landforms with significant environmental impacts. Mapping these RTS is crucial because their appearance serves as a clear indication of permafrost thaw. However, their small scale compared to other landform features, vague boundaries, and spatiotemporal variation pose significant challenges for accurate detection. In this paper, we employed a state-of-the-art deep learning model, the Cascade Mask R-CNN with a multi-scale vision transformer-based backbone, to delineate RTS features across the Arctic. Two new strategies were introduced to optimize multimodal learning and enhance the model's predictive performance: (1) a feature-level, residual cross-modality attention fusion strategy, which effectively integrates feature maps from multiple modalities to capture complementary information and improve the model's ability to understand complex patterns and relationships within the data; (2) pre-trained unimodal learning followed by multimodal fine-tuning to alleviate high computing demand while achieving strong model performance. Experimental results demonstrated that our approach outperformed existing models adopting data-level fusion, feature-level convolutional fusion, and various attention fusion strategies, providing valuable insights into the efficient utilization of multimodal data for RTS mapping. This research contributes to our understanding of permafrost landforms and their environmental implications.
- Abstract(参考訳): 北極地域の逆行性ソースランプ(RTS)は、環境に重大な影響を及ぼす永久凍土の地形である。
これらのRTSのマッピングは、その外観が永久凍土ソーの明確な徴候となるため、非常に重要である。
しかし、その小さなスケールは他の地形の特徴、曖昧な境界、時空間変動と比較すると、正確な検出には重大な課題がある。
本稿では,最先端の深層学習モデルCascade Mask R-CNNとマルチスケールの視覚変換器をベースとしたバックボーンを用いて,北極圏のRTS特徴を記述した。
マルチモーダル学習を最適化し,モデルの予測性能を高めるための2つの新しい戦略が導入された。(1)複数のモーダルから特徴マップを効果的に統合し,補完的な情報を取得し,モデルがデータ内の複雑なパターンや関係を理解する能力を向上させること,2) 事前訓練された単モーダル学習に続いて,高要求を軽減し,強力なモデル性能を実現するためのマルチモーダル微調整である。
実験の結果,本手法は,データレベル融合,特徴レベル畳み込み融合,および様々な注意融合戦略を取り入れた既存モデルよりも優れており,RTSマッピングにおけるマルチモーダルデータの効率的な利用に関する貴重な知見を提供することができた。
本研究は,永久凍土地形の理解と環境への影響に寄与する。
関連論文リスト
- PolSAM: Polarimetric Scattering Mechanism Informed Segment Anything Model [76.95536611263356]
PolSARデータは、そのリッチで複雑な特徴のために、ユニークな課題を提示する。
複素数値データ、偏光特性、振幅画像などの既存のデータ表現が広く使われている。
PolSARのほとんどの機能抽出ネットワークは小さく、機能を効果的にキャプチャする能力を制限している。
本稿では,ドメイン固有の散乱特性と新規なプロンプト生成戦略を統合したSegment Anything Model (SAM) であるPolarimetric Scattering Mechanism-Informed SAM (PolSAM)を提案する。
論文 参考訳(メタデータ) (2024-12-17T09:59:53Z) - T-GMSI: A transformer-based generative model for spatial interpolation under sparse measurements [1.0931557410591526]
空間補間のためのトランスフォーマーベース生成モデル (T-GMSI) を提案する。
T-GMSIは、従来の畳み込みベースの手法をViTに置き換えて特徴抽出とDEMを行い、特徴認識損失関数を組み込んで精度を高める。
T-GMSIは、70%以上の幅を持つデータセットから高品質な標高面を生成するのに優れ、微調整なしで様々な風景を横断する強い伝達性を示す。
論文 参考訳(メタデータ) (2024-12-13T06:01:39Z) - HiTSR: A Hierarchical Transformer for Reference-based Super-Resolution [6.546896650921257]
参照ベース画像超解像のための階層変換モデルであるHiTSRを提案する。
GAN文献の二重注意ブロックを組み込むことで,アーキテクチャとトレーニングパイプラインの合理化を図る。
我々のモデルは、SUN80、Urban100、Manga109を含む3つのデータセットで優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-08-30T01:16:29Z) - Federated Multi-Agent Mapping for Planetary Exploration [0.4143603294943439]
本稿では,エージェント間のグローバルマップモデルを生データを送信することなく,協調的にトレーニングするフェデレーション型マルチエージェントマッピング手法を提案する。
提案手法は暗黙的ニューラルマッピングを利用してパシモニアスで適応可能な表現を生成し,生のマップと比較して最大93.8%のデータを伝送する。
我々は,火星の地形や氷河のデータセットに対するアプローチの有効性を実証し,F1スコアを0.95ポイントまで下方経路計画を達成するとともに,地図の復元損失に勝る結果を得た。
論文 参考訳(メタデータ) (2024-04-02T20:32:32Z) - Segment Anything Model Can Not Segment Anything: Assessing AI Foundation
Model's Generalizability in Permafrost Mapping [19.307294875969827]
本稿では,AI基盤モデルとその定義特性を紹介する。
我々は、大規模AIビジョンモデル、特にMetaのセグメンション・アプライシング・モデル(SAM)の性能を評価する。
結果は、SAMには将来性はあるものの、AIの拡張された地形マッピングをサポートするための改善の余地があることを示している。
論文 参考訳(メタデータ) (2024-01-16T19:10:09Z) - SIRAN: Sinkhorn Distance Regularized Adversarial Network for DEM
Super-resolution using Discriminative Spatial Self-attention [5.178465447325005]
DEM(Digital Elevation Model)は、リモートセンシング領域において、表面標高情報に関連するさまざまなアプリケーションを分析し、探索するための重要な側面である。
本研究では,高分解能マルチスペクトル(MX)衛星画像を用いた高分解能DEMの生成について検討する。
本稿では,Sinkhorn 距離を従来の GAN に最適化することで,対角学習の安定性を向上する目的関数を提案する。
論文 参考訳(メタデータ) (2023-11-27T12:03:22Z) - Learning transformer-based heterogeneously salient graph representation for multimodal remote sensing image classification [42.15709954199397]
本稿では,変圧器を用いたヘテロジニアサリエントグラフ表現法(THSGR)を提案する。
まず、多モード不均一グラフエンコーダを用いて、非ユークリッド構造の特徴を異種データから符号化する。
自己アテンションフリーなマルチ畳み込み変調器は、効果的かつ効率的な長期依存性モデリングのために設計されている。
論文 参考訳(メタデータ) (2023-11-17T04:06:20Z) - DepthFormer: Exploiting Long-Range Correlation and Local Information for
Accurate Monocular Depth Estimation [50.08080424613603]
高精度な単分子深度推定には長距離相関が不可欠である。
我々は,このグローバルコンテキストを効果的な注意機構でモデル化するためにTransformerを活用することを提案する。
提案したモデルであるDepthFormerは、最先端のモノクル深度推定手法をはるかに超えている。
論文 参考訳(メタデータ) (2022-03-27T05:03:56Z) - Aerial Images Meet Crowdsourced Trajectories: A New Approach to Robust
Road Extraction [110.61383502442598]
我々は、Cross-Modal Message Propagation Network (CMMPNet)と呼ばれる新しいニューラルネットワークフレームワークを紹介する。
CMMPNetは、モダリティ固有の表現学習のための2つのディープオートエンコーダと、クロスモーダル表現洗練のためのテーラー設計のデュアルエンハンスメントモジュールで構成されている。
実世界の3つのベンチマーク実験により, CMMPNetによる堅牢な道路抽出の有効性が示された。
論文 参考訳(メタデータ) (2021-11-30T04:30:10Z) - Light Field Reconstruction via Deep Adaptive Fusion of Hybrid Lenses [67.01164492518481]
本稿では,ハイブリットレンズを用いた高分解能光場(LF)画像の再構成問題について検討する。
本稿では,入力の特徴を包括的に活用できる新しいエンドツーエンド学習手法を提案する。
我々のフレームワークは、高解像度なLFデータ取得のコストを削減し、LFデータストレージと送信の恩恵を受ける可能性がある。
論文 参考訳(メタデータ) (2021-02-14T06:44:47Z) - Revealing the Invisible with Model and Data Shrinking for
Composite-database Micro-expression Recognition [49.463864096615254]
入力複雑性とモデル複雑性を含む学習複雑性の影響を分析する。
より浅層構造と低分解能入力データを探索する再帰畳み込みネットワーク(RCN)を提案する。
学習可能なパラメータを増やさなくてもRCNと統合できる3つのパラメータフリーモジュールを開発した。
論文 参考訳(メタデータ) (2020-06-17T06:19:24Z) - Learning Deformable Image Registration from Optimization: Perspective,
Modules, Bilevel Training and Beyond [62.730497582218284]
マルチスケールの伝搬により微分同相モデルを最適化する,新しいディープラーニングベースのフレームワークを開発した。
我々は,脳MRIデータにおける画像-アトラス登録,肝CTデータにおける画像-画像登録を含む,3次元ボリュームデータセットにおける画像登録実験の2つのグループを実行する。
論文 参考訳(メタデータ) (2020-04-30T03:23:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。