Fugu-MT 論文翻訳(概要): Improving satellite imagery segmentation using multiple Sentinel-2 revisits

論文の概要: Improving satellite imagery segmentation using multiple Sentinel-2 revisits

arxiv url: http://arxiv.org/abs/2409.17363v2
Date: Mon, 30 Sep 2024 23:08:29 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-06 16:30:51.064022
Title: Improving satellite imagery segmentation using multiple Sentinel-2 revisits
Title（参考訳）: 複数のSentinel-2リビジットによる衛星画像のセグメンテーションの改善
Authors: Kartik Jindgar, Grace W. Lindsay,
Abstract要約: 我々は、微調整された事前学習されたリモートセンシングモデルのフレームワークにおいて、リビジョンを使用する最善の方法を探る。モデル潜在空間における複数の再試行からの融合表現は、他の再試行法よりも優れていることが判明した。 SWINトランスフォーマーベースのアーキテクチャは、U-netやViTベースのモデルよりも優れている。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: In recent years, analysis of remote sensing data has benefited immensely from borrowing techniques from the broader field of computer vision, such as the use of shared models pre-trained on large and diverse datasets. However, satellite imagery has unique features that are not accounted for in traditional computer vision, such as the existence of multiple revisits of the same location. Here, we explore the best way to use revisits in the framework of fine-tuning pre-trained remote sensing models. We focus on an applied research question of relevance to climate change mitigation -- power substation segmentation -- that is representative of applied uses of pre-trained models more generally. Through extensive tests of different multi-temporal input schemes across diverse model architectures, we find that fusing representations from multiple revisits in the model latent space is superior to other methods of using revisits, including as a form of data augmentation. We also find that a SWIN Transformer-based architecture performs better than U-nets and ViT-based models. We verify the generality of our results on a separate building density estimation task.
Abstract（参考訳）: 近年、リモートセンシングデータの解析は、大規模で多様なデータセットで事前訓練された共有モデルの使用など、コンピュータビジョンの幅広い分野からの借用技術から大きな恩恵を受けている。しかし、衛星画像には、同じ場所の複数の再訪が存在するなど、従来のコンピュータビジョンでは説明できない特徴がある。ここでは,事前学習したリモートセンシングモデルを微調整するフレームワークにおいて,リビジョンを利用する最善の方法を検討する。我々は、より一般的に、事前訓練されたモデルの応用利用を代表した、気候変動緩和 -- 電力サブステーションの分断 -- との関連性に関する応用研究に焦点をあてる。多様なモデルアーキテクチャにまたがる多時間入力方式の広範なテストを通して、モデル潜在空間における複数のリビジョンから表現を融合させることは、データ拡張の形式を含む他のリビジョンを使用する方法よりも優れていることがわかった。また、SWINトランスフォーマーベースのアーキテクチャは、U-netやViTベースのモデルよりも優れた性能を示す。建物密度推定タスクを別々に行うことで,結果の汎用性を検証した。

関連論文リスト

Do Satellite Tasks Need Special Pretraining? [7.711325934411266]
最近、複数のチームがリモートセンシングアプリケーションに特化した基礎モデルを訓練した。我々は、特定の基礎モデルが汎用的な視覚基盤モデルよりも有用であるという考えに、体系的に挑戦する。これらの事前訓練されたモデルはいずれも、ViT-Bスケールでの汎用ベースラインに一貫した改善をもたらすものではない。
論文参考訳（メタデータ） (2025-10-19T21:32:01Z)
Towards Scalable and Generalizable Earth Observation Data Mining via Foundation Model Composition [0.0]
リモートセンシングと一般ビジョンデータセットに事前訓練された基礎モデルを効果的に組み合わせて性能を向上させることができるかを検討する。その結果、より小さな事前訓練モデルの特徴レベルのアンサンブルは、はるかに大きなモデルの性能に適合するか、超える可能性があることがわかった。この研究は、よりコンパクトなモデルにアンサンブルの強度を伝達するために知識蒸留を適用する可能性を強調している。
論文参考訳（メタデータ） (2025-06-25T07:02:42Z)
DeepAndes: A Self-Supervised Vision Foundation Model for Multi-Spectral Remote Sensing Imagery of the Andes [12.521057263579522]
我々は,3千万個のマルチスペクトル衛星画像に基づいてトレーニングされた視覚基盤モデルであるDeepAndesを紹介する。不均衡な画像分類、画像インスタンス検索、画素レベルのセマンティックセマンティックセグメンテーションタスクによる画像理解性能の評価を行った。実験の結果,DeepAndesはF1スコア,平均精度,Diceスコアを数ショットの学習シナリオで達成できることがわかった。
論文参考訳（メタデータ） (2025-04-28T23:15:09Z)
SatMamba: Development of Foundation Models for Remote Sensing Imagery Using State Space Models [0.0]
ファンデーションモデルは、自己教師付きアルゴリズムを通じて、大規模なラベル付けされていないデータセットで事前訓練されたディープラーニングモデルを指す。リモートセンシングのための様々な基礎モデルが開発されている。本研究では、マスク付きオートエンコーダとステートスペースモデルを組み合わせた新しい事前トレーニングフレームワークであるSatMambaを提案する。
論文参考訳（メタデータ） (2025-02-01T14:07:21Z)
Probing Fine-Grained Action Understanding and Cross-View Generalization of Foundation Models [13.972809192907931]
ファンデーションモデル(FM)は、広いデータセットでトレーニングされた大規模なニューラルネットワークである。ビデオにおける人間の活動認識は、異なるアーキテクチャ間の競争によって駆動されるFMによって進歩している。本稿では,視線変化が人体活動認識の微粒化における異なるFMに与える影響を実験的に評価する。
論文参考訳（メタデータ） (2024-07-22T12:59:57Z)
GM-DF: Generalized Multi-Scenario Deepfake Detection [49.072106087564144]
既存の偽造検出は、通常、単一のドメインでのトレーニングモデルのパラダイムに従う。本稿では,複数の顔偽造検出データセットを共同で訓練した場合のディープフェイク検出モデルの一般化能力について詳しく検討する。
論文参考訳（メタデータ） (2024-06-28T17:42:08Z)
State Space Model for New-Generation Network Alternative to Transformers: A Survey [52.812260379420394]
深層学習時代において、Transformerアーキテクチャは、トレーニング済みのビッグモデルとさまざまなダウンストリームタスクにまたがる強力なパフォーマンスを示してきた。注意モデルの複雑さをさらに軽減するために、より効率的な手法を設計するための多くの努力がなされている。その中でも、自己注意に基づくトランスフォーマーモデルの代替として、ステートスペースモデル(SSM)が近年ますます注目を集めている。
論文参考訳（メタデータ） (2024-04-15T07:24:45Z)
MTP: Advancing Remote Sensing Foundation Model via Multi-Task Pretraining [73.81862342673894]
ファンデーションモデルは、様々な画像解釈タスクを強化することで、リモートセンシング(RS)のランドスケープを再構築した。事前訓練されたモデルを下流のタスクに転送することは、イメージ分類やオブジェクト識別タスクとして事前訓練の定式化によるタスクの相違に遭遇する可能性がある。 SAMRSデータセット上で、セマンティックセグメンテーション、インスタンスセグメンテーション、回転オブジェクト検出を含むマルチタスクによる事前トレーニングを行う。我々のモデルは、シーン分類、水平・回転物体検出、セマンティックセグメンテーション、変化検出など、様々なRS下流タスクに基づいて微調整される。
論文参考訳（メタデータ） (2024-03-20T09:17:22Z)
Rethinking Transformers Pre-training for Multi-Spectral Satellite Imagery [78.43828998065071]
教師なし学習の最近の進歩は、下流タスクにおける有望な結果を達成するための大きな視覚モデルの可能性を示している。このような事前学習技術は、大量の未学習データが利用可能であることから、リモートセンシング領域でも最近研究されている。本稿では,マルチモーダルで効果的に活用されるマルチスケール情報の事前学習と活用について述べる。
論文参考訳（メタデータ） (2024-03-08T16:18:04Z)
Analyzing Local Representations of Self-supervised Vision Transformers [34.56680159632432]
各種自己監督型視覚変換器(ViT)の比較分析を行った。大規模言語モデルに触発されて、微調整をほとんど行わずに様々なコンピュータビジョンタスクを実行するViTの能力について検討する。
論文参考訳（メタデータ） (2023-12-31T11:38:50Z)
Semantic Segmentation of Vegetation in Remote Sensing Imagery Using Deep Learning [77.34726150561087]
本稿では,公開されているリモートセンシングデータからなるマルチモーダル・大規模時間データセットを作成するためのアプローチを提案する。我々は、異なる種類の植生を分離できる畳み込みニューラルネットワーク(CNN)モデルを使用する。
論文参考訳（メタデータ） (2022-09-28T18:51:59Z)
An empirical evaluation of attention-based multi-head models for improved turbofan engine remaining useful life prediction [9.282239595143787]
シングルユニット(ヘッド)は、多変量時系列信号に基づいて訓練されたディープラーニングアーキテクチャにおける従来の入力特徴抽出器である。この研究は、従来のシングルヘッド深層学習モデルを、コンテキスト固有のヘッドを開発することにより、より堅牢な形式に拡張する。
論文参考訳（メタデータ） (2021-09-04T01:13:47Z)
Revisiting Contrastive Methods for Unsupervised Learning of Visual Representations [78.12377360145078]
対照的な自己教師型学習は、セグメンテーションやオブジェクト検出といった多くの下流タスクにおいて教師付き事前訓練よりも優れています。本稿では,データセットのバイアスが既存手法にどのように影響するかを最初に検討する。現在のコントラストアプローチは、(i)オブジェクト中心対シーン中心、(ii)一様対ロングテール、(iii)一般対ドメイン固有データセットなど、驚くほどうまく機能することを示す。
論文参考訳（メタデータ） (2021-06-10T17:59:13Z)
PSEUDo: Interactive Pattern Search in Multivariate Time Series with Locality-Sensitive Hashing and Relevance Feedback [3.347485580830609]
PSEUDoは、マルチトラックシーケンシャルデータにおける視覚パターンを探索するための適応的機能学習技術である。提案アルゴリズムは,サブ線形学習と推論時間を特徴とする。我々は,PSEUDoの効率,精度,操縦性において優位性を示す。
論文参考訳（メタデータ） (2021-04-30T13:00:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。