Fugu-MT 論文翻訳(概要): Adapting Segment Anything Model for Change Detection in HR Remote Sensing Images

論文の概要: Adapting Segment Anything Model for Change Detection in HR Remote Sensing Images

arxiv url: http://arxiv.org/abs/2309.01429v4
Date: Thu, 25 Jan 2024 17:02:49 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-26 18:02:10.216845
Title: Adapting Segment Anything Model for Change Detection in HR Remote Sensing Images
Title（参考訳）: HRリモートセンシング画像における変化検出のためのセグメントモデルの適用
Authors: Lei Ding, Kun Zhu, Daifeng Peng, Hao Tang, Kuiwu Yang and Lorenzo Bruzzone
Abstract要約: 本研究は、高解像度リモートセンシング画像(RSI)の変化検出を改善するために、ビジョンファウンデーションモデル(VFM)の強力な視覚認識機能を活用することを目的とする。我々は、能率的なSAMの変種であるFastSAMの視覚エンコーダを用いて、RSシーンの視覚表現を抽出する。 SAMの特徴に固有の意味表現を活用するために、両時間RSIにおける意味潜在をモデル化するためのタスク非依存の意味学習ブランチを導入する。その結果, SAMCDはSOTA法よりも精度が高く, セミに匹敵するサンプル効率の学習能力を示す。
参考スコア（独自算出の注目度）: 18.371087310792287
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Vision Foundation Models (VFMs) such as the Segment Anything Model (SAM) allow zero-shot or interactive segmentation of visual contents, thus they are quickly applied in a variety of visual scenes. However, their direct use in many Remote Sensing (RS) applications is often unsatisfactory due to the special imaging characteristics of RS images. In this work, we aim to utilize the strong visual recognition capabilities of VFMs to improve the change detection of high-resolution Remote Sensing Images (RSIs). We employ the visual encoder of FastSAM, an efficient variant of the SAM, to extract visual representations in RS scenes. To adapt FastSAM to focus on some specific ground objects in the RS scenes, we propose a convolutional adaptor to aggregate the task-oriented change information. Moreover, to utilize the semantic representations that are inherent to SAM features, we introduce a task-agnostic semantic learning branch to model the semantic latent in bi-temporal RSIs. The resulting method, SAMCD, obtains superior accuracy compared to the SOTA methods and exhibits a sample-efficient learning ability that is comparable to semi-supervised CD methods. To the best of our knowledge, this is the first work that adapts VFMs for the CD of HR RSIs.
Abstract（参考訳）: Segment Anything Model (SAM) のような視覚基礎モデル(VFM)は、ゼロショットまたはインタラクティブな視覚内容のセグメンテーションを可能にするため、様々な視覚シーンに迅速に適用することができる。しかし、多くのリモートセンシング(rs)アプリケーションでの直接の使用は、rs画像の特別な撮像特性のため、しばしば不十分である。本研究では,高解像度リモートセンシング画像(RSI)の変化検出を改善するために,VFMの強力な視覚認識機能を活用することを目的とする。我々は、能率的なSAMの変種であるFastSAMの視覚エンコーダを用いて、RSシーンの視覚表現を抽出する。我々は,FastSAMをRSシーンの特定の基底オブジェクトに適応させるために,タスク指向の変更情報を集約する畳み込み適応器を提案する。さらに、SAMの特徴に固有の意味表現を活用するために、両時間RSIにおける意味潜在をモデル化するためのタスク非依存の意味学習ブランチを導入する。 SAMCD法は,SOTA法と比較して精度が高く,半教師付きCD法に匹敵する標本効率の学習能力を示す。私たちの知る限りでは、HR RSIのCDにVFMを適用する最初の作品です。

関連論文リスト

Semi-supervised Semantic Segmentation for Remote Sensing Images via Multi-scale Uncertainty Consistency and Cross-Teacher-Student Attention [59.19580789952102]
本稿では,RS画像セマンティックセグメンテーションタスクのための,新しい半教師付きマルチスケール不確かさとクロスTeacher-Student Attention(MUCA)モデルを提案する。 MUCAは、マルチスケールの不確実性整合正則化を導入することにより、ネットワークの異なる層における特徴写像間の整合性を制限する。 MUCAは学生ネットワークの誘導にクロス教師・学生の注意機構を使用し、学生ネットワークにより差別的な特徴表現を構築するよう誘導する。
論文参考訳（メタデータ） (2025-01-18T11:57:20Z)
UniRS: Unifying Multi-temporal Remote Sensing Tasks through Vision Language Models [23.044366104080822]
textbfUniRSは視覚言語モデルとして最初のbftextremote bftextsensingタスクである。 UniRSはシングルイメージ、デュアルタイムイメージペア、ビデオを入力としてサポートし、総合的なリモートセンシング時間分析を可能にする。実験の結果、UniRSは様々なタスクで最先端のパフォーマンスを実現していることがわかった。
論文参考訳（メタデータ） (2024-12-30T06:34:18Z)
RSUniVLM: A Unified Vision Language Model for Remote Sensing via Granularity-oriented Mixture of Experts [17.76606110070648]
複数の粒度にまたがる包括的視覚理解のための統一型エンドツーエンドRS VLMであるRSUniVLMを提案する。 RSUniVLMは、変更検出や変更キャプションのインスタンスを含む、マルチイメージ解析において効果的に機能する。また、RSと一般ドメインの両方の既存のデータセットに基づいて、大規模なRS命令追従データセットを構築した。
論文参考訳（メタデータ） (2024-12-07T15:11:21Z)
Tuning a SAM-Based Model with Multi-Cognitive Visual Adapter to Remote Sensing Instance Segmentation [4.6570959687411975]
Segment Anything Model (SAM) は例外的な一般化能力を示す。 SAMは大規模なリモートセンシング画像の事前トレーニングを欠いているため、インタラクティブな構造は自動マスク予測能力を制限している。マルチ認知SAMベースインスタンスモデル (MC-SAM SEG) を導入し, リモートセンシング領域にSAMを採用する。 MC-SAM SEG と呼ばれる提案手法は,SAM-Mona エンコーダの微調整と特徴アグリゲータによって高品質な特徴を抽出する。
論文参考訳（メタデータ） (2024-08-16T07:23:22Z)
Efficient Visual State Space Model for Image Deblurring [83.57239834238035]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、画像復元において優れた性能を発揮している。本稿では,画像のデブロアに対する簡易かつ効果的な視覚状態空間モデル(EVSSM)を提案する。
論文参考訳（メタデータ） (2024-05-23T09:13:36Z)
RS-Mamba for Large Remote Sensing Image Dense Prediction [58.12667617617306]
本稿では,大規模なVHRリモートセンシング画像における高密度予測タスクに対するリモートセンシング・マンバ(RSM)を提案する。 RSMは、線形複雑度でリモートセンシング画像のグローバルなコンテキストを捉えるように設計されている。我々のモデルは、大規模なリモートセンシング画像の変換器ベースモデルよりも効率と精度がよい。
論文参考訳（メタデータ） (2024-04-03T12:06:01Z)
RSAM-Seg: A SAM-based Approach with Prior Knowledge Integration for Remote Sensing Image Semantic Segmentation [10.37240769959699]
Segment Anything Model (SAM)は、イメージセグメンテーションタスクのための普遍的な事前トレーニングモデルを提供する。本稿では,セマンティックを用いたリモートセンシングSAM(RSAM-Seg)を提案する。 SAMのエンコーダ部分のマルチヘッドアテンションブロックにおいて,アダプタスケール(Adapter-Scale)が提案されている。クラウド検出、フィールド監視、ビル検出、道路マッピングタスクを含む4つの異なるリモートセンシングシナリオで実験が行われた。
論文参考訳（メタデータ） (2024-02-29T09:55:46Z)
ClassWise-SAM-Adapter: Parameter Efficient Fine-tuning Adapts Segment Anything to SAR Domain for Semantic Segmentation [6.229326337093342]
Segment Anything Model (SAM) は意味情報と一般化能力に依存する様々なセグメンテーションシナリオを抽出する。 The ClassWiseSAM-Adapter (CWSAM) is designed to adapt the high-performing SAM for landcover classification on Spaceborne Synthetic Aperture Radar (SAR) images。 CWSAMは、少ないコンピューティングリソースでパフォーマンスを向上する。
論文参考訳（メタデータ） (2024-01-04T15:54:45Z)
Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文参考訳（メタデータ） (2023-12-19T08:14:14Z)
RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文参考訳（メタデータ） (2023-07-03T13:21:58Z)
The Segment Anything Model (SAM) for Remote Sensing Applications: From Zero to One Shot [6.500451285898152]
本研究は,リモートセンシング画像解析におけるSegment Anything Model(SAM)の適用を推し進めることを目的としている。 SAMは例外的な一般化能力とゼロショット学習で知られている。空間分解能の低い画像で発生する限界にもかかわらず、SAMはリモートセンシングデータ解析に有望な適応性を示す。
論文参考訳（メタデータ） (2023-06-29T01:49:33Z)
An Empirical Study of Remote Sensing Pretraining [117.90699699469639]
本研究では,空中画像におけるリモートセンシング事前訓練(RSP)の実証的研究を行った。 RSPは、シーン認識タスクで特有のパフォーマンスを提供するのに役立つ。 RSPは、従来のイメージネットがRS画像に事前学習する際のデータ格差を緩和するが、それでもタスクの相違に悩まされる可能性がある。
論文参考訳（メタデータ） (2022-04-06T13:38:11Z)
Contrastive Multiview Coding with Electro-optics for SAR Semantic Segmentation [0.6445605125467573]
SARセマンティックセグメンテーションのためのマルチモーダル表現学習を提案する。従来の研究とは異なり,本手法ではEO画像,SAR画像,ラベルマスクを併用した。いくつかの実験により,本手法はモデル性能,サンプル効率,収束速度において既存の手法よりも優れていることが示された。
論文参考訳（メタデータ） (2021-08-31T23:55:41Z)
Semantics-aware Adaptive Knowledge Distillation for Sensor-to-Vision Action Recognition [131.6328804788164]
本稿では,視覚・センサ・モダリティ(動画)における行動認識を強化するためのフレームワーク,Semantics-Aware Adaptive Knowledge Distillation Networks (SAKDN)を提案する。 SAKDNは複数のウェアラブルセンサーを教師のモダリティとして使用し、RGB動画を学生のモダリティとして使用している。
論文参考訳（メタデータ） (2020-09-01T03:38:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。