論文の概要: Tuning a SAM-Based Model with Multi-Cognitive Visual Adapter to Remote Sensing Instance Segmentation
- arxiv url: http://arxiv.org/abs/2408.08576v1
- Date: Fri, 16 Aug 2024 07:23:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-19 16:17:46.697849
- Title: Tuning a SAM-Based Model with Multi-Cognitive Visual Adapter to Remote Sensing Instance Segmentation
- Title(参考訳): リモートセンシングインスタンスセグメンテーションのための多認識視覚適応器を用いたSAMモデルチューニング
- Authors: Linghao Zheng, Xinyang Pu, Feng Xu,
- Abstract要約: Segment Anything Model (SAM) は例外的な一般化能力を示す。
SAMは大規模なリモートセンシング画像の事前トレーニングを欠いているため、インタラクティブな構造は自動マスク予測能力を制限している。
マルチ認知SAMベースインスタンスモデル (MC-SAM SEG) を導入し, リモートセンシング領域にSAMを採用する。
MC-SAM SEG と呼ばれる提案手法は,SAM-Mona エンコーダの微調整と特徴アグリゲータによって高品質な特徴を抽出する。
- 参考スコア(独自算出の注目度): 4.6570959687411975
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Segment Anything Model (SAM), a foundational model designed for promptable segmentation tasks, demonstrates exceptional generalization capabilities, making it highly promising for natural scene image segmentation. However, SAM's lack of pretraining on massive remote sensing images and its interactive structure limit its automatic mask prediction capabilities. In this paper, a Multi-Cognitive SAM-Based Instance Segmentation Model (MC-SAM SEG) is introduced to employ SAM on remote sensing domain. The SAM-Mona encoder utilizing the Multi-cognitive Visual Adapter (Mona) is conducted to facilitate SAM's transfer learning in remote sensing applications. The proposed method named MC-SAM SEG extracts high-quality features by fine-tuning the SAM-Mona encoder along with a feature aggregator. Subsequently, a pixel decoder and transformer decoder are designed for prompt-free mask generation and instance classification. The comprehensive experiments are conducted on the HRSID and WHU datasets for instance segmentation tasks on Synthetic Aperture Radar (SAR) images and optical remote sensing images respectively. The evaluation results indicate the proposed method surpasses other deep learning algorithms and verify its effectiveness and generalization.
- Abstract(参考訳): Segment Anything Model (SAM)は、素早いセグメンテーションタスク用に設計された基礎モデルであり、例外的な一般化能力を示し、自然なシーン画像セグメンテーションに高い期待を寄せている。
しかし、SAMは大規模なリモートセンシング画像の事前訓練を欠いているため、そのインタラクティブな構造は自動マスク予測能力を制限している。
本稿では,Multi-Cognitive SAM-Based Instance Segmentation Model (MC-SAM SEG)を導入し,SAMをリモートセンシング領域に適用する。
The SAM-Mona encoder using the Multi-cognitive Visual Adapter (Mona) was performed to help SAM's transfer learning in remote sensor applications。
MC-SAM SEG と呼ばれる提案手法は,SAM-Mona エンコーダの微調整と特徴アグリゲータによって高品質な特徴を抽出する。
その後、プロンプトフリーマスク生成とインスタンス分類のために、ピクセルデコーダとトランスフォーマーデコーダが設計される。
総合的な実験は、合成開口レーダ(SAR)画像と光リモートセンシング画像のサンプルセグメンテーションタスクのためのRSIDデータセットとWHUデータセットを用いて行われた。
評価結果は,提案手法が他の深層学習アルゴリズムを超越し,その有効性と一般化を検証したことを示している。
関連論文リスト
- Adapting Segment Anything Model for Unseen Object Instance Segmentation [70.60171342436092]
Unseen Object Instance(UOIS)は、非構造環境で動作する自律ロボットにとって不可欠である。
UOISタスクのためのデータ効率のよいソリューションであるUOIS-SAMを提案する。
UOIS-SAMは、(i)HeatmapベースのPrompt Generator(HPG)と(ii)SAMのマスクデコーダに適応する階層識別ネットワーク(HDNet)の2つの重要なコンポーネントを統合する。
論文 参考訳(メタデータ) (2024-09-23T19:05:50Z) - Multi-Scale and Detail-Enhanced Segment Anything Model for Salient Object Detection [58.241593208031816]
Segment Anything Model (SAM) は、強力なセグメンテーションと一般化機能を提供する視覚的基本モデルとして提案されている。
実物検出のためのMDSAM(Multi-scale and Detail-enhanced SAM)を提案する。
実験により,複数のSODデータセット上でのモデルの優れた性能が示された。
論文 参考訳(メタデータ) (2024-08-08T09:09:37Z) - MAS-SAM: Segment Any Marine Animal with Aggregated Features [55.91291540810978]
そこで本研究では,海洋生物のセグメンテーションのためのMAS-SAMという新しい特徴学習フレームワークを提案する。
本手法により,グローバルな文脈的手がかりからよりリッチな海洋情報を抽出し,よりきめ細かな局部的詳細を抽出できる。
論文 参考訳(メタデータ) (2024-04-24T07:38:14Z) - SAMCT: Segment Any CT Allowing Labor-Free Task-Indicator Prompts [28.171383990186904]
我々は、公開データセットから1.1MのCT画像と5Mのマスクからなる大規模なCTデータセットを構築した。
我々は、労働自由なプロンプトを可能にする強力な基盤モデルSAMCTを提案する。
SAMに基づいてSAMCTはさらに、CNNイメージエンコーダ、クロスブランチインタラクションモジュール、タスクインディケータプロンプトエンコーダを備えている。
論文 参考訳(メタデータ) (2024-03-20T02:39:15Z) - RSAM-Seg: A SAM-based Approach with Prior Knowledge Integration for
Remote Sensing Image Semantic Segmentation [10.37240769959699]
Segment Anything Model (SAM)は、イメージセグメンテーションタスクのための普遍的な事前トレーニングモデルを提供する。
本稿では,セマンティックを用いたリモートセンシングSAM(RSAM-Seg)を提案する。
SAMのエンコーダ部分のマルチヘッドアテンションブロックにおいて,アダプタスケール(Adapter-Scale)が提案されている。
クラウド検出、フィールド監視、ビル検出、道路マッピングタスクを含む4つの異なるリモートセンシングシナリオで実験が行われた。
論文 参考訳(メタデータ) (2024-02-29T09:55:46Z) - VRP-SAM: SAM with Visual Reference Prompt [73.05676082695459]
そこで我々は,Segment Anything Model (SAM) を利用した新しいVisual Reference Prompt (VRP) エンコーダを提案する。
本質的には、VRP-SAMは注釈付き参照画像を使用して特定のオブジェクトを理解し、ターゲット画像内の特定のオブジェクトのセグメンテーションを実行することができる。
論文 参考訳(メタデータ) (2024-02-27T17:58:09Z) - ClassWise-SAM-Adapter: Parameter Efficient Fine-tuning Adapts Segment
Anything to SAR Domain for Semantic Segmentation [6.229326337093342]
Segment Anything Model (SAM) は意味情報と一般化能力に依存する様々なセグメンテーションシナリオを抽出する。
The ClassWiseSAM-Adapter (CWSAM) is designed to adapt the high-performing SAM for landcover classification on Spaceborne Synthetic Aperture Radar (SAR) images。
CWSAMは、少ないコンピューティングリソースでパフォーマンスを向上する。
論文 参考訳(メタデータ) (2024-01-04T15:54:45Z) - RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。
提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。
我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文 参考訳(メタデータ) (2023-07-03T13:21:58Z) - The Segment Anything Model (SAM) for Remote Sensing Applications: From
Zero to One Shot [6.500451285898152]
本研究は,リモートセンシング画像解析におけるSegment Anything Model(SAM)の適用を推し進めることを目的としている。
SAMは例外的な一般化能力とゼロショット学習で知られている。
空間分解能の低い画像で発生する限界にもかかわらず、SAMはリモートセンシングデータ解析に有望な適応性を示す。
論文 参考訳(メタデータ) (2023-06-29T01:49:33Z) - RSPrompter: Learning to Prompt for Remote Sensing Instance Segmentation
based on Visual Foundation Model [29.42043345787285]
本稿では,Segment Anything Model (SAM) のための適切なプロンプトの生成を学習する手法を提案する。
これによりSAMはリモートセンシング画像に対して意味的に識別可能なセグメンテーション結果を生成することができる。
また,SAMコミュニティ内での最近の進歩を図り,その性能をRSPrompterと比較する。
論文 参考訳(メタデータ) (2023-06-28T14:51:34Z) - AutoSAM: Adapting SAM to Medical Images by Overloading the Prompt
Encoder [101.28268762305916]
この作業では、Segment Anything Modelを同じ入力イメージで動作するエンコーダに置き換える。
複数の医用画像とビデオのベンチマークで最先端の結果を得る。
内部の知識を検査し、軽量なセグメンテーションソリューションを提供するために、浅いデコンボリューションネットワークによってマスクに復号化することを学ぶ。
論文 参考訳(メタデータ) (2023-06-10T07:27:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。