論文の概要: AerOSeg: Harnessing SAM for Open-Vocabulary Segmentation in Remote Sensing Images
- arxiv url: http://arxiv.org/abs/2504.09203v1
- Date: Sat, 12 Apr 2025 13:06:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-23 09:02:47.182383
- Title: AerOSeg: Harnessing SAM for Open-Vocabulary Segmentation in Remote Sensing Images
- Title(参考訳): AerOSeg:リモートセンシング画像におけるオープンボキャブラリセグメンテーションのためのハーネス化SAM
- Authors: Saikat Dutta, Akhil Vasim, Siddhant Gole, Hamid Rezatofighi, Biplab Banerjee,
- Abstract要約: AerOSegは、リモートセンシングデータのための新しいOpen-Vocabulary (OVS)アプローチである。
入力画像の回転バージョンとドメイン固有のプロンプトを用いて、ロバストな画像-テキスト相関特性を計算する。
多様な領域におけるSegment Anything Model(SAM)の成功に触発されて、SAMの特徴を活用し、相関特徴の空間的洗練を導出する。
我々は, マルチスケールのアテンション・アウェア・コンポジションを用いて, 最終的なセグメンテーション・マップを作成することにより, 改良された相関性を向上する。
- 参考スコア(独自算出の注目度): 21.294581646546124
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image segmentation beyond predefined categories is a key challenge in remote sensing, where novel and unseen classes often emerge during inference. Open-vocabulary image Segmentation addresses these generalization issues in traditional supervised segmentation models while reducing reliance on extensive per-pixel annotations, which are both expensive and labor-intensive to obtain. Most Open-Vocabulary Segmentation (OVS) methods are designed for natural images but struggle with remote sensing data due to scale variations, orientation changes, and complex scene compositions. This necessitates the development of OVS approaches specifically tailored for remote sensing. In this context, we propose AerOSeg, a novel OVS approach for remote sensing data. First, we compute robust image-text correlation features using multiple rotated versions of the input image and domain-specific prompts. These features are then refined through spatial and class refinement blocks. Inspired by the success of the Segment Anything Model (SAM) in diverse domains, we leverage SAM features to guide the spatial refinement of correlation features. Additionally, we introduce a semantic back-projection module and loss to ensure the seamless propagation of SAM's semantic information throughout the segmentation pipeline. Finally, we enhance the refined correlation features using a multi-scale attention-aware decoder to produce the final segmentation map. We validate our SAM-guided Open-Vocabulary Remote Sensing Segmentation model on three benchmark remote sensing datasets: iSAID, DLRSD, and OpenEarthMap. Our model outperforms state-of-the-art open-vocabulary segmentation methods, achieving an average improvement of 2.54 h-mIoU.
- Abstract(参考訳): イメージセグメンテーションは、事前に定義されたカテゴリを超えて、新しいクラスや見えないクラスが推論中に出現するリモートセンシングにおいて重要な課題である。
オープンボキャブラリ画像のセグメンテーションは、従来の教師付きセグメンテーションモデルにおけるこれらの一般化問題に対処すると同時に、コストも労力もかかる大規模なピクセル単位のアノテーションへの依存を減らす。
ほとんどのOpen-Vocabulary Segmentation (OVS) 法は、自然画像用に設計されているが、スケールのばらつき、方向の変化、複雑なシーン構成のためにリモートセンシングデータに苦労している。
これにより、リモートセンシングに適したOVSアプローチの開発が必要とされる。
本稿では,リモートセンシングデータのための新しいOVSアプローチであるAerOSegを提案する。
まず、入力画像の複数回転バージョンとドメイン固有のプロンプトを用いて、ロバストな画像-テキスト相関特性を計算する。
これらの特徴は、空間的およびクラス的精細化ブロックによって洗練される。
多様な領域におけるSegment Anything Model(SAM)の成功に触発されて、SAMの特徴を活用し、相関特徴の空間的洗練を導出する。
さらに,セグメンテーションパイプラインを通してSAMのセグメンテーション情報のシームレスな伝播を保証するために,セグメンテーション・バックプロジェクション・モジュールとロスを導入する。
最後に,マルチスケールアテンション・アウェア・デコーダを用いて,最終的なセグメンテーションマップを作成することにより,改良された相関性を向上する。
我々は,ISAID,DLRSD,OpenEarthMapの3つのベンチマークリモートセンシングデータセットを用いて,SAM誘導型オープンボキャブラリリモートセンシングセグメンテーションモデルを検証した。
我々のモデルは最先端のオープン語彙セグメンテーション法より優れ、2.54 h-mIoUの平均的な改善を実現している。
関連論文リスト
- Towards Open-Vocabulary Remote Sensing Image Semantic Segmentation [16.58381088280145]
我々は,OVRSISS(Open-Vocabulary Remote Sensing Image Semantic)を導入し,任意のセマンティッククラスをリモートセンシング画像に分割する。
OVRSISSデータセットの欠如に対処するため、40の多様なセマンティッククラスをカバーする51,846イメージの包括的なデータセットであるLandDiscover50Kを開発した。
さらに,特殊なリモートセンシングモデルと汎用視覚言語モデルの汎用機能から,ドメインの事前情報を統合したGSNetという新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-27T07:20:30Z) - Joint-Optimized Unsupervised Adversarial Domain Adaptation in Remote Sensing Segmentation with Prompted Foundation Model [32.03242732902217]
本稿では、ソースドメインデータに基づいてトレーニングされたモデルをターゲットドメインサンプルに適用するという課題に対処する。
SAM(Segment Anything Model)とSAM-JOANet(SAM-JOANet)を併用した協調最適化対向ネットワークを提案する。
論文 参考訳(メタデータ) (2024-11-08T02:15:20Z) - Open-Vocabulary Remote Sensing Image Semantic Segmentation [48.70312596065687]
Open-vocabulary Image semantic segmentation (OVS)は、イメージをオープンなカテゴリの集合にわたってセマンティックな領域に分割することを目指している。
これらのアプローチは、主に自然画像に適合し、リモートセンシング画像の特徴に苦慮している。
リモートセンシング画像に特化して設計された初のOVSフレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-12T01:16:25Z) - SatSynth: Augmenting Image-Mask Pairs through Diffusion Models for Aerial Semantic Segmentation [69.42764583465508]
我々は,地球観測における注釈付きデータの不足に対処するために,生成的画像拡散の可能性を探る。
我々の知る限りでは、衛星セグメンテーションのための画像と対応するマスクの両方を最初に生成する。
論文 参考訳(メタデータ) (2024-03-25T10:30:22Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。
提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。
我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文 参考訳(メタデータ) (2023-07-03T13:21:58Z) - Text2Seg: Remote Sensing Image Semantic Segmentation via Text-Guided Visual Foundation Models [7.452422412106768]
リモートセマンティックセマンティックセグメンテーションのためのText2Segという新しい手法を提案する。
自動プロンプト生成プロセスを使用することで、広範なアノテーションへの依存を克服する。
我々は,Text2SegがバニラSAMモデルと比較してゼロショット予測性能を著しく向上することを示した。
論文 参考訳(メタデータ) (2023-04-20T18:39:41Z) - AF$_2$: Adaptive Focus Framework for Aerial Imagery Segmentation [86.44683367028914]
航空画像のセグメンテーションにはいくつかの独特な課題があり、中でも最も重要なものは前景と背景のアンバランスにある。
本稿では,階層的なセグメンテーション手法を採用し,マルチスケール表現を適応的に活用するAdaptive Focus Framework (AF$)を提案する。
AF$は、広く使われている3つの航空ベンチマークの精度を大幅に改善した。
論文 参考訳(メタデータ) (2022-02-18T10:14:45Z) - Remote Sensing Images Semantic Segmentation with General Remote Sensing
Vision Model via a Self-Supervised Contrastive Learning Method [13.479068312825781]
リモートセマンティックセグメンテーションのためのGlobal style and Local matching Contrastive Learning Network (GLCNet)を提案する。
具体的には、画像レベルの表現をより良く学習するために、グローバルスタイルのコントラストモジュールが使用される。
コントラストモジュールにマッチするローカル特徴は、セマンティックセグメンテーションに有用なローカル領域の表現を学習するために設計されている。
論文 参考訳(メタデータ) (2021-06-20T03:03:40Z) - Dual Attention GANs for Semantic Image Synthesis [101.36015877815537]
本稿では,写真リアリスティック・セマンティック・一貫性のあるイメージを合成するための新しいデュアルアテンションGAN(DAGAN)を提案する。
また,2つの新しいモジュール,すなわち位置対応空間アテンションモジュール(SAM)と規模対応チャネルアテンションモジュール(CAM)を提案する。
DAGANは、より少ないモデルパラメータを使用しながら、最先端のメソッドよりも驚くほど優れた結果が得られる。
論文 参考訳(メタデータ) (2020-08-29T17:49:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。