論文の概要: Towards Open-Vocabulary Remote Sensing Image Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2412.19492v1
- Date: Fri, 27 Dec 2024 07:20:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-30 17:25:07.228631
- Title: Towards Open-Vocabulary Remote Sensing Image Semantic Segmentation
- Title(参考訳): オープンボキャブラリリモートセンシング画像セマンティックセグメンテーションに向けて
- Authors: Chengyang Ye, Yunzhi Zhuge, Pingping Zhang,
- Abstract要約: 我々は,OVRSISS(Open-Vocabulary Remote Sensing Image Semantic)を導入し,任意のセマンティッククラスをリモートセンシング画像に分割する。
OVRSISSデータセットの欠如に対処するため、40の多様なセマンティッククラスをカバーする51,846イメージの包括的なデータセットであるLandDiscover50Kを開発した。
さらに,特殊なリモートセンシングモデルと汎用視覚言語モデルの汎用機能から,ドメインの事前情報を統合したGSNetという新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 16.58381088280145
- License:
- Abstract: Recently, deep learning based methods have revolutionized remote sensing image segmentation. However, these methods usually rely on a pre-defined semantic class set, thus needing additional image annotation and model training when adapting to new classes. More importantly, they are unable to segment arbitrary semantic classes. In this work, we introduce Open-Vocabulary Remote Sensing Image Semantic Segmentation (OVRSISS), which aims to segment arbitrary semantic classes in remote sensing images. To address the lack of OVRSISS datasets, we develop LandDiscover50K, a comprehensive dataset of 51,846 images covering 40 diverse semantic classes. In addition, we propose a novel framework named GSNet that integrates domain priors from special remote sensing models and versatile capabilities of general vision-language models. Technically, GSNet consists of a Dual-Stream Image Encoder (DSIE), a Query-Guided Feature Fusion (QGFF), and a Residual Information Preservation Decoder (RIPD). DSIE first captures comprehensive features from both special models and general models in dual streams. Then, with the guidance of variable vocabularies, QGFF integrates specialist and generalist features, enabling them to complement each other. Finally, RIPD is proposed to aggregate multi-source features for more accurate mask predictions. Experiments show that our method outperforms other methods by a large margin, and our proposed LandDiscover50K improves the performance of OVRSISS methods. The proposed dataset and method will be made publicly available at https://github.com/yecy749/GSNet.
- Abstract(参考訳): 近年,深層学習に基づく手法がリモートセンシング画像セグメンテーションに革命をもたらした。
しかしながら、これらのメソッドは通常、事前に定義されたセマンティッククラスセットに依存しており、新しいクラスに適応する際には、追加の画像アノテーションとモデルトレーニングが必要である。
さらに重要なのは、任意のセマンティッククラスをセグメント化できないことです。
本稿では,OVRSISS(Open-Vocabulary Remote Sensing Image Semantic Segmentation)を紹介する。
OVRSISSデータセットの欠如に対処するため、40の多様なセマンティッククラスをカバーする51,846イメージの包括的なデータセットであるLandDiscover50Kを開発した。
さらに,特殊なリモートセンシングモデルと汎用視覚言語モデルの汎用機能から,ドメインの事前情報を統合したGSNetという新しいフレームワークを提案する。
技術的には、GSNetはDual-Stream Image Encoder (DSIE)、Query-Guided Feature Fusion (QGFF)、Residual Information Preservation Decoder (RIPD)で構成されている。
DSIEはまず、特殊モデルと汎用モデルの両方から、デュアルストリームで包括的な機能をキャプチャする。
そして、可変語彙のガイダンスにより、QGFFは専門家とジェネラリストの機能を統合し、相互に補完することができる。
最後に、RIPDはより正確なマスク予測のためにマルチソース機能を集約するために提案されている。
実験により,本手法は他手法よりも高い性能を示し,提案したLandDiscover50KはOVRSISS法の性能を向上させる。
提案されたデータセットとメソッドは、https://github.com/yecy749/GSNetで公開される。
関連論文リスト
- MetaSegNet: Metadata-collaborative Vision-Language Representation Learning for Semantic Segmentation of Remote Sensing Images [7.0622873873577054]
リモートセンシング画像のセグメンテーションのための新しいメタデータ協調セグメンテーションネットワーク(MetaSegNet)を提案する。
一元的視覚データのみを使用する一般的なモデル構造とは異なり、我々は自由に利用可能なリモートセンシング画像メタデータから重要な特徴を抽出する。
画像エンコーダ,テキストエンコーダ,およびクロスモーダルアテンション融合サブネットワークを構築し,画像とテキストの特徴を抽出する。
論文 参考訳(メタデータ) (2023-12-20T03:16:34Z) - Remote Sensing Vision-Language Foundation Models without Annotations via
Ground Remote Alignment [61.769441954135246]
テキストアノテーションを使わずにリモートセンシング画像の視覚言語モデルを訓練する手法を提案する。
私たちの重要な洞察は、リモートセンシング画像と言語を接続するための仲介手段として、地上で撮影されたコロケーションのインターネットイメージを使用することです。
論文 参考訳(メタデータ) (2023-12-12T03:39:07Z) - SemiVL: Semi-Supervised Semantic Segmentation with Vision-Language
Guidance [97.00445262074595]
半教師付きセマンティックセマンティックセグメンテーションに視覚言語モデルからの豊富な事前情報を統合することを提案する。
我々は、視覚と言語を共同で推論する言語誘導デコーダを設計する。
4つのセマンティックセグメンテーションデータセット上でSemiVLを評価する。
論文 参考訳(メタデータ) (2023-11-27T19:00:06Z) - Not Just Learning from Others but Relying on Yourself: A New Perspective
on Few-Shot Segmentation in Remote Sensing [14.37799301656178]
Few-shot segmentation (FSS) は、いくつかの注釈付きサンプルで未知のクラスターゲットをセグメンテーションするために提案されている。
我々は、クロスイメージマイニングとセルフマイニングのためのDMNetというデュアルマイニングネットワークを開発した。
Resnet-50のバックボーンを持つ我々のモデルは、1ショットと5ショット設定でiSAID上で49.58%と51.34%のmIoUを達成する。
論文 参考訳(メタデータ) (2023-10-19T04:09:10Z) - Self-Correlation and Cross-Correlation Learning for Few-Shot Remote
Sensing Image Semantic Segmentation [27.59330408178435]
リモートセマンティックセマンティックセマンティックセマンティクスは、クエリイメージからターゲットオブジェクトをセグメントすることを学ぶことを目的としている。
本稿では,数発のリモートセンシング画像セマンティックセマンティックセグメンテーションのための自己相関・相互相関学習ネットワークを提案する。
本モデルは,サポート画像とクエリ画像の自己相関と相互相関の両方を考慮し,一般化を促進させる。
論文 参考訳(メタデータ) (2023-09-11T21:53:34Z) - Reflection Invariance Learning for Few-shot Semantic Segmentation [53.20466630330429]
Few-shot semantic segmentation (FSS) は、いくつかのアノテーション付きサポートイメージを持つクエリイメージにおいて、目に見えないクラスのオブジェクトをセグメントすることを目的としている。
本稿では,マルチビューマッチング方式でリフレクション不変性をマイニングするための,新しい数ショットセグメンテーションフレームワークを提案する。
PASCAL-$5textiti$とCOCO-$20textiti$データセットの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2023-06-01T15:14:58Z) - Text2Seg: Remote Sensing Image Semantic Segmentation via Text-Guided Visual Foundation Models [7.452422412106768]
リモートセマンティックセマンティックセグメンテーションのためのText2Segという新しい手法を提案する。
自動プロンプト生成プロセスを使用することで、広範なアノテーションへの依存を克服する。
我々は,Text2SegがバニラSAMモデルと比較してゼロショット予測性能を著しく向上することを示した。
論文 参考訳(メタデータ) (2023-04-20T18:39:41Z) - Distilling Ensemble of Explanations for Weakly-Supervised Pre-Training
of Image Segmentation Models [54.49581189337848]
本稿では,分類データセットに基づく画像分割モデルのエンドツーエンド事前学習を可能にする手法を提案する。
提案手法は重み付きセグメンテーション学習法を利用して,重み付きセグメンテーションネットワークを事前訓練する。
実験の結果,ImageNetにソースデータセットとしてPSSLを伴って提案されたエンドツーエンドの事前トレーニング戦略が,さまざまなセグメンテーションモデルの性能向上に成功していることがわかった。
論文 参考訳(メタデータ) (2022-07-04T13:02:32Z) - AF$_2$: Adaptive Focus Framework for Aerial Imagery Segmentation [86.44683367028914]
航空画像のセグメンテーションにはいくつかの独特な課題があり、中でも最も重要なものは前景と背景のアンバランスにある。
本稿では,階層的なセグメンテーション手法を採用し,マルチスケール表現を適応的に活用するAdaptive Focus Framework (AF$)を提案する。
AF$は、広く使われている3つの航空ベンチマークの精度を大幅に改善した。
論文 参考訳(メタデータ) (2022-02-18T10:14:45Z) - Boosting Few-shot Semantic Segmentation with Transformers [81.43459055197435]
TRansformer-based Few-shot Semantic segmentation Method (TRFS)
我々のモデルは,グローバル・エンハンスメント・モジュール(GEM)とローカル・エンハンスメント・モジュール(LEM)の2つのモジュールから構成される。
論文 参考訳(メタデータ) (2021-08-04T20:09:21Z) - Remote Sensing Images Semantic Segmentation with General Remote Sensing
Vision Model via a Self-Supervised Contrastive Learning Method [13.479068312825781]
リモートセマンティックセグメンテーションのためのGlobal style and Local matching Contrastive Learning Network (GLCNet)を提案する。
具体的には、画像レベルの表現をより良く学習するために、グローバルスタイルのコントラストモジュールが使用される。
コントラストモジュールにマッチするローカル特徴は、セマンティックセグメンテーションに有用なローカル領域の表現を学習するために設計されている。
論文 参考訳(メタデータ) (2021-06-20T03:03:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。