論文の概要: Open-Vocabulary Remote Sensing Image Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2409.07683v1
- Date: Thu, 12 Sep 2024 01:16:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-13 18:11:59.270614
- Title: Open-Vocabulary Remote Sensing Image Semantic Segmentation
- Title(参考訳): オープンVocabulary Remote Sensing Image Semantic Segmentation
- Authors: Qinglong Cao, Yuntian Chen, Chao Ma, Xiaokang Yang,
- Abstract要約: Open-vocabulary Image semantic segmentation (OVS)は、イメージをオープンなカテゴリの集合にわたってセマンティックな領域に分割することを目指している。
これらのアプローチは、主に自然画像に適合し、リモートセンシング画像の特徴に苦慮している。
リモートセンシング画像に特化して設計された初のOVSフレームワークを提案する。
- 参考スコア(独自算出の注目度): 48.70312596065687
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open-vocabulary image semantic segmentation (OVS) seeks to segment images into semantic regions across an open set of categories. Existing OVS methods commonly depend on foundational vision-language models and utilize similarity computation to tackle OVS tasks. However, these approaches are predominantly tailored to natural images and struggle with the unique characteristics of remote sensing images, such as rapidly changing orientations and significant scale variations. These challenges complicate OVS tasks in earth vision, requiring specialized approaches. To tackle this dilemma, we propose the first OVS framework specifically designed for remote sensing imagery, drawing inspiration from the distinct remote sensing traits. Particularly, to address the varying orientations, we introduce a rotation-aggregative similarity computation module that generates orientation-adaptive similarity maps as initial semantic maps. These maps are subsequently refined at both spatial and categorical levels to produce more accurate semantic maps. Additionally, to manage significant scale changes, we integrate multi-scale image features into the upsampling process, resulting in the final scale-aware semantic masks. To advance OVS in earth vision and encourage reproducible research, we establish the first open-sourced OVS benchmark for remote sensing imagery, including four public remote sensing datasets. Extensive experiments on this benchmark demonstrate our proposed method achieves state-of-the-art performance. All codes and datasets are available at https://github.com/caoql98/OVRS.
- Abstract(参考訳): Open-vocabulary Image semantic segmentation (OVS)は、イメージをオープンなカテゴリの集合にわたってセマンティックな領域に分割することを目指している。
既存のOVSメソッドは、一般的に基本的な視覚言語モデルに依存し、OVSタスクに対処するために類似性計算を利用する。
しかしながら、これらのアプローチは、主に自然画像に適合し、急速に変化する向きや大きなスケールの変化など、リモートセンシング画像の特徴に苦慮している。
これらの課題は、地球ビジョンにおけるOVSタスクを複雑にし、特殊なアプローチを必要とする。
このジレンマに対処するために、リモートセンシング画像に特化して設計された初のOVSフレームワークを提案し、異なるリモートセンシング特性からインスピレーションを得た。
特に,方向適応類似度マップを初期意味マップとして生成する回転凝集類似度計算モジュールを導入する。
これらのマップは、より正確なセマンティックマップを生成するために、空間的およびカテゴリー的に洗練される。
さらに、大規模な変更を管理するため、マルチスケール画像特徴をアップサンプリングプロセスに統合し、最終的なスケール対応セマンティックマスクを作成する。
地球ビジョンにおけるOVSの進歩と再現可能な研究を促進するため、我々は4つのパブリックリモートセンシングデータセットを含む、リモートセンシング画像のための初のオープンソースOVSベンチマークを構築した。
このベンチマークでは,提案手法が最先端性能を実現することを実証した。
すべてのコードとデータセットはhttps://github.com/caoql98/OVRSで入手できる。
関連論文リスト
- Context and Geometry Aware Voxel Transformer for Semantic Scene Completion [7.147020285382786]
視覚に基づくセマンティックシーンコンプリート(SSC)は、様々な3次元知覚タスクに広く応用されているため、多くの注目を集めている。
既存のスパース・トゥ・デンス・アプローチでは、様々な入力画像間で共有コンテキストに依存しないクエリを使用するのが一般的である。
セマンティックシーン補完を実現するためにCGFormerというニューラルネットワークを導入する。
論文 参考訳(メタデータ) (2024-05-22T14:16:30Z) - A Transformer-Based Adaptive Semantic Aggregation Method for UAV Visual
Geo-Localization [2.1462492411694756]
本稿では,無人航空機(UAV)の視覚的ジオローカライゼーションの課題について述べる。
部分レベルの表現は、画像の詳細をキャプチャし、シーンの意味情報を理解するのに役立つため、UAVの視覚的ジオローカライゼーションには、パートマッチングが不可欠である。
画像中の最も代表的な意味論として部品を考慮に入れた変換器に基づく適応的意味的アグリゲーション手法を提案する。
論文 参考訳(メタデータ) (2024-01-03T06:58:52Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - Exploring Invariant Representation for Visible-Infrared Person
Re-Identification [77.06940947765406]
異なるスペクトルを横断する歩行者にアイデンティティを関連付けることを目的とした、クロススペクトルの人物再識別は、モダリティの相違の主な課題に直面している。
本稿では、ロバスト機能マイニングネットワーク(RFM)と呼ばれるエンドツーエンドのハイブリッド学習フレームワークにおいて、画像レベルと特徴レベルの両方の問題に対処する。
RegDBとSYSU-MM01という2つの標準的なクロススペクトル人物識別データセットの実験結果により,最先端の性能が示された。
論文 参考訳(メタデータ) (2023-02-02T05:24:50Z) - Self-Training Guided Disentangled Adaptation for Cross-Domain Remote
Sensing Image Semantic Segmentation [20.07907723950031]
本稿では,クロスドメインRS画像セマンティックセグメンテーションタスクのための自己学習ガイド型不整合適応ネットワーク(ST-DASegNet)を提案する。
まず,ソースとターゲットの両方のイメージに対して,ソーススタイルとターゲットスタイルの特徴をそれぞれ抽出するために,ソース学生のバックボーンとターゲット学生のバックボーンを提案する。
次に、ユニバーサルな特徴を抽出し、ソーススタイルとターゲットスタイルの特徴の異なる特徴を浄化するために、ドメイン非絡み合いモジュールを提案する。
論文 参考訳(メタデータ) (2023-01-13T13:11:22Z) - AF$_2$: Adaptive Focus Framework for Aerial Imagery Segmentation [86.44683367028914]
航空画像のセグメンテーションにはいくつかの独特な課題があり、中でも最も重要なものは前景と背景のアンバランスにある。
本稿では,階層的なセグメンテーション手法を採用し,マルチスケール表現を適応的に活用するAdaptive Focus Framework (AF$)を提案する。
AF$は、広く使われている3つの航空ベンチマークの精度を大幅に改善した。
論文 参考訳(メタデータ) (2022-02-18T10:14:45Z) - Mutual Affine Network for Spatially Variant Kernel Estimation in Blind
Image Super-Resolution [130.32026819172256]
既存のブラインド画像超解像法(SR)は、ぼやけたカーネルが画像全体にわたって空間的に不変であると仮定する。
本稿では,空間変動カーネル推定のための相互アフィンネットワーク(MANet)を提案する。
論文 参考訳(メタデータ) (2021-08-11T16:11:17Z) - Bidirectional Multi-scale Attention Networks for Semantic Segmentation
of Oblique UAV Imagery [30.524771772192757]
本稿では、より適応的で効果的な特徴抽出のために、複数スケールの特徴を双方向に融合する新しい双方向多スケールアテンションネットワークを提案する。
当モデルでは,平均和合(mIoU)スコア70.80%でSOTA(State-of-the-art)を達成した。
論文 参考訳(メタデータ) (2021-02-05T11:02:15Z) - Mining Cross-Image Semantics for Weakly Supervised Semantic Segmentation [128.03739769844736]
2つのニューラルコアテンションを分類器に組み込んで、画像間のセマンティックな類似点と相違点をキャプチャする。
オブジェクトパターン学習の強化に加えて、コアテンションは他の関連する画像からのコンテキストを活用して、ローカライズマップの推論を改善することができる。
提案アルゴリズムは,これらすべての設定に対して新たな最先端性を設定し,その有効性と一般化性を示す。
論文 参考訳(メタデータ) (2020-07-03T21:53:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。