論文の概要: Exploring Efficient Open-Vocabulary Segmentation in the Remote Sensing
- arxiv url: http://arxiv.org/abs/2509.12040v1
- Date: Mon, 15 Sep 2025 15:24:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:23.365275
- Title: Exploring Efficient Open-Vocabulary Segmentation in the Remote Sensing
- Title(参考訳): リモートセンシングにおける効率的な開語彙セグメンテーションの探索
- Authors: Bingyu Li, Haocheng Dong, Da Zhang, Zhiyuan Zhao, Junyu Gao, Xuelong Li,
- Abstract要約: Open-Vocabulary Remote Sensing Image (OVRSIS)は、OVS(Open-Vocabulary)をリモートセンシング(RS)ドメインに適応させる新しいタスクである。
textbfRSKT-Segは、リモートセンシングに適した新しいオープン語彙セグメンテーションフレームワークである。
RSKT-Segは高いOVSベースラインを+3.8 mIoUと+5.9 mACCで上回り、効率的なアグリゲーションによって2倍高速な推論を実現している。
- 参考スコア(独自算出の注目度): 55.291219073365546
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Open-Vocabulary Remote Sensing Image Segmentation (OVRSIS), an emerging task that adapts Open-Vocabulary Segmentation (OVS) to the remote sensing (RS) domain, remains underexplored due to the absence of a unified evaluation benchmark and the domain gap between natural and RS images. To bridge these gaps, we first establish a standardized OVRSIS benchmark (\textbf{OVRSISBench}) based on widely-used RS segmentation datasets, enabling consistent evaluation across methods. Using this benchmark, we comprehensively evaluate several representative OVS/OVRSIS models and reveal their limitations when directly applied to remote sensing scenarios. Building on these insights, we propose \textbf{RSKT-Seg}, a novel open-vocabulary segmentation framework tailored for remote sensing. RSKT-Seg integrates three key components: (1) a Multi-Directional Cost Map Aggregation (RS-CMA) module that captures rotation-invariant visual cues by computing vision-language cosine similarities across multiple directions; (2) an Efficient Cost Map Fusion (RS-Fusion) transformer, which jointly models spatial and semantic dependencies with a lightweight dimensionality reduction strategy; and (3) a Remote Sensing Knowledge Transfer (RS-Transfer) module that injects pre-trained knowledge and facilitates domain adaptation via enhanced upsampling. Extensive experiments on the benchmark show that RSKT-Seg consistently outperforms strong OVS baselines by +3.8 mIoU and +5.9 mACC, while achieving 2x faster inference through efficient aggregation. Our code is \href{https://github.com/LiBingyu01/RSKT-Seg}{\textcolor{blue}{here}}.
- Abstract(参考訳): Open-Vocabulary Remote Sensing Image Segmentation (OVRSIS)は、OVS(Open-Vocabulary Segmentation)をリモートセンシング(RS)ドメインに適合させる新しいタスクである。
これらのギャップを埋めるために、我々はまず広く使われているRSセグメンテーションデータセットに基づいて標準化されたOVRSISベンチマーク(\textbf{OVRSISBench})を構築し、メソッド間で一貫した評価を可能にする。
本ベンチマークを用いて,複数のOVS/OVRSISモデルを総合的に評価し,リモートセンシングのシナリオに直接適用した場合の限界を明らかにする。
これらの知見に基づいて,リモートセンシングに適したオープン語彙セグメンテーションフレームワークであるtextbf{RSKT-Seg}を提案する。
RSKT-Segは、3つの重要なコンポーネントを統合している。(1)視覚と言語によるコサインの類似性を複数の方向で計算することで回転不変の視覚的キューをキャプチャする多方向コストマップアグリゲーション(RS-CMA)モジュール、(2)空間的および意味的依存関係を軽量な次元減少戦略でモデル化する効率的なコストマップ融合(RS-Fusion)トランスフォーマー、(3)事前学習された知識を注入し、拡張されたアップスタンピングによるドメイン適応を容易にするリモートセンシングナレッジトランスフォーマー(RS-Transfer)モジュール。
ベンチマーク実験の結果、RSKT-Segは高いOVSベースラインを+3.8 mIoUと+5.9 mACCで上回り、効率的なアグリゲーションによって2倍高速な推論を達成している。
我々のコードは \href{https://github.com/LiBingyu01/RSKT-Seg}{\textcolor{blue}{here}} です。
関連論文リスト
- AerOSeg: Harnessing SAM for Open-Vocabulary Segmentation in Remote Sensing Images [21.294581646546124]
AerOSegは、リモートセンシングデータのための新しいOpen-Vocabulary (OVS)アプローチである。
入力画像の回転バージョンとドメイン固有のプロンプトを用いて、ロバストな画像-テキスト相関特性を計算する。
多様な領域におけるSegment Anything Model(SAM)の成功に触発されて、SAMの特徴を活用し、相関特徴の空間的洗練を導出する。
我々は, マルチスケールのアテンション・アウェア・コンポジションを用いて, 最終的なセグメンテーション・マップを作成することにより, 改良された相関性を向上する。
論文 参考訳(メタデータ) (2025-04-12T13:06:46Z) - iEBAKER: Improved Remote Sensing Image-Text Retrieval Framework via Eliminate Before Align and Keyword Explicit Reasoning [80.44805667907612]
iEBAKERは、弱い相関のサンプルペアをフィルタリングする革新的な戦略である。
SAR(Sort After Reversed Retrieval)戦略の代替として,SAR(Sort After Retrieval)戦略を導入する。
キーワード明示型推論(KER)モジュールを組み込んで、微妙なキー概念の区別による有益な影響を促進する。
論文 参考訳(メタデータ) (2025-04-08T03:40:19Z) - A Novel Shape Guided Transformer Network for Instance Segmentation in Remote Sensing Images [4.14360329494344]
本稿では,SGTN(Shape Guided Transformer Network)を提案する。
自己アテンション機構のグローバルなコンテキストモデリング能力に着想を得て,LSwinと呼ばれる効率的なトランスフォーマーエンコーダを提案する。
我々のSGTNは、2つの単一クラス公開データセット上での最高平均精度(AP)スコアを達成する。
論文 参考訳(メタデータ) (2024-12-31T09:25:41Z) - Joint-Optimized Unsupervised Adversarial Domain Adaptation in Remote Sensing Segmentation with Prompted Foundation Model [32.03242732902217]
本稿では、ソースドメインデータに基づいてトレーニングされたモデルをターゲットドメインサンプルに適用するという課題に対処する。
SAM(Segment Anything Model)とSAM-JOANet(SAM-JOANet)を併用した協調最適化対向ネットワークを提案する。
論文 参考訳(メタデータ) (2024-11-08T02:15:20Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - Real-Time Scene Text Detection with Differentiable Binarization and
Adaptive Scale Fusion [62.269219152425556]
セグメンテーションに基づくシーンテキスト検出手法はシーンテキスト検出分野において大きな注目を集めている。
本稿では,二項化処理をセグメンテーションネットワークに統合する分散二項化(DB)モジュールを提案する。
アダプティブ・スケール・フュージョン (ASF) モジュールは, 異なるスケールの特徴を適応的に融合させることにより, スケールのロバスト性を向上させる。
論文 参考訳(メタデータ) (2022-02-21T15:30:14Z) - Learning to Aggregate Multi-Scale Context for Instance Segmentation in
Remote Sensing Images [28.560068780733342]
特徴抽出のプロセスを改善するために,新しいコンテキスト集約ネットワーク(CATNet)を提案する。
提案モデルは,高密度特徴ピラミッドネットワーク(DenseFPN),空間コンテキストピラミッド(SCP),階層的関心抽出器(HRoIE)の3つの軽量プラグアンドプレイモジュールを利用する。
論文 参考訳(メタデータ) (2021-11-22T08:55:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。