論文の概要: DGL-RSIS: Decoupling Global Spatial Context and Local Class Semantics for Training-Free Remote Sensing Image Segmentation
- arxiv url: http://arxiv.org/abs/2509.00598v1
- Date: Sat, 30 Aug 2025 19:45:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.298474
- Title: DGL-RSIS: Decoupling Global Spatial Context and Local Class Semantics for Training-Free Remote Sensing Image Segmentation
- Title(参考訳): DGL-RSIS:訓練不要なリモートセンシング画像セグメンテーションのためのグローバル空間コンテキストと局所クラスセマンティクスの分離
- Authors: Boyi Li, Ce Zhang, Richard M. Timmerman, Wenxuan Bao,
- Abstract要約: 視覚とテキストの入力を分離する学習自由フレームワークDGL-RSISを提案する。
このフレームワークは、ローカルセマンティックレベルとグローバルコンテキストレベルの両方で視覚言語アライメントを実行する。
拡張テキスト特徴とマスク誘導視覚特徴とをマッチングすることにより、マスク分類を可能にする。
- 参考スコア(独自算出の注目度): 23.33389872430993
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The emergence of vision language models (VLMs) has bridged vision and language, enabling joint multimodal understanding beyond traditional visual-only deep learning models. However, transferring VLMs from the natural image domain to remote sensing (RS) segmentation remains challenging due to the limited category diversity in RS datasets and the domain gap between natural and RS imagery. Here, we propose a training-free framework, DGL-RSIS, that decouples visual and textual inputs, performing visual-language alignment at both the local semantic and global contextual levels through tailored strategies. Specifically, we first introduce a global-local decoupling (GLD) module, where text inputs are divided into local class nouns and global modifiers using natural language processing (NLP) techniques; image inputs are partitioned into a set of class-agnostic mask proposals via unsupervised mask proposal networks. Second, visual and textual features are aligned at local scale, through a novel context-aware cropping strategy for extracting image patches with proper boundaries and introducing RS-specific knowledge to enrich the text inputs. By matching the enhanced text features with mask-guided visual features, we enable the mask classification, supporting open-vocabulary semantic segmentation (OVSS). Third, at the global scale, we propose a Cross-Scale Grad-CAM module to refine Grad-CAM maps using contextual information from global modifiers. A subsequent mask selection module integrates pixel-level Grad-CAM activations into the mask-level segmentation output, such that accurate and interpretable alignment can be realized across global and local dimensions for referring expression segmentation (RES).
- Abstract(参考訳): 視覚言語モデル(VLM)の出現は、視覚と言語を橋渡しし、従来の視覚のみのディープラーニングモデルを超えて、共同でマルチモーダル理解を可能にする。
しかし,自然画像領域からリモートセンシング(RS)セグメンテーションへのVLMの転送は,RSデータセットのカテゴリの多様性や自然画像とRS画像の領域ギャップが限定されているため,依然として困難である。
本稿では,視覚的入力とテキスト入力を分離する学習自由フレームワークDGL-RSISを提案する。
具体的には、まず、自然言語処理(NLP)技術を用いて、テキスト入力を局所クラス名詞とグローバル修飾子に分割するグローバルローカルデカップリング(GLD)モジュールを導入し、教師なしマスク提案ネットワークを介して、画像入力を一組のクラス非依存マスク提案に分割する。
第二に、視覚的特徴とテキスト的特徴は、適切な境界を持つ画像パッチを抽出し、RS固有の知識を導入し、テキスト入力を豊かにする新しい文脈対応の収穫戦略を通じて、ローカルスケールで整列される。
拡張テキスト特徴とマスク誘導視覚特徴とをマッチングすることにより、オープン語彙セマンティックセマンティックセグメンテーション(OVSS)をサポートするマスク分類を可能にする。
第3に、グローバルなスケールで、グローバルな修飾子からのコンテキスト情報を用いて、Grad-CAMマップを洗練するためのクロススケールなGrad-CAMモジュールを提案する。
その後のマスク選択モジュールは、ピクセルレベルのGrad-CAMアクティベーションをマスクレベルのセグメンテーション出力に統合する。
関連論文リスト
- FGAseg: Fine-Grained Pixel-Text Alignment for Open-Vocabulary Semantic Segmentation [63.31007867379312]
Open-vocabulary segmentationは、テキストベースの記述に基づいて特定の領域やオブジェクトを識別し、分割することを目的としている。
一般的な解決策は、CLIPのような強力な視覚言語モデル(VLM)を活用して、視覚とテキスト情報のギャップを埋めることである。
対照的に、セグメンテーションタスクは細かいピクセルレベルのアライメントと詳細なカテゴリ境界情報を必要とする。
細粒度画素テキストアライメントとカテゴリ境界補間のためのモデルFGAsegを提案する。
論文 参考訳(メタデータ) (2025-01-01T15:47:04Z) - Scale-wise Bidirectional Alignment Network for Referring Remote Sensing Image Segmentation [12.893224628061516]
リモートセンシング画像セグメンテーション(RRSIS)の目的は、自然言語表現を用いて、空中画像内の特定のピクセルレベル領域を抽出することである。
本稿では,これらの課題に対処するため,SBANet(Scale-wise Bidirectional Alignment Network)と呼ばれる革新的なフレームワークを提案する。
提案手法は,RRSIS-DとRefSegRSのデータセットにおける従来の最先端手法と比較して,優れた性能を実現する。
論文 参考訳(メタデータ) (2025-01-01T14:24:04Z) - Contrastive Localized Language-Image Pre-Training [60.4967533101887]
コントラスト言語-画像事前学習(CLIP)は、画像/テキスト表現を生成するために視覚エンコーダを訓練するための著名な方法である。
本稿では,CLIPとリージョンテキストのコントラッシブな損失とモジュールを補完することにより,CLOC(Contrastive Localized Language- Image Pre-Trening)を提案する。
CLOCは画像領域認識および検索タスクのための高品質な地域埋め込みを可能にする。
論文 参考訳(メタデータ) (2024-10-03T17:56:09Z) - DIAL: Dense Image-text ALignment for Weakly Supervised Semantic Segmentation [8.422110274212503]
弱教師付きセマンティックセグメンテーションアプローチは通常、初期シード生成にクラスアクティベーションマップ(CAM)に依存する。
DALNetは、テキストの埋め込みを利用して、さまざまなレベルの粒度のオブジェクトの包括的理解と正確な位置決めを強化する。
このアプローチは特に、シングルステージの手法として、より効率的なエンドツーエンドプロセスを可能にします。
論文 参考訳(メタデータ) (2024-09-24T06:51:49Z) - UMG-CLIP: A Unified Multi-Granularity Vision Generalist for Open-World Understanding [90.74967596080982]
本稿では,マルチグラニュラリティアライメントを備えたコントラスト言語-画像事前学習(CLIP)を拡張した。
UMG-CLIPと呼ばれる統一多言語学習フレームワークを開発した。
パラメータ効率のよいチューニングにより、UMG-CLIPは、現在広く使われているCLIPの亜種を超え、多様な画像理解ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-01-12T06:35:09Z) - Global and Local Semantic Completion Learning for Vision-Language
Pre-training [34.740507502215536]
クロスモーダルアライメントは、視覚言語事前学習モデルにおいて重要な役割を果たす。
グローバル・ローカル・セマンティック・コンプリート・ラーニング(GLSCL)タスクを提案し,グローバル・ローカル・アライメントとローカル・ローカル・アライメントを同時に行う。
論文 参考訳(メタデータ) (2023-06-12T13:20:29Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。