論文の概要: Semantic Localization Guiding Segment Anything Model For Reference Remote Sensing Image Segmentation
- arxiv url: http://arxiv.org/abs/2506.10503v1
- Date: Thu, 12 Jun 2025 09:04:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.664079
- Title: Semantic Localization Guiding Segment Anything Model For Reference Remote Sensing Image Segmentation
- Title(参考訳): 参照リモートセンシング画像セグメンテーションのためのセグメンテーション誘導型セグメンテーションモデル
- Authors: Shuyang Li, Shuang Wang, Zhuangzhuang Sun, Jing Xiao,
- Abstract要約: 我々は,Segment Anything Model(PSLG-SAM)を導くtextitprompt生成セマンティックローカライゼーションというフレームワークを提案する。
PSLG-SAMは、参照リモートセンシングイメージ(RRSIS)タスクを粗いローカライゼーションと細かなセグメンテーションの2つのステージに分解する。
特に、第2段階は、RRSISタスクのアノテーションデータ負担を著しく低減する。
- 参考スコア(独自算出の注目度): 12.67400143793047
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Reference Remote Sensing Image Segmentation (RRSIS) task generates segmentation masks for specified objects in images based on textual descriptions, which has attracted widespread attention and research interest. Current RRSIS methods rely on multi-modal fusion backbones and semantic segmentation heads but face challenges like dense annotation requirements and complex scene interpretation. To address these issues, we propose a framework named \textit{prompt-generated semantic localization guiding Segment Anything Model}(PSLG-SAM), which decomposes the RRSIS task into two stages: coarse localization and fine segmentation. In coarse localization stage, a visual grounding network roughly locates the text-described object. In fine segmentation stage, the coordinates from the first stage guide the Segment Anything Model (SAM), enhanced by a clustering-based foreground point generator and a mask boundary iterative optimization strategy for precise segmentation. Notably, the second stage can be train-free, significantly reducing the annotation data burden for the RRSIS task. Additionally, decomposing the RRSIS task into two stages allows for focusing on specific region segmentation, avoiding interference from complex scenes.We further contribute a high-quality, multi-category manually annotated dataset. Experimental validation on two datasets (RRSIS-D and RRSIS-M) demonstrates that PSLG-SAM achieves significant performance improvements and surpasses existing state-of-the-art models.Our code will be made publicly available.
- Abstract(参考訳): 参照リモートセンシングイメージセグメンテーション(RRSIS)タスクは、テキスト記述に基づく画像中の特定のオブジェクトのセグメンテーションマスクを生成する。
現在のRRSIS法は、マルチモーダル融合バックボーンとセマンティックセグメンテーションヘッドに依存しているが、密度の強いアノテーション要求や複雑なシーン解釈といった課題に直面している。
これらの問題に対処するため,Segment Anything Model(PSLG-SAM)を導くためのフレームワークであるtextit{prompt 生成セマンティックローカライゼーションを提案し,RRSISタスクを粗いローカライゼーションと細かなセグメンテーションの2段階に分解する。
粗いローカライゼーション段階では、視覚的グラウンドネットワークは、テキスト記述対象を概ね特定する。
細かなセグメンテーション段階において、第1ステージからの座標は、クラスタリングに基づく前景点生成器と、正確なセグメンテーションのためのマスク境界反復最適化戦略によって強化されたセグメンテーションモデル(SAM)を導く。
特に、第2段階は、RRSISタスクのアノテーションデータ負担を著しく低減する。
さらに、RRSISタスクを2段階に分解することで、複雑なシーンからの干渉を避けることで、特定の領域のセグメンテーションに集中することができる。
2つのデータセット(RRSIS-DとRRSIS-M)に対する実験的検証は、PSLG-SAMが大幅なパフォーマンス向上を実現し、既存の最先端モデルを上回ることを証明している。
関連論文リスト
- SegEarth-R1: Geospatial Pixel Reasoning via Large Language Model [61.97017867656831]
暗黙的な問合せと推論を可能にし,対象領域のマスクを生成する新しいタスク,すなわち地理空間的画素推論を導入する。
我々は,5,434枚の手動アノテート画像マスクと3万枚以上の暗黙的な質問応答ペアからなる,EarthReasonという,最初の大規模ベンチマークデータセットを構築し,リリースする。
SegEarth-R1は、推論タスクと参照セグメンテーションタスクの両方で最先端のパフォーマンスを実現し、従来のLCMベースのセグメンテーション手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2025-04-13T16:36:47Z) - Customized SAM 2 for Referring Remote Sensing Image Segmentation [21.43947114468122]
本稿では SAM 2 を RRSIS に適応させる新しいフレームワーク RS2-SAM 2 を提案する。
また,テキスト重み付き勾配差の計算により分割境界を最適化するために,テキスト誘導境界損失を導入する。
いくつかのRRSISベンチマークの実験結果は、RS2-SAM 2が最先端の性能を達成することを示した。
論文 参考訳(メタデータ) (2025-03-10T12:48:29Z) - Cross-Modal Bidirectional Interaction Model for Referring Remote Sensing Image Segmentation [50.433911327489554]
リモートセンシング画像セグメンテーション(RRSIS)の目標は、参照式によって識別された対象オブジェクトの画素レベルマスクを生成することである。
上記の課題に対処するため、クロスモーダル双方向相互作用モデル(CroBIM)と呼ばれる新しいRRSISフレームワークが提案されている。
RRSISの研究をさらに推し進めるために、52,472個の画像言語ラベル三重項からなる新しい大規模ベンチマークデータセットRISBenchを構築した。
論文 参考訳(メタデータ) (2024-10-11T08:28:04Z) - Spatial Semantic Recurrent Mining for Referring Image Segmentation [63.34997546393106]
高品質なクロスモーダリティ融合を実現するために,Stextsuperscript2RMを提案する。
これは、言語特徴の分散、空間的意味的再帰的分離、パーセマンティック・セマンティック・バランシングという三部作の作業戦略に従う。
提案手法は他の最先端アルゴリズムに対して好適に機能する。
論文 参考訳(メタデータ) (2024-05-15T00:17:48Z) - Fully and Weakly Supervised Referring Expression Segmentation with
End-to-End Learning [50.40482222266927]
Referring Expression(RES)は、与えられた言語表現に従ってターゲットをローカライズし、セグメンテーションすることを目的としている。
そこで我々は,カーネル分割パイプラインを並列に構築し,より分離し,局所化とセグメント化のステップと相互作用する。
我々の手法は単純だが驚くほど効果的であり、完全に教師された設定と弱い設定において、従来の最先端のRES手法よりも優れている。
論文 参考訳(メタデータ) (2022-12-17T08:29:33Z) - Progressively Dual Prior Guided Few-shot Semantic Segmentation [57.37506990980975]
Few-shotのセマンティックセマンティックセマンティクスタスクは、いくつかのアノテーション付きサポートサンプルを使用して、クエリイメージのセマンティクスを実行することを目的としている。
本稿では,先進的に2重にガイドされた数発のセマンティックセマンティックセグメンテーションネットワークを提案する。
論文 参考訳(メタデータ) (2022-11-20T16:19:47Z) - Deep Spectral Methods: A Surprisingly Strong Baseline for Unsupervised
Semantic Segmentation and Localization [98.46318529630109]
画像分解をグラフ分割問題として再フレーミングすることで,従来のスペクトル分割法から着想を得た。
これらの固有ベクトルはすでにイメージを意味のあるセグメントに分解しており、シーン内のオブジェクトのローカライズに容易に利用できる。
データセットにまたがるこれらのセグメントに関連する機能をクラスタ化することで、明確に定義された、名前付き可能なリージョンを得ることができる。
論文 参考訳(メタデータ) (2022-05-16T17:47:44Z) - Instance Segmentation of Unlabeled Modalities via Cyclic Segmentation
GAN [27.936725483892076]
本稿では,画像翻訳とインスタンスセグメンテーションを共同で行うCysic Generative Adrial Network(CySGAN)を提案する。
注記電子顕微鏡(en:Annotated electron microscopy, EM)画像とラベルなし拡張顕微鏡(en:Unlabeled expansion microscopy, ExM)データを用いて, ニューロンの3次元セグメンテーションの課題についてベンチマークを行った。
論文 参考訳(メタデータ) (2022-04-06T20:46:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。