論文の概要: Customized SAM 2 for Referring Remote Sensing Image Segmentation
- arxiv url: http://arxiv.org/abs/2503.07266v1
- Date: Mon, 10 Mar 2025 12:48:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:47:47.798572
- Title: Customized SAM 2 for Referring Remote Sensing Image Segmentation
- Title(参考訳): リモートセンシング画像セグメンテーション参照のためのカスタマイズSAM 2
- Authors: Fu Rong, Meng Lan, Qian Zhang, Lefei Zhang,
- Abstract要約: 本稿では SAM 2 を RRSIS に適応させる新しいフレームワーク RS2-SAM 2 を提案する。
また,テキスト重み付き勾配差の計算により分割境界を最適化するために,テキスト誘導境界損失を導入する。
いくつかのRRSISベンチマークの実験結果は、RS2-SAM 2が最先端の性能を達成することを示した。
- 参考スコア(独自算出の注目度): 21.43947114468122
- License:
- Abstract: Referring Remote Sensing Image Segmentation (RRSIS) aims to segment target objects in remote sensing (RS) images based on textual descriptions. Although Segment Anything Model 2 (SAM 2) has shown remarkable performance in various segmentation tasks, its application to RRSIS presents several challenges, including understanding the text-described RS scenes and generating effective prompts from text descriptions. To address these issues, we propose RS2-SAM 2, a novel framework that adapts SAM 2 to RRSIS by aligning the adapted RS features and textual features, providing pseudo-mask-based dense prompts, and enforcing boundary constraints. Specifically, we first employ a union encoder to jointly encode the visual and textual inputs, generating aligned visual and text embeddings as well as multimodal class tokens. Then, we design a bidirectional hierarchical fusion module to adapt SAM 2 to RS scenes and align adapted visual features with the visually enhanced text embeddings, improving the model's interpretation of text-described RS scenes. Additionally, a mask prompt generator is introduced to take the visual embeddings and class tokens as input and produce a pseudo-mask as the dense prompt of SAM 2. To further refine segmentation, we introduce a text-guided boundary loss to optimize segmentation boundaries by computing text-weighted gradient differences. Experimental results on several RRSIS benchmarks demonstrate that RS2-SAM 2 achieves state-of-the-art performance.
- Abstract(参考訳): Referring Remote Sensing Image Segmentation (RRSIS)は、テキスト記述に基づいて、ターゲットオブジェクトをリモートセンシング(RS)イメージにセグメントすることを目的としている。
Segment Anything Model 2 (SAM2) は、様々なセグメンテーションタスクにおいて顕著なパフォーマンスを示しているが、RRSIS への適用には、テキスト記述された RS シーンの理解や、テキスト記述からの効果的なプロンプトの生成など、いくつかの課題がある。
これらの問題に対処するため,提案するフレームワークであるRS2-SAM2は,適応されたRS特徴とテキスト特徴を整列させ,擬似マスクに基づく密接なプロンプトを提供し,境界制約を強制することによって,SAM2をRRSISに適応させる。
具体的には、まずユニオンエンコーダを用いて視覚とテキストの入力を共同で符号化し、協調した視覚とテキストの埋め込みとマルチモーダルクラストークンを生成する。
そして,両方向の階層型融合モジュールを設計し,SAM2をRSシーンに適応させ,適応された視覚特徴を視覚的に拡張されたテキスト埋め込みと整合させ,テキスト記述されたRSシーンの解釈を改善する。
さらに、マスクプロンプト生成器を導入し、視覚埋め込みとクラストークンを入力とし、SAM2の密接なプロンプトとして擬似マスクを生成する。
さらにセグメンテーションを洗練させるために,テキスト重み付き勾配差を計算してセグメンテーション境界を最適化するテキスト誘導境界損失を導入する。
いくつかのRRSISベンチマークの実験結果は、RS2-SAM 2が最先端の性能を達成することを示した。
関連論文リスト
- RSRefSeg: Referring Remote Sensing Image Segmentation with Foundation Models [24.67117013862316]
リモートセンシング画像のセグメンテーションの参照は、きめ細かい視覚的理解の実現に不可欠である。
本稿では,参照リモートセンシング画像分割基礎モデルRSRefSegを紹介する。
RRSIS-Dデータセットの実験結果は、RSRefSegが既存の手法より優れていることを示している。
論文 参考訳(メタデータ) (2025-01-12T13:22:35Z) - Scale-wise Bidirectional Alignment Network for Referring Remote Sensing Image Segmentation [12.893224628061516]
リモートセンシング画像セグメンテーション(RRSIS)の目的は、自然言語表現を用いて、空中画像内の特定のピクセルレベル領域を抽出することである。
本稿では,これらの課題に対処するため,SBANet(Scale-wise Bidirectional Alignment Network)と呼ばれる革新的なフレームワークを提案する。
提案手法は,RRSIS-DとRefSegRSのデータセットにおける従来の最先端手法と比較して,優れた性能を実現する。
論文 参考訳(メタデータ) (2025-01-01T14:24:04Z) - Char-SAM: Turning Segment Anything Model into Scene Text Segmentation Annotator with Character-level Visual Prompts [12.444549174054988]
Char-SAMはSAMを、文字レベルのビジュアルプロンプトを備えた低コストセグメンテーションアノテータに変換するパイプラインである。
Char-SAMは、高品質なシーンテキストセグメンテーションアノテーションを自動生成する。
そのトレーニング不要な性質により、COCO-TextやMLT17といった現実世界のデータセットから高品質なシーンテキストセグメンテーションデータセットを生成することもできる。
論文 参考訳(メタデータ) (2024-12-27T20:33:39Z) - Cross-Modal Bidirectional Interaction Model for Referring Remote Sensing Image Segmentation [9.109484087832058]
リモートセンシング画像セグメンテーション(RRSIS)の目標は、参照式によって識別された対象オブジェクトの画素レベルマスクを生成することである。
上記の課題に対処するため、クロスモーダル双方向相互作用モデル(CroBIM)と呼ばれる新しいRRSISフレームワークが提案されている。
RRSISの研究をさらに推し進めるために、52,472個の画像言語ラベル三重項からなる新しい大規模ベンチマークデータセットRISBenchを構築した。
論文 参考訳(メタデータ) (2024-10-11T08:28:04Z) - SAM-CP: Marrying SAM with Composable Prompts for Versatile Segmentation [88.80792308991867]
Segment Anything Model (SAM)は、イメージピクセルをパッチにグループ化する機能を示しているが、セグメンテーションにそれを適用することは依然として大きな課題に直面している。
本稿では,SAM-CPを提案する。SAM-CPはSAM以外の2種類の構成可能なプロンプトを確立し,多目的セグメンテーションのために構成する単純な手法である。
実験により、SAM-CPはオープンドメインとクローズドドメインの両方においてセマンティック、例、およびパノプティックセグメンテーションを達成することが示された。
論文 参考訳(メタデータ) (2024-07-23T17:47:25Z) - Text Augmented Spatial-aware Zero-shot Referring Image Segmentation [60.84423786769453]
テキスト拡張空間認識(TAS)ゼロショット参照画像セグメンテーションフレームワークを提案する。
TASには、例レベルのマスク抽出のためのマスク提案ネットワーク、画像テキスト相関をマイニングするためのテキスト拡張ビジュアルテキストマッチングスコア、マスク後処理のための空間が含まれている。
提案手法は,最先端のゼロショット参照画像セグメンテーション法より明らかに優れている。
論文 参考訳(メタデータ) (2023-10-27T10:52:50Z) - Beyond One-to-One: Rethinking the Referring Image Segmentation [117.53010476628029]
イメージセグメンテーションの参照は、自然言語表現によって参照される対象オブジェクトをセグメンテーションすることを目的としている。
2つのデコーダ分岐を含むDMMI(Dual Multi-Modal Interaction)ネットワークを提案する。
テキスト・ツー・イメージ・デコーダでは、テキストの埋め込みを利用して視覚的特徴を検索し、対応するターゲットをローカライズする。
一方、画像からテキストへのデコーダは、視覚的特徴に条件付けられた消去されたエンティティ・フレーズを再構成するために実装される。
論文 参考訳(メタデータ) (2023-08-26T11:39:22Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Segment Everything Everywhere All at Once [124.90835636901096]
画像中のすべてのものを同時にセグメント化するための,迅速かつインタラクティブなモデルであるSEEMを提案する。
そこで本研究では,あらゆるタイプのセグメンテーションタスクに対して,多様なプロンプトを可能にする新しい復号化機構を提案する。
多様なセグメンテーションタスクにおけるSEEMの有効性を検証するための総合的な実証的研究を行った。
論文 参考訳(メタデータ) (2023-04-13T17:59:40Z) - ViewCo: Discovering Text-Supervised Segmentation Masks via Multi-View
Semantic Consistency [126.88107868670767]
テキスト教師付きセマンティックセグメンテーションのためのマルチテキストbfView textbfConsistent Learning (ViewCo)を提案する。
まず,同じ入力画像の複数ビューに対する対応性を学習するためのテキスト・ツー・ビュー整合性モデリングを提案する。
また,テキスト管理の曖昧性問題に対処するために,クロスビューセグメンテーション整合性モデリングを提案する。
論文 参考訳(メタデータ) (2023-01-31T01:57:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。