論文の概要: RSRefSeg 2: Decoupling Referring Remote Sensing Image Segmentation with Foundation Models
- arxiv url: http://arxiv.org/abs/2507.06231v1
- Date: Tue, 08 Jul 2025 17:59:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-09 16:34:38.444833
- Title: RSRefSeg 2: Decoupling Referring Remote Sensing Image Segmentation with Foundation Models
- Title(参考訳): RSRefSeg 2: リモートセンシング画像セグメンテーションを基礎モデルで参照するデカップリング
- Authors: Keyan Chen, Chenyang Liu, Bowen Chen, Jiafan Zhang, Zhengxia Zou, Zhenwei Shi,
- Abstract要約: Referring Remote Sensing Imageは、リモートセンシングシーン分析のための柔軟できめ細かいフレームワークを提供する。
現在のアプローチでは、デュアルモーダル符号化、クロスモーダル相互作用、ピクセルデコーディングを含む3段階のパイプラインを使用している。
本稿では,従来のワークフローを協調的な2段階のフレームワークに再構成する疎結合パラダイム RSRefSeg 2 を提案する。
- 参考スコア(独自算出の注目度): 25.265113510539546
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Referring Remote Sensing Image Segmentation provides a flexible and fine-grained framework for remote sensing scene analysis via vision-language collaborative interpretation. Current approaches predominantly utilize a three-stage pipeline encompassing dual-modal encoding, cross-modal interaction, and pixel decoding. These methods demonstrate significant limitations in managing complex semantic relationships and achieving precise cross-modal alignment, largely due to their coupled processing mechanism that conflates target localization with boundary delineation. This architectural coupling amplifies error propagation under semantic ambiguity while restricting model generalizability and interpretability. To address these issues, we propose RSRefSeg 2, a decoupling paradigm that reformulates the conventional workflow into a collaborative dual-stage framework: coarse localization followed by fine segmentation. RSRefSeg 2 integrates CLIP's cross-modal alignment strength with SAM's segmentation generalizability through strategic foundation model collaboration. Specifically, CLIP is employed as the dual-modal encoder to activate target features within its pre-aligned semantic space and generate localization prompts. To mitigate CLIP's misactivation challenges in multi-entity scenarios described by referring texts, a cascaded second-order prompter is devised, which enhances precision through implicit reasoning via decomposition of text embeddings into complementary semantic subspaces. These optimized semantic prompts subsequently direct the SAM to generate pixel-level refined masks, thereby completing the semantic transmission pipeline. Extensive experiments (RefSegRS, RRSIS-D, and RISBench) demonstrate that RSRefSeg 2 surpasses contemporary methods in segmentation accuracy (+~3% gIoU) and complex semantic interpretation. Code is available at: https://github.com/KyanChen/RSRefSeg2.
- Abstract(参考訳): Referring Remote Sensing Image Segmentationは、視覚言語による協調的な解釈を通じて、リモートセンシングシーン分析のための柔軟できめ細かなフレームワークを提供する。
現在のアプローチは主に、デュアルモーダル符号化、クロスモーダル相互作用、ピクセルデコーディングを含む3段階のパイプラインを利用する。
これらの手法は, 複雑な意味的関係を管理し, 厳密なモーダルアライメントを実現する上で, 主に, 対象の局所化と境界デライン化を混在させた処理機構により, 重要な限界を示す。
このアーキテクチャ結合は、モデルの一般化可能性と解釈可能性を制限するとともに、意味的あいまいさの下でエラーの伝播を増幅する。
これらの問題に対処するために、従来のワークフローを協調的な2段階のフレームワーク、粗いローカライゼーションと細かなセグメンテーションに再構成する切り離しパラダイムRSRefSeg 2を提案する。
RSRefSeg 2はCLIPのクロスモーダルアライメント強度とSAMのセグメンテーションの一般化性を戦略的基礎モデルコラボレーションを通じて統合する。
具体的には、CLIPをデュアルモーダルエンコーダとして使用して、事前に整列されたセマンティック空間内でターゲット機能を活性化し、ローカライズプロンプトを生成する。
テキストを参照することによって記述された多義性シナリオにおけるCLIPの不活性化の課題を軽減するために、カスケードされた2階プロンプトが考案され、テキスト埋め込みを補完的な意味部分空間に分解することで、暗黙の推論を通じて精度を高める。
これらの最適化されたセマンティックプロンプトはSAMにピクセルレベルの洗練されたマスクを生成するよう指示し、セマンティックトランスミッションパイプラインを完了させる。
大規模な実験 (RefSegRS, RRSIS-D, RISBench) により、RSRefSeg 2 は分節精度 (+~3% gIoU) と複雑な意味解釈において、現代の手法を超えることが示されている。
コードは、https://github.com/KyanChen/RSRefSeg2.comで入手できる。
関連論文リスト
- Semantic Localization Guiding Segment Anything Model For Reference Remote Sensing Image Segmentation [12.67400143793047]
我々は,Segment Anything Model(PSLG-SAM)を導くtextitprompt生成セマンティックローカライゼーションというフレームワークを提案する。
PSLG-SAMは、参照リモートセンシングイメージ(RRSIS)タスクを粗いローカライゼーションと細かなセグメンテーションの2つのステージに分解する。
特に、第2段階は、RRSISタスクのアノテーションデータ負担を著しく低減する。
論文 参考訳(メタデータ) (2025-06-12T09:04:07Z) - SketchYourSeg: Mask-Free Subjective Image Segmentation via Freehand Sketches [116.1810651297801]
SketchYourSegは、主観的なイメージセグメンテーションのための強力なクエリモダリティとして、フリーハンドスケッチを確立している。
我々の評価は、様々なベンチマークで既存のアプローチよりも優れた性能を示している。
論文 参考訳(メタデータ) (2025-01-27T13:07:51Z) - Multi-task Visual Grounding with Coarse-to-Fine Consistency Constraints [15.541287957548771]
本稿では,粗大な一貫性制約を持つビジュアルグラウンドアーキテクチャを提案する。
暗黙的かつ明示的なモデリングアプローチを2段階のフレームワークに統合する。
最先端のREC法とRIS法を実質的なマージンで大幅に上回っている。
論文 参考訳(メタデータ) (2025-01-12T04:30:13Z) - SemStereo: Semantic-Constrained Stereo Matching Network for Remote Sensing [12.710367390667292]
本稿では,ステレオマッチングタスクに対して,暗黙的かつ明示的に意味制約を課す新しいネットワークを提案する。
US3DデータセットとWHUデータセットを用いた実験により,本手法はセマンティックセグメンテーションとステレオマッチングの両面において最先端の性能を実現することを示した。
論文 参考訳(メタデータ) (2024-12-17T09:02:55Z) - Cross-Modal Bidirectional Interaction Model for Referring Remote Sensing Image Segmentation [50.433911327489554]
リモートセンシング画像セグメンテーション(RRSIS)の目標は、参照式によって識別された対象オブジェクトの画素レベルマスクを生成することである。
上記の課題に対処するため、クロスモーダル双方向相互作用モデル(CroBIM)と呼ばれる新しいRRSISフレームワークが提案されている。
RRSISの研究をさらに推し進めるために、52,472個の画像言語ラベル三重項からなる新しい大規模ベンチマークデータセットRISBenchを構築した。
論文 参考訳(メタデータ) (2024-10-11T08:28:04Z) - Spatial Semantic Recurrent Mining for Referring Image Segmentation [63.34997546393106]
高品質なクロスモーダリティ融合を実現するために,Stextsuperscript2RMを提案する。
これは、言語特徴の分散、空間的意味的再帰的分離、パーセマンティック・セマンティック・バランシングという三部作の作業戦略に従う。
提案手法は他の最先端アルゴリズムに対して好適に機能する。
論文 参考訳(メタデータ) (2024-05-15T00:17:48Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - Guiding the PLMs with Semantic Anchors as Intermediate Supervision:
Towards Interpretable Semantic Parsing [57.11806632758607]
本稿では,既存の事前学習言語モデルを階層型デコーダネットワークに組み込むことを提案する。
第一原理構造をセマンティックアンカーとすることで、2つの新しい中間管理タスクを提案する。
いくつかのセマンティック解析ベンチマークで集中的な実験を行い、我々のアプローチがベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2022-10-04T07:27:29Z) - HSVA: Hierarchical Semantic-Visual Adaptation for Zero-Shot Learning [74.76431541169342]
ゼロショット学習(ZSL)は、目に見えないクラス認識の問題に取り組み、目に見えないクラスから目に見えないクラスに意味的な知識を移す。
本稿では,意味領域と視覚領域を協調させる新しい階層型意味視覚適応(HSVA)フレームワークを提案する。
4つのベンチマークデータセットの実験では、HSVAは従来のZSLと一般的なZSLの両方で優れた性能を示す。
論文 参考訳(メタデータ) (2021-09-30T14:27:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。