論文の概要: Masks Can Talk: Extracting Structured Text Information from Single-Modal Images for Remote Sensing Change Detection
- arxiv url: http://arxiv.org/abs/2605.07178v1
- Date: Fri, 08 May 2026 03:16:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.770653
- Title: Masks Can Talk: Extracting Structured Text Information from Single-Modal Images for Remote Sensing Change Detection
- Title(参考訳): マスクが話せる:リモートセンシング変化検出のための単一モード画像から構造化テキスト情報を抽出する
- Authors: Kai Zheng, Hang-Cheng Dong, Jiatong Pan, Zhenkai Wu, Fupeng Wei, Wei Zhang,
- Abstract要約: 変更ラベルから直接構造化されたテキスト特徴を取得するフレームワークであるS2Mを提案する。
S2Mは17.80%のSekとF$_scd$の66.14%を達成する。
- 参考スコア(独自算出の注目度): 5.090262478249704
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Remote sensing change detection is pivotal for urban monitoring, disaster assessment, and environmental resource management. Yet, unimodal deep learning methods frequently confuse genuine semantic changes with visually similar but irrelevant variations. Recent multimodal approaches incorporate text as auxiliary supervision, but their descriptions are either semantically coarse and unstructured or model-generated and thus noisy. Critically, all of them overlook a simple fact: fine-grained change semantics are already implicitly encoded in the ground-truth mask labels that come standard with every change detection dataset. These masks know where the change happened, what the land-cover types were before and after, how the transition occurred, and how many objects were involved. In this paper, we propose S2M, a framework that obtains structured textual features directly from change labels at zero additional annotation cost. Specifically, each change region is automatically transcribed into a semantic quadruple (where, what, how, how many) and converted into several fixed-template text descriptions, providing precise, dense, and noise-free multimodal supervision. We adopts a two-stage training strategy to fine-tune on remote sensing imagery firstly for robust domain-specific representation, after which a multimodal decoder with a bi-directional contrastive loss is introduced to achieve deep alignment between visual features and structured textual embeddings. To validate our method, we construct Gaza-Change-v2, a new multi-class change detection (MCD) dataset about the Gaza Strip. On this MCD dataset, S2M achieves a Sek of 17.80\% and an F$_{\text{scd}}$ of 66.14\%, notably surpassing even multimodal methods that leverage large language models. Our work demonstrates that masks can indeed talk. They tell us exactly what, where, how, and how many changes have occurred.
- Abstract(参考訳): リモートセンシングによる変化検出は、都市モニタリング、災害評価、環境資源管理において重要である。
しかし、一助深層学習法は、視覚的に類似しているが無関係なバリエーションで真の意味変化を混乱させることが多い。
最近のマルチモーダルアプローチでは、テキストを補助的監視として取り入れているが、それらの記述は意味的に粗く、構造化されていないか、あるいはモデル生成されうるためノイズが多い。
きめ細かい変更セマンティクスは、すべての変更検出データセットで標準となる地味なマスクラベルに暗黙的にエンコードされています。
これらのマスクは、変化がどこで起きたか、土地被覆のタイプが前と後、どのように移行したか、どれだけのオブジェクトが関与したかを知っている。
本稿では,変更ラベルから直接構造化されたテキスト特徴を付加アノテーションコストゼロで獲得するフレームワークであるS2Mを提案する。
具体的には、各変更領域は、自動的に意味的な四重項(何、何、何、何、何、何、何)に書き起こされ、いくつかの固定テンプレートのテキスト記述に変換され、正確で、密度が高く、ノイズのないマルチモーダル監視を提供する。
両方向のコントラスト損失を有するマルチモーダルデコーダを導入し、視覚特徴と構造化テキスト埋め込みとの深い整合性を実現する。
提案手法を検証するため,ガザストリップに関する新しいマルチクラス変化検出(MCD)データセットであるGaza-Change-v2を構築した。
このMCDデータセットでは、S2Mは17.80\%のSekとF$_{\text{scd}}$の66.14\%を達成する。
私たちの研究は、マスクが本当に話せることを示しています。
彼らは、何、どこで、どのように、どのくらいの変更があったか、正確に教えてくれます。
関連論文リスト
- From Masks to Pixels and Meaning: A New Taxonomy, Benchmark, and Metrics for VLM Image Tampering [66.2662973049988]
粗い領域ラベルからのVLM画像の改ざんを行う。
我々は,編集プリミティブにまたがる分類学と,その意味クラスを,低レベルな変化と高レベルな理解を結びつけて導入する。
第3に,画素レベルの正しさと局所化を定量化して,真の編集強度に対する信頼度や予測を評価するためのトレーニングフレームワークと評価指標を提案する。
論文 参考訳(メタデータ) (2026-03-20T17:59:54Z) - Referring Change Detection in Remote Sensing Imagery [49.841833753558575]
本稿では、自然言語のプロンプトを利用してリモートセンシング画像の変化の特定のクラスを検出するReferring Change Detection (RCD)を紹介する。
我々は, (I) textbfRCDNet, (II) textbfRCDGen, (II) 拡散型合成データ生成パイプラインからなる2段階のフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-12T16:57:12Z) - Decoupled Seg Tokens Make Stronger Reasoning Video Segmenter and Grounder [5.57393627015653]
Sa2VAで実証されたビデオセグメンタとグライダーアプローチは、セグメンテーションモデル内で機能を直接フューズする。
これはしばしば、動的視覚情報と静的意味論の好ましくない絡み合いが生じ、セグメント化の精度が低下する。
SAM-2に固有の情報処理制限に対処するため,テキスト事前学習と線形デカップリングモジュールを統合したデカップリング強化プロンプト方式であるDeSa2VAを提案する。
論文 参考訳(メタデータ) (2025-06-28T13:30:36Z) - Semantic-CD: Remote Sensing Image Semantic Change Detection towards Open-vocabulary Setting [19.663899648983417]
従来の変化検出手法は、現実的なシナリオにおける意味圏をまたいだ一般化において、しばしば課題に直面している。
本稿では,リモートセンシング画像における意味変化検出に特化して設計されたSemantic-CDという新しい手法を提案する。
CLIPの広範な語彙知識を活用することで,カテゴリ間の一般化能力を高めることができる。
論文 参考訳(メタデータ) (2025-01-12T13:22:11Z) - Detect Changes like Humans: Incorporating Semantic Priors for Improved Change Detection [52.62459671461816]
本稿では,視覚基盤モデルからのセマンティックな先入観を取り入れ,変化を検出する能力の向上について検討する。
人間の視覚パラダイムにインスパイアされた新しいデュアルストリーム特徴デコーダは、意味認識特徴と差認識特徴を組み合わせることで変化を区別するために導出される。
論文 参考訳(メタデータ) (2024-12-22T08:27:15Z) - Knowing Where to Focus: Attention-Guided Alignment for Text-based Person Search [64.15205542003056]
本稿では,AGM(Atention-Guided Mask)モデリングとTEM(Text Enrichment Module)という,2つの革新的なコンポーネントを備えたAGA(Atention-Guided Alignment)フレームワークを紹介する。
AGA は CUHK-PEDES と ICFG-PEDES と RSTP でそれぞれ78.36%、67.31%、67.4% に達した。
論文 参考訳(メタデータ) (2024-12-19T17:51:49Z) - Open-Vocabulary Segmentation with Unpaired Mask-Text Supervision [87.15580604023555]
Unpair-Segは、弱制御されたオープン語彙セグメンテーションフレームワークである。
未ペア画像マスクと画像テキストペアから学習し、独立して効率的に収集することができる。
ADE-847とPASCAL Context-459データセットで14.6%と19.5%のmIoUを達成した。
論文 参考訳(メタデータ) (2024-02-14T06:01:44Z) - MS-Former: Memory-Supported Transformer for Weakly Supervised Change
Detection with Patch-Level Annotations [50.79913333804232]
弱い教師付き変化検出のためのメモリ支援トランス (MS-Former) を提案する。
MS-Former は双方向注意ブロック (BAB) とパッチレベルの監視スキーム (PSS) から構成される。
3つのベンチマークデータセットの実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2023-11-16T09:57:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。