論文の概要: ViLaCD-R1: A Vision-Language Framework for Semantic Change Detection in Remote Sensing
- arxiv url: http://arxiv.org/abs/2512.23244v1
- Date: Mon, 29 Dec 2025 06:58:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.426043
- Title: ViLaCD-R1: A Vision-Language Framework for Semantic Change Detection in Remote Sensing
- Title(参考訳): ViLaCD-R1:リモートセンシングにおける意味的変化検出のための視覚言語フレームワーク
- Authors: Xingwei Ma, Shiyang Feng, Bo Zhang, Bin Wang,
- Abstract要約: ViLaCD-R1はMulti-Image Reasoner (MIR)とMask-Guided Decoder (MGD)からなる2段階のフレームワークである。
我々は,ViLaCD-R1が真の意味変化認識と局所化を大幅に改善し,非意味的変動を頑健に抑制し,複雑な実世界のシナリオにおいて不正確な精度を実現することを示す。
- 参考スコア(独自算出の注目度): 5.966253859501895
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Remote sensing change detection (RSCD), a complex multi-image inference task, traditionally uses pixel-based operators or encoder-decoder networks that inadequately capture high-level semantics and are vulnerable to non-semantic perturbations. Although recent multimodal and vision-language model (VLM)-based approaches enhance semantic understanding of change regions by incorporating textual descriptions, they still suffer from challenges such as inaccurate spatial localization, imprecise pixel-level boundary delineation, and limited interpretability. To address these issues, we propose ViLaCD-R1, a two-stage framework comprising a Multi-Image Reasoner (MIR) and a Mask-Guided Decoder (MGD). Specifically, the VLM is trained through supervised fine-tuning (SFT) and reinforcement learning (RL) on block-level dual-temporal inference tasks, taking dual-temporal image patches as input and outputting a coarse change mask. Then, the decoder integrates dual-temporal image features with this coarse mask to predict a precise binary change map. Comprehensive evaluations on multiple RSCD benchmarks demonstrate that ViLaCD-R1 substantially improves true semantic change recognition and localization, robustly suppresses non-semantic variations, and achieves state-of-the-art accuracy in complex real-world scenarios.
- Abstract(参考訳): 複雑なマルチイメージ推論タスクであるリモートセンシング変化検出(RSCD)は、伝統的にピクセルベースの演算子またはエンコーダデコーダネットワークを使用しており、高レベルのセマンティクスを不適切にキャプチャし、非セマンティックな摂動に弱い。
近年のマルチモーダル・ビジョン言語モデル(VLM)に基づくアプローチは,テキスト記述を取り入れて変化領域の意味的理解を促進するが,不正確な空間的局所化,不正確なピクセルレベルの境界線化,限定的な解釈可能性といった課題に悩まされている。
これらの問題に対処するため,Multi-Image Reasoner (MIR) と Mask-Guided Decoder (MGD) を組み合わせた2段階のフレームワークである ViLaCD-R1 を提案する。
具体的には、ブロックレベルの2つの時間的推論タスクにおいて、教師付き微調整(SFT)と強化学習(RL)によって訓練され、二重時間的イメージパッチを入力として、粗い変更マスクを出力する。
そして、デコーダは、この粗いマスクと二重時間画像特徴を統合して、正確なバイナリ変更マップを予測する。
複数のRSCDベンチマークの総合評価では、ViLaCD-R1は真の意味変化認識と局所化を大幅に改善し、非意味的変動を頑健に抑制し、複雑な実世界のシナリオで最先端の精度を達成する。
関連論文リスト
- Referring Change Detection in Remote Sensing Imagery [49.841833753558575]
本稿では、自然言語のプロンプトを利用してリモートセンシング画像の変化の特定のクラスを検出するReferring Change Detection (RCD)を紹介する。
我々は, (I) textbfRCDNet, (II) textbfRCDGen, (II) 拡散型合成データ生成パイプラインからなる2段階のフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-12T16:57:12Z) - LG-CD: Enhancing Language-Guided Change Detection through SAM2 Adaptation [9.324344835427858]
我々はLG-CD(Language-Guided Change Detection Model)を提案する。
このモデルは、自然言語のプロンプトを利用して、ネットワークの関心領域への注意を向ける。
3つのデータセットに対する実験により、LG-CDは最先端の変更検出方法よりも一貫して優れていることが示された。
論文 参考訳(メタデータ) (2025-09-26T05:30:11Z) - Multimodal Feature Fusion Network with Text Difference Enhancement for Remote Sensing Change Detection [36.96267014127019]
MMChangeは画像とテキストのモダリティを組み合わせて精度とロバスト性を高めるマルチモーダルRSCD手法である。
画像特徴のセマンティックな制限を克服するために、視覚言語モデル(VLM)を用いてバイテンポラル画像の意味的記述を生成する。
テキスト差分拡張(TDE)モジュールは細粒度のセマンティックシフトをキャプチャし、モデルを意味のある変化へと導く。
論文 参考訳(メタデータ) (2025-09-04T07:39:18Z) - Multimodal LLM-Guided Semantic Correction in Text-to-Image Diffusion [52.315729095824906]
MLLM Semantic-Corrected Ping-Pong-Ahead Diffusion (PPAD) は,マルチモーダル大言語モデル(MLLM)を推論中の意味的オブザーバとして導入する新しいフレームワークである。
中間世代をリアルタイムに分析し、潜在意味的不整合を識別し、フィードバックを制御可能な信号に変換し、残りの認知ステップを積極的に導く。
大規模な実験ではPPADの大幅な改善が示されている。
論文 参考訳(メタデータ) (2025-05-26T14:42:35Z) - S2C: Learning Noise-Resistant Differences for Unsupervised Change Detection in Multimodal Remote Sensing Images [24.75086641416994]
マルチモーダルリモートセンシング(RS)画像における非時間変化検出(UCD)は難しい課題である。
近年のVisual Foundation Models(VFM)とContrastive Learning(CL)方法論の進歩に触発されて,表現中の暗黙的な知識を変化に翻訳するCL方法論の開発を目指す。
論文 参考訳(メタデータ) (2025-02-18T07:34:54Z) - Semantic-CD: Remote Sensing Image Semantic Change Detection towards Open-vocabulary Setting [19.663899648983417]
従来の変化検出手法は、現実的なシナリオにおける意味圏をまたいだ一般化において、しばしば課題に直面している。
本稿では,リモートセンシング画像における意味変化検出に特化して設計されたSemantic-CDという新しい手法を提案する。
CLIPの広範な語彙知識を活用することで,カテゴリ間の一般化能力を高めることができる。
論文 参考訳(メタデータ) (2025-01-12T13:22:11Z) - Semantic Alignment and Reinforcement for Data-Free Quantization of Vision Transformers [58.80845404416028]
データフリー量子化(DFQ)は、実際のデータにアクセスせずにモデル量子化を可能にし、データのセキュリティとプライバシに関する懸念に対処する。
ビジョントランスフォーマー(ViTs)の普及に伴い、ViTsのDFQは大きな注目を集めている。
本稿では,新しいセマンティックアライメントと強化データ自由化手法であるSARDFQを提案する。
論文 参考訳(メタデータ) (2024-12-21T09:30:45Z) - Semantic-CC: Boosting Remote Sensing Image Change Captioning via Foundational Knowledge and Semantic Guidance [19.663899648983417]
本稿では,基礎知識と意味指導に基づく新しい変更キャプション(CC)手法を提案する。
提案手法を LEVIR-CC および LEVIR-CD データセット上で検証する。
論文 参考訳(メタデータ) (2024-07-19T05:07:41Z) - TransY-Net:Learning Fully Transformer Networks for Change Detection of
Remote Sensing Images [64.63004710817239]
リモートセンシング画像CDのためのトランスフォーマーベース学習フレームワークTransY-Netを提案する。
グローバルな視点からの特徴抽出を改善し、ピラミッド方式で多段階の視覚的特徴を組み合わせる。
提案手法は,4つの光学式および2つのSAR画像CDベンチマーク上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-10-22T07:42:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。