論文の概要: LG-CD: Enhancing Language-Guided Change Detection through SAM2 Adaptation
- arxiv url: http://arxiv.org/abs/2509.21894v1
- Date: Fri, 26 Sep 2025 05:30:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.203291
- Title: LG-CD: Enhancing Language-Guided Change Detection through SAM2 Adaptation
- Title(参考訳): LG-CD:SAM2適応による言語ガイドによる変更検出の強化
- Authors: Yixiao Liu, Yizhou Yang, Jinwen Li, Jun Tao, Ruoyu Li, Xiangkun Wang, Min Zhu, Junlong Cheng,
- Abstract要約: 我々はLG-CD(Language-Guided Change Detection Model)を提案する。
このモデルは、自然言語のプロンプトを利用して、ネットワークの関心領域への注意を向ける。
3つのデータセットに対する実験により、LG-CDは最先端の変更検出方法よりも一貫して優れていることが示された。
- 参考スコア(独自算出の注目度): 9.324344835427858
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Remote Sensing Change Detection (RSCD) typically identifies changes in land cover or surface conditions by analyzing multi-temporal images. Currently, most deep learning-based methods primarily focus on learning unimodal visual information, while neglecting the rich semantic information provided by multimodal data such as text. To address this limitation, we propose a novel Language-Guided Change Detection model (LG-CD). This model leverages natural language prompts to direct the network's attention to regions of interest, significantly improving the accuracy and robustness of change detection. Specifically, LG-CD utilizes a visual foundational model (SAM2) as a feature extractor to capture multi-scale pyramid features from high-resolution to low-resolution across bi-temporal remote sensing images. Subsequently, multi-layer adapters are employed to fine-tune the model for downstream tasks, ensuring its effectiveness in remote sensing change detection. Additionally, we design a Text Fusion Attention Module (TFAM) to align visual and textual information, enabling the model to focus on target change regions using text prompts. Finally, a Vision-Semantic Fusion Decoder (V-SFD) is implemented, which deeply integrates visual and semantic information through a cross-attention mechanism to produce highly accurate change detection masks. Our experiments on three datasets (LEVIR-CD, WHU-CD, and SYSU-CD) demonstrate that LG-CD consistently outperforms state-of-the-art change detection methods. Furthermore, our approach provides new insights into achieving generalized change detection by leveraging multimodal information.
- Abstract(参考訳): リモートセンシング変化検出(Remote Sensing Change Detection、RSCD)は、通常、多時間画像を分析して、土地被覆や表面の状態の変化を識別する。
現在、ほとんどのディープラーニングベースの手法は、テキストなどのマルチモーダルデータによって提供されるリッチな意味情報を無視しながら、非モーダル視覚情報学習に重点を置いている。
この制限に対処するため,LG-CD(Language-Guided Change Detection Model)を提案する。
このモデルは、自然言語のプロンプトを利用して、ネットワークの関心領域への注意を向け、変更検出の精度と堅牢性を大幅に改善する。
特に、LG-CDは視覚的基礎モデル(SAM2)を特徴抽出器として使用し、高解像度から低解像度の両時間リモートセンシング画像から多スケールのピラミッド特徴を捉えている。
その後、下流タスクのモデルを微調整するために多層アダプタが使用され、リモートセンシングによる変更検出の有効性が保証される。
さらに,テキスト・フュージョン・アテンション・モジュール(TFAM, Text Fusion Attention Module)を設計し,テキスト・プロンプトを用いて,対象となる変化領域に集中できるようにする。
最後に,ビジョン・セマンティック・フュージョン・デコーダ(V-SFD)を実装し,高精度な変化検出マスクを生成するためのクロスアテンション機構を通じて視覚情報と意味情報を深く統合する。
3つのデータセット(LEVIR-CD, WHU-CD, SYSU-CD)に対する実験により,LG-CDは最新変化検出法より一貫して優れていることが示された。
さらに,本手法は,マルチモーダル情報を活用することで,汎用的な変化検出を実現するための新たな洞察を提供する。
関連論文リスト
- Multimodal Feature Fusion Network with Text Difference Enhancement for Remote Sensing Change Detection [36.96267014127019]
MMChangeは画像とテキストのモダリティを組み合わせて精度とロバスト性を高めるマルチモーダルRSCD手法である。
画像特徴のセマンティックな制限を克服するために、視覚言語モデル(VLM)を用いてバイテンポラル画像の意味的記述を生成する。
テキスト差分拡張(TDE)モジュールは細粒度のセマンティックシフトをキャプチャし、モデルを意味のある変化へと導く。
論文 参考訳(メタデータ) (2025-09-04T07:39:18Z) - Wavelet-Guided Dual-Frequency Encoding for Remote Sensing Change Detection [67.84730634802204]
リモートセンシング画像の変化検出は,自然災害監視,都市拡張追跡,インフラ管理など,さまざまな工学的応用において重要な役割を担っている。
既存のほとんどの手法は空間領域モデリングに依存しており、特徴表現の限られた多様性は微妙な変化領域の検出を妨げる。
本研究では、特にウェーブレット領域における周波数領域の特徴モデリングが周波数成分の微細な違いを増幅し、空間領域において捉えにくいエッジ変化の知覚を高めることを観察する。
論文 参考訳(メタデータ) (2025-08-07T11:14:16Z) - MGCR-Net:Multimodal Graph-Conditioned Vision-Language Reconstruction Network for Remote Sensing Change Detection [55.702662643521265]
マルチモーダルデータのセマンティックインタラクション機能を検討するために,マルチモーダルグラフ条件付き視覚言語再構成ネットワーク(MGCR-Net)を提案する。
4つの公開データセットによる実験結果から,MGCRは主流CD法に比べて優れた性能を示した。
論文 参考訳(メタデータ) (2025-08-03T02:50:08Z) - DeltaVLM: Interactive Remote Sensing Image Change Analysis via Instruction-guided Difference Perception [0.846600473226587]
本稿では, リモートセンシング画像変化解析(RSICA)を, 変化検出の強みと視覚的質問応答を組み合わせた新しいパラダイムとして導入する。
対話型RSICAに適したエンドツーエンドアーキテクチャであるDeltaVLMを提案する。
DeltaVLMは, 時間差を捉えた微調整バイテンポラルビジョンエンコーダ, 変化を解釈する相互関係測定機構を備えた視覚差分認識モジュール, クエリ関連差分情報を効果的に抽出する命令誘導Q-フォーマの3つのイノベーションを特徴とする。
論文 参考訳(メタデータ) (2025-07-30T03:14:27Z) - Detect Changes like Humans: Incorporating Semantic Priors for Improved Change Detection [52.62459671461816]
本稿では,視覚基盤モデルからのセマンティックな先入観を取り入れ,変化を検出する能力の向上について検討する。
人間の視覚パラダイムにインスパイアされた新しいデュアルストリーム特徴デコーダは、意味認識特徴と差認識特徴を組み合わせることで変化を区別するために導出される。
論文 参考訳(メタデータ) (2024-12-22T08:27:15Z) - Enhancing Perception of Key Changes in Remote Sensing Image Change Captioning [49.24306593078429]
KCFI(Key Change Features and Instruction-tuned)によるリモートセンシング画像変換キャプションのための新しいフレームワークを提案する。
KCFIは、バイテンポラルリモートセンシング画像特徴を抽出するViTsエンコーダと、重要な変化領域を識別するキー特徴知覚器と、画素レベルの変化検出デコーダとを含む。
提案手法の有効性を検証するため,LEVIR-CCデータセット上のいくつかの最新の変更キャプション手法との比較を行った。
論文 参考訳(メタデータ) (2024-09-19T09:33:33Z) - TransY-Net:Learning Fully Transformer Networks for Change Detection of
Remote Sensing Images [64.63004710817239]
リモートセンシング画像CDのためのトランスフォーマーベース学習フレームワークTransY-Netを提案する。
グローバルな視点からの特徴抽出を改善し、ピラミッド方式で多段階の視覚的特徴を組み合わせる。
提案手法は,4つの光学式および2つのSAR画像CDベンチマーク上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-10-22T07:42:19Z) - Affine-Consistent Transformer for Multi-Class Cell Nuclei Detection [76.11864242047074]
本稿では, 原子核位置を直接生成する新しいアフィン一貫性変換器 (AC-Former) を提案する。
本稿では,AAT (Adaptive Affine Transformer) モジュールを導入し,ローカルネットワークトレーニングのためのオリジナル画像をワープするための重要な空間変換を自動学習する。
実験結果から,提案手法は様々なベンチマークにおいて既存の最先端アルゴリズムを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2023-10-22T02:27:02Z) - Dsfer-Net: A Deep Supervision and Feature Retrieval Network for Bitemporal Change Detection Using Modern Hopfield Networks [35.415260892693745]
本稿では,バイテンポラル変化検出のためのDeep Supervision and feature Retrieval Network (Dsfer-Net)を提案する。
具体的には、バイテンポラル画像の高度に代表的な深い特徴を、完全に畳み込みされたシームズネットワークを通じて、共同で抽出する。
エンド・ツー・エンドのネットワークは,異なるレイヤから抽出した特徴と特徴のペアを集約することで,新たなフレームワークを確立する。
論文 参考訳(メタデータ) (2023-04-03T16:01:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。