論文の概要: DeltaVLM: Interactive Remote Sensing Image Change Analysis via Instruction-guided Difference Perception
- arxiv url: http://arxiv.org/abs/2507.22346v1
- Date: Wed, 30 Jul 2025 03:14:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-31 16:14:17.957585
- Title: DeltaVLM: Interactive Remote Sensing Image Change Analysis via Instruction-guided Difference Perception
- Title(参考訳): DeltaVLM:インストラクション誘導差分知覚によるリモートセンシング画像変化解析
- Authors: Pei Deng, Wenqian Zhou, Hanlin Wu,
- Abstract要約: 本稿では, リモートセンシング画像変化解析(RSICA)を, 変化検出の強みと視覚的質問応答を組み合わせた新しいパラダイムとして導入する。
対話型RSICAに適したエンドツーエンドアーキテクチャであるDeltaVLMを提案する。
DeltaVLMは, 時間差を捉えた微調整バイテンポラルビジョンエンコーダ, 変化を解釈する相互関係測定機構を備えた視覚差分認識モジュール, クエリ関連差分情報を効果的に抽出する命令誘導Q-フォーマの3つのイノベーションを特徴とする。
- 参考スコア(独自算出の注目度): 0.846600473226587
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate interpretation of land-cover changes in multi-temporal satellite imagery is critical for real-world scenarios. However, existing methods typically provide only one-shot change masks or static captions, limiting their ability to support interactive, query-driven analysis. In this work, we introduce remote sensing image change analysis (RSICA) as a new paradigm that combines the strengths of change detection and visual question answering to enable multi-turn, instruction-guided exploration of changes in bi-temporal remote sensing images. To support this task, we construct ChangeChat-105k, a large-scale instruction-following dataset, generated through a hybrid rule-based and GPT-assisted process, covering six interaction types: change captioning, classification, quantification, localization, open-ended question answering, and multi-turn dialogues. Building on this dataset, we propose DeltaVLM, an end-to-end architecture tailored for interactive RSICA. DeltaVLM features three innovations: (1) a fine-tuned bi-temporal vision encoder to capture temporal differences; (2) a visual difference perception module with a cross-semantic relation measuring (CSRM) mechanism to interpret changes; and (3) an instruction-guided Q-former to effectively extract query-relevant difference information from visual changes, aligning them with textual instructions. We train DeltaVLM on ChangeChat-105k using a frozen large language model, adapting only the vision and alignment modules to optimize efficiency. Extensive experiments and ablation studies demonstrate that DeltaVLM achieves state-of-the-art performance on both single-turn captioning and multi-turn interactive change analysis, outperforming existing multimodal large language models and remote sensing vision-language models. Code, dataset and pre-trained weights are available at https://github.com/hanlinwu/DeltaVLM.
- Abstract(参考訳): 多時間衛星画像における土地被覆変化の正確な解釈は、現実のシナリオにおいて重要である。
しかし、既存のメソッドは通常、ワンショットの変更マスクや静的キャプションのみを提供し、インタラクティブでクエリ駆動分析をサポートする能力を制限する。
本研究では, リモートセンシング画像変化解析(RSICA)を, 変化検出の長所と視覚的質問応答の長所を組み合わせた新しいパラダイムとして導入し, 両時間的リモートセンシング画像の変化を多ターン・指示誘導で探索する手法を提案する。
このタスクを支援するために,変更キャプション,分類,定量化,ローカライゼーション,オープンエンド質問応答,マルチターン対話の6つのインタラクションタイプをカバーする,大規模命令フォローデータセットであるChaChat-105kを構築した。
このデータセットに基づいて,対話型RSICAに適したエンドツーエンドアーキテクチャであるDeltaVLMを提案する。
DeltaVLMは, 時間差を捉えた微調整バイテンポラル・ビジョン・エンコーダ, 2) 変化を解釈するクロスセマンティック・リレーションメント(CSRM)機構を備えた視覚差分認識モジュール, (3) 視覚変化からクエリ関連差分情報を効果的に抽出し, テキスト・インストラクションと整合させる命令誘導型Q-フォーマ, の3つのイノベーションを特徴としている。
ChangeChat-105kでDeltaVLMを凍結した大きな言語モデルでトレーニングし、視覚とアライメントモジュールのみを適用して効率を最適化する。
デルタVLMは,一ターンキャプションと多ターン対話的変化解析の両方において最先端の性能を達成し,既存の多モーダル大言語モデルとリモートセンシングビジョン言語モデルより優れていることを示す。
コード、データセット、トレーニング済みのウェイトはhttps://github.com/hanlinwu/DeltaVLM.comで入手できる。
関連論文リスト
- What Changed? Detecting and Evaluating Instruction-Guided Image Edits with Multimodal Large Language Models [88.398085358514]
DICEは、原画像と編集画像の局所的な差異を検出するために設計されたモデルである。
自己監督、塗布ネットワークからの蒸留、全監督を利用する戦略を用いて訓練されている。
DICEは一貫性のある編集を効果的に識別し、異なる編集モデルによって生成された画像を人間の判断と強く相関して効果的に評価する。
論文 参考訳(メタデータ) (2025-05-26T18:00:10Z) - ViLa-MIL: Dual-scale Vision-Language Multiple Instance Learning for Whole Slide Image Classification [52.405499816861635]
多重インスタンス学習(MIL)ベースのフレームワークは、スライド画像全体(WSI)を処理する上で主流になっている。
スライド画像全体の分類のための2次元視覚言語多言語学習(ViLa-MIL)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-12T13:28:46Z) - Remote Sensing Spatio-Temporal Vision-Language Models: A Comprehensive Survey [23.514029232902953]
本稿では,RS-STVLMの総合的なレビューを行う。
本稿では, 変更キャプション, 変更質問, 回答キャプション, 変更グラウンドなど, 代表課題の進捗状況について論じる。
遠隔センシングのための視覚言語理解における現在の成果と将来的な研究の方向性を照らすことを目的としている。
論文 参考訳(メタデータ) (2024-12-03T16:56:10Z) - Enhancing Perception of Key Changes in Remote Sensing Image Change Captioning [49.24306593078429]
KCFI(Key Change Features and Instruction-tuned)によるリモートセンシング画像変換キャプションのための新しいフレームワークを提案する。
KCFIは、バイテンポラルリモートセンシング画像特徴を抽出するViTsエンコーダと、重要な変化領域を識別するキー特徴知覚器と、画素レベルの変化検出デコーダとを含む。
提案手法の有効性を検証するため,LEVIR-CCデータセット上のいくつかの最新の変更キャプション手法との比較を行った。
論文 参考訳(メタデータ) (2024-09-19T09:33:33Z) - ChangeChat: An Interactive Model for Remote Sensing Change Analysis via Multimodal Instruction Tuning [0.846600473226587]
本稿では,RS変化解析に特化して設計された初めてのバイテンポラル視覚言語モデルであるChangeChatを紹介する。
ChangeChatはマルチモーダルな命令チューニングを使用して、変更キャプション、カテゴリ固有の定量化、変更ローカライゼーションといった複雑なクエリを処理できる。
実験によると、ChangeChatはRS変更分析のための包括的なインタラクティブなソリューションを提供し、特定のタスクにおける最先端(SOTA)メソッドに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-09-13T07:00:44Z) - Change-Agent: Towards Interactive Comprehensive Remote Sensing Change Interpretation and Analysis [28.3763053922823]
現在のRSICI技術は、変更検出と変更キャプションを包含しており、それぞれに包括的な解釈を提供する限界がある。
本稿では,ユーザ指示に従って包括的な変更解釈を実現するインタラクティブなChange-Agentを提案する。
Change-Agentは、マルチレベル変化解釈(MCI)モデルを目として、大きな言語モデル(LLM)を脳として統合する。
論文 参考訳(メタデータ) (2024-03-28T17:55:42Z) - Improved Baselines for Data-efficient Perceptual Augmentation of LLMs [66.05826802808177]
コンピュータビジョンでは、画像キャプションや視覚的質問応答などの視覚言語タスクに、大きな言語モデル(LLM)を用いることができる。
複数のタスクにまたがる異なる対面機構を実験的に評価する。
異なるタスク間で(ほぼ)最適な結果をもたらす新しいインターフェース機構を同定し、トレーニング時間を4倍短縮する。
論文 参考訳(メタデータ) (2024-03-20T10:57:17Z) - Contextual Object Detection with Multimodal Large Language Models [66.15566719178327]
本稿では,コンテキストオブジェクト検出の新たな研究課題について紹介する。
言語クローゼテスト,視覚キャプション,質問応答の3つの代表的なシナリオについて検討した。
本稿では、視覚的コンテキストのエンドツーエンドの微分可能なモデリングが可能な統合マルチモーダルモデルContextDETを提案する。
論文 参考訳(メタデータ) (2023-05-29T17:50:33Z) - Probing Inter-modality: Visual Parsing with Self-Attention for
Vision-Language Pre-training [139.4566371416662]
Vision-Language Pre-Trainingは、画像とテキストのペアからマルチモーダル表現を学ぶことを目的としている。
CNNは、長距離依存をモデル化する際の局所受容野の弱点により、視覚的関係学習に制限がある。
論文 参考訳(メタデータ) (2021-06-25T08:04:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。