論文の概要: Towards Comprehensive Interactive Change Understanding in Remote Sensing: A Large-scale Dataset and Dual-granularity Enhanced VLM
- arxiv url: http://arxiv.org/abs/2509.23105v1
- Date: Sat, 27 Sep 2025 04:28:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.042196
- Title: Towards Comprehensive Interactive Change Understanding in Remote Sensing: A Large-scale Dataset and Dual-granularity Enhanced VLM
- Title(参考訳): リモートセンシングにおける包括的対話的変化理解に向けて--大規模データセットとデュアルグラニュラリティ強化VLM
- Authors: Junxiao Xue, Quan Deng, Xuecheng Wu, Kelu Yao, Xinyi Yin, Fei Yu, Wei Zhou, Yanfei Zhong, Yang Liu, Dingkang Yang,
- Abstract要約: ChangeIMTIは、変更キャプション、バイナリ変更分類、変更カウント、変更ローカライゼーションのための大規模な対話型マルチタスク命令データセットである。
両時間リモートセンシング画像に対して、二重粒度認識を用いた視覚誘導型視覚言語モデル(ChangeVG)を提案する。
本手法は, 総合的なS*m測定値において, セマンティックCCを1.39ポイント上回る最強の手法である。
- 参考スコア(独自算出の注目度): 36.840534360955175
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Remote sensing change understanding (RSCU) is essential for analyzing remote sensing images and understanding how human activities affect the environment. However, existing datasets lack deep understanding and interactions in the diverse change captioning, counting, and localization tasks. To tackle these gaps, we construct ChangeIMTI, a new large-scale interactive multi-task instruction dataset that encompasses four complementary tasks including change captioning, binary change classification, change counting, and change localization. Building upon this new dataset, we further design a novel vision-guided vision-language model (ChangeVG) with dual-granularity awareness for bi-temporal remote sensing images (i.e., two remote sensing images of the same area at different times). The introduced vision-guided module is a dual-branch architecture that synergistically combines fine-grained spatial feature extraction with high-level semantic summarization. These enriched representations further serve as the auxiliary prompts to guide large vision-language models (VLMs) (e.g., Qwen2.5-VL-7B) during instruction tuning, thereby facilitating the hierarchical cross-modal learning. We extensively conduct experiments across four tasks to demonstrate the superiority of our approach. Remarkably, on the change captioning task, our method outperforms the strongest method Semantic-CC by 1.39 points on the comprehensive S*m metric, which integrates the semantic similarity and descriptive accuracy to provide an overall evaluation of change caption. Moreover, we also perform a series of ablation studies to examine the critical components of our method.
- Abstract(参考訳): リモートセンシング変化理解(RSCU)は、リモートセンシング画像を分析し、人間の活動が環境に与える影響を理解するために不可欠である。
しかし、既存のデータセットは、さまざまな変更キャプション、カウント、ローカライゼーションタスクにおいて、深い理解と相互作用を欠いている。
これらのギャップに対処するために,変更キャプション,バイナリ変更分類,変更カウント,変更ローカライゼーションを含む4つの補完的なタスクを含む,大規模な対話型マルチタスク命令データセットであるChangeIMTIを構築した。
この新たなデータセットに基づいて、両時間リモートセンシング画像(例えば、異なる時間に同じ領域の2つのリモートセンシング画像)に対する二重粒度認識を備えた視覚誘導型視覚言語モデル(ChangeVG)をさらに設計する。
導入された視覚誘導モジュールは、微細な空間的特徴抽出と高レベルの意味的要約を相乗的に組み合わせたデュアルブランチアーキテクチャである。
これらの豊かな表現は、命令チューニング中に大きな視覚言語モデル(例えば、Qwen2.5-VL-7B)を誘導する補助的なプロンプトとして機能し、階層的クロスモーダル学習を容易にする。
我々は4つのタスクにまたがる実験を行い、アプローチの優位性を実証した。
また, 変更キャプションタスクにおいて, 本手法は, 意味的類似性と記述精度を統合し, 変更キャプションの全体的な評価を提供する総合的なS*m尺度において, セマンティックCCを1.39ポイント上回る最強の手法である。
さらに,本手法の重要成分を検討するために,一連のアブレーション研究も実施している。
関連論文リスト
- Knowledge Transfer from Interaction Learning [16.83991179271622]
現在の視覚基礎モデル(VFM)は、視覚言語モデル(VLM)から知識を伝達する際の基本的な制限に直面している。
視覚的理解をインタラクティブなプロセスとして明示的にモデル化する,認知に触発されたフレームワークであるLearning from Interactions (LFI)を提案する。
論文 参考訳(メタデータ) (2025-09-23T07:27:36Z) - GoViG: Goal-Conditioned Visual Navigation Instruction Generation [69.79110149746506]
本稿では,Goal-Conditioned Visual Navigation Instruction Generation (GoViG)を紹介する。
GoViGは生のエゴセントリックな視覚データのみを活用し、目に見えない非構造環境への適応性を大幅に改善する。
論文 参考訳(メタデータ) (2025-08-13T07:05:17Z) - DeltaVLM: Interactive Remote Sensing Image Change Analysis via Instruction-guided Difference Perception [0.846600473226587]
本稿では, リモートセンシング画像変化解析(RSICA)を, 変化検出の強みと視覚的質問応答を組み合わせた新しいパラダイムとして導入する。
対話型RSICAに適したエンドツーエンドアーキテクチャであるDeltaVLMを提案する。
DeltaVLMは, 時間差を捉えた微調整バイテンポラルビジョンエンコーダ, 変化を解釈する相互関係測定機構を備えた視覚差分認識モジュール, クエリ関連差分情報を効果的に抽出する命令誘導Q-フォーマの3つのイノベーションを特徴とする。
論文 参考訳(メタデータ) (2025-07-30T03:14:27Z) - Graph Aggregation Prototype Learning for Semantic Change Detection in Remote Sensing [11.262559117458304]
リモートセンシングにおける意味変化検出のためのグラフ集約プロトタイプ学習を提案する。
提案手法は,SCDタスクの精度とロバスト性を大幅に向上し,最先端の性能を実現する。
論文 参考訳(メタデータ) (2025-07-15T03:03:29Z) - Remote Sensing Large Vision-Language Model: Semantic-augmented Multi-level Alignment and Semantic-aware Expert Modeling [42.46176089721314]
LVLM(Large Vision and Language Models)は、自然画像領域における様々な視覚言語タスクに強いパフォーマンスを示す。
リモートセンシング(RS)への応用は、視覚的外観、オブジェクトスケール、セマンティクスに大きな領域差があるため、いまだ探索されていない。
本稿では,RS理解に適した新しいLVLMフレームワークを提案する。セマンティック拡張多レベルアライメントとセマンティック対応エキスパートモデリングである。
論文 参考訳(メタデータ) (2025-06-27T02:31:37Z) - From Holistic to Localized: Local Enhanced Adapters for Efficient Visual Instruction Fine-Tuning [102.18178065928426]
効率的なビジュアルインストラクションファインタニング(EVIT)は、最小の計算オーバーヘッドで下流タスクにマルチモーダル大言語モデル(MLLM)を適用することを目指している。
本稿では,Dual Low-Rank Adaptation (Dual-LoRA)を提案する。
論文 参考訳(メタデータ) (2024-11-19T11:03:09Z) - Cross-Modal Bidirectional Interaction Model for Referring Remote Sensing Image Segmentation [50.433911327489554]
リモートセンシング画像セグメンテーション(RRSIS)の目標は、参照式によって識別された対象オブジェクトの画素レベルマスクを生成することである。
上記の課題に対処するため、クロスモーダル双方向相互作用モデル(CroBIM)と呼ばれる新しいRRSISフレームワークが提案されている。
RRSISの研究をさらに推し進めるために、52,472個の画像言語ラベル三重項からなる新しい大規模ベンチマークデータセットRISBenchを構築した。
論文 参考訳(メタデータ) (2024-10-11T08:28:04Z) - Semantic-CC: Boosting Remote Sensing Image Change Captioning via Foundational Knowledge and Semantic Guidance [19.663899648983417]
本稿では,基礎知識と意味指導に基づく新しい変更キャプション(CC)手法を提案する。
提案手法を LEVIR-CC および LEVIR-CD データセット上で検証する。
論文 参考訳(メタデータ) (2024-07-19T05:07:41Z) - Position-Aware Contrastive Alignment for Referring Image Segmentation [65.16214741785633]
マルチモーダル特徴のアライメントを強化するために,位置認識型コントラストアライメントネットワーク(PCAN)を提案する。
1)自然言語記述に関連するすべてのオブジェクトの位置情報を提供する位置認識モジュール(PAM)と,2)マルチモーダルアライメントを強化するコントラスト言語理解モジュール(CLUM)の2つのモジュールで構成されている。
論文 参考訳(メタデータ) (2022-12-27T09:13:19Z) - DiMBERT: Learning Vision-Language Grounded Representations with
Disentangled Multimodal-Attention [101.99313208598569]
視覚と言語(V-L)タスクは、視覚内容と自然言語の両方を理解する必要がある。
視覚と言語に対する注意空間を分離したDiMBERT(Disentangled Multimodal-Attention BERT)を提案する。
DiMBERTは3つのタスクに対して最新のパフォーマンスを新たに設定する。
論文 参考訳(メタデータ) (2022-10-28T23:00:40Z) - Learning to Relate Depth and Semantics for Unsupervised Domain
Adaptation [87.1188556802942]
教師なしドメイン適応(UDA)設定において,視覚的タスク関係を符号化してモデル性能を向上させる手法を提案する。
本稿では,意味的および深さ的予測のタスク依存性を符号化する新しいクロスタスク関係層(ctrl)を提案する。
さらに、セマンティック擬似ラベルを利用してターゲットドメインを監督する反復自己学習(ISL)トレーニングスキームを提案する。
論文 参考訳(メタデータ) (2021-05-17T13:42:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。