論文の概要: Decoding the Delta: Unifying Remote Sensing Change Detection and Understanding with Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2604.14044v1
- Date: Wed, 15 Apr 2026 16:23:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-16 20:38:32.63422
- Title: Decoding the Delta: Unifying Remote Sensing Change Detection and Understanding with Multimodal Large Language Models
- Title(参考訳): Deltaのデコード:マルチモーダル大言語モデルによるリモートセンシング変更検出と理解の統合
- Authors: Xiaohe Li, Jiahao Li, Kaixin Zhang, Yuqiang Fang, Leilei Lin, Hong Wang, Haohua Wu, Zide Fan,
- Abstract要約: 本稿では,多時間リモートセンシングの解釈に適した新しいMLLMフレームワークであるDelta-LLaVAを提案する。
3つの中核的なイノベーションを通じて、ナイーブな機能結合の限界を克服します。
これは、複雑な変化の推論と高精度境界ローカライゼーションにおいて、先導的な一般MLLMと特別なセグメンテーションモデルより決定的に優れている。
- 参考スコア(独自算出の注目度): 9.373908834130669
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Multimodal Large Language Models (MLLMs) excel in general vision-language tasks, their application to remote sensing change understanding is hindered by a fundamental "temporal blindness". Existing architectures lack intrinsic mechanisms for multi-temporal contrastive reasoning and struggle with precise spatial grounding. To address this, we first introduce Delta-QA, a comprehensive benchmark comprising 180k visual question-answering samples. Delta-QA unifies pixel-level segmentation and visual question answering across bi- and tri-temporal scenarios, structuring change interpretation into four progressive cognitive dimensions. Methodologically, we propose Delta-LLaVA, a novel MLLM framework explicitly tailored for multi-temporal remote sensing interpretation. It overcomes the limitations of naive feature concatenation through three core innovations: a Change-Enhanced Attention module that systematically isolates and amplifies visual differences, a Change-SEG module utilizing Change Prior Embedding to extract differentiable difference features as input for the LLM, and Local Causal Attention to prevent cross-temporal contextual leakage. Extensive experiments demonstrate that Delta-LLaVA decisively outperforms leading generalist MLLMs and specialized segmentation models in complex change deduction and high-precision boundary localization, establishing a unified framework for earth observation intelligence.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、一般的な視覚言語タスクにおいて優れているが、リモートセンシングによる変化理解への応用は、基本的な「時間的盲点」によって妨げられる。
既存のアーキテクチャでは、多重時間的コントラスト推論の固有のメカニズムが欠如しており、正確な空間的接地に苦慮している。
デルタQA(Delta-QA)は,180kの視覚的質問応答サンプルからなる総合的なベンチマークである。
デルタQAはピクセルレベルのセグメンテーションと視覚的質問応答を両時間・三時間シナリオで統合し、変化解釈を4つの進歩的認知次元に構造化する。
提案するDelta-LLaVAは,マルチ時間リモートセンシングの解釈に適した新しいMLLMフレームワークである。
視覚的差異を体系的に分離し増幅する変更強化アテンションモジュール、LLMの入力として異なる特徴を抽出する変更優先エンベッドを利用する変更-SEGモジュール、時間的コンテキストリークを防止するローカルカジュアルアテンションである。
Delta-LLaVAは、複雑な変化の推論と高精度な境界位置化において、先導的なMLLMや特別なセグメンテーションモデルよりも圧倒的に優れており、地球観測知能の統一的な枠組みを確立している。
関連論文リスト
- Perception-Aware Multimodal Spatial Reasoning from Monocular Images [57.42071289037214]
単眼画像からの空間的推論は 自律運転には不可欠です
現在のヴィジュアルランゲージモデル(VLM)は、微粒な幾何学的知覚に苦慮している。
本稿では,VLMを明示的な対象中心の接地能力を持つ知覚認識型マルチモーダル推論フレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-07T02:05:12Z) - AG-VAS: Anchor-Guided Zero-Shot Visual Anomaly Segmentation with Large Multimodal Models [21.682989096955467]
AG-VAS(Anchor-Guided Visual Anomaly)は、3つの学習可能なセマンティックアンカートークンでLMM語彙を拡張する新しいフレームワークである。
AG-VASはゼロショット設定で一貫した最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-03-01T22:25:23Z) - Top 10 Open Challenges Steering the Future of Diffusion Language Model and Its Variants [85.33837131101342]
本稿では,基盤基盤,アルゴリズム最適化,認知推論,統合マルチモーダルインテリジェンスという4つの柱で構成された戦略ロードマップを提案する。
この移行は、複雑な構造的推論、動的自己補正、シームレスなマルチモーダル統合が可能な次世代AIの開発に不可欠である、と我々は主張する。
論文 参考訳(メタデータ) (2026-01-20T14:58:23Z) - DiG: Differential Grounding for Enhancing Fine-Grained Perception in Multimodal Large Language Model [22.28268642142352]
DiG (Differential Grounding) は、MLLM がより詳細な認識を学習する新しいプロキシ・タスク・フレームワークである。
この結果は,MLLMの微細な視覚的推論を向上するための,スケーラブルで堅牢なアプローチとして,微分接地に注目した。
論文 参考訳(メタデータ) (2025-12-14T10:40:27Z) - When Alignment Fails: Multimodal Adversarial Attacks on Vision-Language-Action Models [75.16145284285456]
我々は,White-box設定とBlack-box設定の両方の下で,組込みVLAモデルのマルチモーダル対向ロバスト性に関する総合的研究であるVLA-Foolを紹介する。
自動生成および意味的に誘導されるプロンプトフレームワークを最初に開発する。
LIBEROベンチマークの実験では、小さなマルチモーダル摂動でさえ大きな行動偏差を引き起こすことが示されている。
論文 参考訳(メタデータ) (2025-11-20T10:14:32Z) - A Comprehensive Study on Visual Token Redundancy for Discrete Diffusion-based Multimodal Large Language Models [85.30893355216486]
我々は,異なるdMLLMアーキテクチャとタスクを用いて,視覚的トークン冗長性がどのように進化するかを検討する。
本研究により, 視覚的冗長性は, 長時間のタスクを処理しながら, オフスクラッチdMLLMでのみ現れることが明らかとなった。
層スキッピングはAR-to-diffusion dMLLMの加速に有効であるのに対し、プログレッシブプルーニングやレイトステッププルーニングはストクラッチdMLLMよりも効果的である。
論文 参考訳(メタデータ) (2025-11-19T04:13:36Z) - DeltaVLM: Interactive Remote Sensing Image Change Analysis via Instruction-guided Difference Perception [0.846600473226587]
本稿では, リモートセンシング画像変化解析(RSICA)を, 変化検出の強みと視覚的質問応答を組み合わせた新しいパラダイムとして導入する。
対話型RSICAに適したエンドツーエンドアーキテクチャであるDeltaVLMを提案する。
DeltaVLMは, 時間差を捉えた微調整バイテンポラルビジョンエンコーダ, 変化を解釈する相互関係測定機構を備えた視覚差分認識モジュール, クエリ関連差分情報を効果的に抽出する命令誘導Q-フォーマの3つのイノベーションを特徴とする。
論文 参考訳(メタデータ) (2025-07-30T03:14:27Z) - Multimodal LLM-Guided Semantic Correction in Text-to-Image Diffusion [52.315729095824906]
MLLM Semantic-Corrected Ping-Pong-Ahead Diffusion (PPAD) は,マルチモーダル大言語モデル(MLLM)を推論中の意味的オブザーバとして導入する新しいフレームワークである。
中間世代をリアルタイムに分析し、潜在意味的不整合を識別し、フィードバックを制御可能な信号に変換し、残りの認知ステップを積極的に導く。
大規模な実験ではPPADの大幅な改善が示されている。
論文 参考訳(メタデータ) (2025-05-26T14:42:35Z) - LDGNet: A Lightweight Difference Guiding Network for Remote Sensing Change Detection [6.554696547472252]
光リモートセンシングによる変化検出を誘導する軽量差分誘導ネットワーク(LDGNet)を提案する。
まず、軽量バックボーンネットワークの特徴表現能力を高めるために、差分誘導モジュール(DGM)を提案する。
次に,Visual State Space Model (VSSM) を用いたDADFモジュールを提案する。
論文 参考訳(メタデータ) (2025-04-07T13:33:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。