論文の概要: Enhancing Perception of Key Changes in Remote Sensing Image Change Captioning
- arxiv url: http://arxiv.org/abs/2409.12612v1
- Date: Thu, 19 Sep 2024 09:33:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 14:08:12.942546
- Title: Enhancing Perception of Key Changes in Remote Sensing Image Change Captioning
- Title(参考訳): リモートセンシング画像変化キャプションにおけるキー変化の知覚の促進
- Authors: Cong Yang, Zuchao Li, Hongzan Jiao, Zhi Gao, Lefei Zhang,
- Abstract要約: KCFI(Key Change Features and Instruction-tuned)によるリモートセンシング画像変換キャプションのための新しいフレームワークを提案する。
KCFIは、バイテンポラルリモートセンシング画像特徴を抽出するViTsエンコーダと、重要な変化領域を識別するキー特徴知覚器と、画素レベルの変化検出デコーダとを含む。
提案手法の有効性を検証するため,LEVIR-CCデータセット上のいくつかの最新の変更キャプション手法との比較を行った。
- 参考スコア(独自算出の注目度): 49.24306593078429
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, while significant progress has been made in remote sensing image change captioning, existing methods fail to filter out areas unrelated to actual changes, making models susceptible to irrelevant features. In this article, we propose a novel multimodal framework for remote sensing image change captioning, guided by Key Change Features and Instruction-tuned (KCFI). This framework aims to fully leverage the intrinsic knowledge of large language models through visual instructions and enhance the effectiveness and accuracy of change features using pixel-level change detection tasks. Specifically, KCFI includes a ViTs encoder for extracting bi-temporal remote sensing image features, a key feature perceiver for identifying critical change areas, a pixel-level change detection decoder to constrain key change features, and an instruction-tuned decoder based on a large language model. Moreover, to ensure that change description and change detection tasks are jointly optimized, we employ a dynamic weight-averaging strategy to balance the losses between the two tasks. We also explore various feature combinations for visual fine-tuning instructions and demonstrate that using only key change features to guide the large language model is the optimal choice. To validate the effectiveness of our approach, we compare it against several state-of-the-art change captioning methods on the LEVIR-CC dataset, achieving the best performance. Our code will be available at https://github.com/yangcong356/KCFI.git.
- Abstract(参考訳): 近年,リモートセンシング画像のキャプションにおいて顕著な進歩が見られたが,既存の手法では実際の変化とは無関係な領域をフィルタリングすることができず,無関係な特徴に敏感なモデルとなっている。
本稿では,KCFI(Key Change Features and Instruction-tuned)によるリモートセンシング画像のキャプションのための新しいマルチモーダルフレームワークを提案する。
本フレームワークは,大規模言語モデルの内在的知識を視覚的指示を通じて完全に活用することを目的としており,画素レベルの変化検出タスクを用いて,変化特徴の有効性と精度を高めることを目的としている。
具体的には、両時間リモートセンシング画像特徴を抽出するViTsエンコーダと、臨界変化領域を識別するキー特徴知覚器と、キー変更特徴を制約する画素レベル変化検出デコーダと、大きな言語モデルに基づく命令調整デコーダとを含む。
さらに、変更記述と変更検出タスクが協調的に最適化されることを保証するため、この2つのタスク間の損失のバランスをとるために、動的な重み付き戦略を採用する。
また、視覚的な微調整命令のための様々な機能の組み合わせについても検討し、大きな言語モデルを導くために重要な変更機能のみを使用することが最適な選択であることを示す。
提案手法の有効性を検証するため,LEVIR-CCデータセット上のいくつかの最新の変更キャプション手法と比較し,最高の性能を実現した。
私たちのコードはhttps://github.com/yangcong356/KCFI.gitで公開されます。
関連論文リスト
- ChangeChat: An Interactive Model for Remote Sensing Change Analysis via Multimodal Instruction Tuning [0.846600473226587]
本稿では,RS変化解析に特化して設計された初めてのバイテンポラル視覚言語モデルであるChangeChatを紹介する。
ChangeChatはマルチモーダルな命令チューニングを使用して、変更キャプション、カテゴリ固有の定量化、変更ローカライゼーションといった複雑なクエリを処理できる。
実験によると、ChangeChatはRS変更分析のための包括的なインタラクティブなソリューションを提供し、特定のタスクにおける最先端(SOTA)メソッドに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-09-13T07:00:44Z) - Semantic-CC: Boosting Remote Sensing Image Change Captioning via Foundational Knowledge and Semantic Guidance [19.663899648983417]
本稿では,基礎知識と意味指導に基づく新しい変更キャプション(CC)手法を提案する。
提案手法を LEVIR-CC および LEVIR-CD データセット上で検証する。
論文 参考訳(メタデータ) (2024-07-19T05:07:41Z) - ChangeViT: Unleashing Plain Vision Transformers for Change Detection [3.582733645632794]
ChangeViTは、大規模な変更のパフォーマンスを高めるために、プレーンなViTバックボーンを採用するフレームワークである。
このフレームワークは3つの一般的な高解像度データセット上で最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-06-18T17:59:08Z) - Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。
この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。
実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文 参考訳(メタデータ) (2024-03-19T17:59:52Z) - MS-Former: Memory-Supported Transformer for Weakly Supervised Change
Detection with Patch-Level Annotations [50.79913333804232]
弱い教師付き変化検出のためのメモリ支援トランス (MS-Former) を提案する。
MS-Former は双方向注意ブロック (BAB) とパッチレベルの監視スキーム (PSS) から構成される。
3つのベンチマークデータセットの実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2023-11-16T09:57:29Z) - TransY-Net:Learning Fully Transformer Networks for Change Detection of
Remote Sensing Images [64.63004710817239]
リモートセンシング画像CDのためのトランスフォーマーベース学習フレームワークTransY-Netを提案する。
グローバルな視点からの特徴抽出を改善し、ピラミッド方式で多段階の視覚的特徴を組み合わせる。
提案手法は,4つの光学式および2つのSAR画像CDベンチマーク上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-10-22T07:42:19Z) - VcT: Visual change Transformer for Remote Sensing Image Change Detection [16.778418602705287]
本稿では,視覚変化検出問題に対する新しい視覚変化変換器(VcT)モデルを提案する。
トップKの信頼できるトークンは、クラスタリングアルゴリズムを使用してマップからマイニングし、洗練することができる。
複数のベンチマークデータセットに対する大規模な実験により,提案したVcTモデルの有効性が検証された。
論文 参考訳(メタデータ) (2023-10-17T17:25:31Z) - Changes-Aware Transformer: Learning Generalized Changes Representation [56.917000244470174]
差分特徴の精細化のための新しい変化認識変換器(CAT)を提案する。
様々な変化の一般化表現は、差分特徴空間において容易に学習される。
精細化後、差分特徴空間における変化画素同士が近接し、変化検出を容易にする。
論文 参考訳(メタデータ) (2023-09-24T12:21:57Z) - Changes to Captions: An Attentive Network for Remote Sensing Change
Captioning [15.986576036345333]
本研究では,リモートセンシング画像の変化を正確に記述することの重要性を強調した。
両時間リモートセンシング画像に対して,短時間でChg2Capと呼ばれる注意的変更対キャプションネットワークを提案する。
提案するChg2Capネットワークは2つの代表的なリモートセンシングデータセットで評価される。
論文 参考訳(メタデータ) (2023-04-03T15:51:42Z) - Neighborhood Contrastive Transformer for Change Captioning [80.10836469177185]
本研究では,異なる環境下での様々な変化に対するモデルの知覚能力を向上させるために,近傍のコントラスト変換器を提案する。
提案手法は,変化シナリオの異なる3つの公開データセットに対して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-03-06T14:39:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。