論文の概要: Semantic-CC: Boosting Remote Sensing Image Change Captioning via Foundational Knowledge and Semantic Guidance
- arxiv url: http://arxiv.org/abs/2407.14032v1
- Date: Fri, 19 Jul 2024 05:07:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-22 18:43:32.390396
- Title: Semantic-CC: Boosting Remote Sensing Image Change Captioning via Foundational Knowledge and Semantic Guidance
- Title(参考訳): Semantic-CC: 基礎知識とセマンティックガイダンスによるリモートセンシング画像変更キャプションの強化
- Authors: Yongshuo Zhu, Lu Li, Keyan Chen, Chenyang Liu, Fugen Zhou, Zhenwei Shi,
- Abstract要約: 本稿では,基礎知識と意味指導に基づく新しい変更キャプション(CC)手法を提案する。
提案手法を LEVIR-CC および LEVIR-CD データセット上で検証する。
- 参考スコア(独自算出の注目度): 19.663899648983417
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Remote sensing image change captioning (RSICC) aims to articulate the changes in objects of interest within bi-temporal remote sensing images using natural language. Given the limitations of current RSICC methods in expressing general features across multi-temporal and spatial scenarios, and their deficiency in providing granular, robust, and precise change descriptions, we introduce a novel change captioning (CC) method based on the foundational knowledge and semantic guidance, which we term Semantic-CC. Semantic-CC alleviates the dependency of high-generalization algorithms on extensive annotations by harnessing the latent knowledge of foundation models, and it generates more comprehensive and accurate change descriptions guided by pixel-level semantics from change detection (CD). Specifically, we propose a bi-temporal SAM-based encoder for dual-image feature extraction; a multi-task semantic aggregation neck for facilitating information interaction between heterogeneous tasks; a straightforward multi-scale change detection decoder to provide pixel-level semantic guidance; and a change caption decoder based on the large language model (LLM) to generate change description sentences. Moreover, to ensure the stability of the joint training of CD and CC, we propose a three-stage training strategy that supervises different tasks at various stages. We validate the proposed method on the LEVIR-CC and LEVIR-CD datasets. The experimental results corroborate the complementarity of CD and CC, demonstrating that Semantic-CC can generate more accurate change descriptions and achieve optimal performance across both tasks.
- Abstract(参考訳): リモートセンシング画像変化キャプション(RSICC)は、自然言語を用いた両時間リモートセンシング画像における関心オブジェクトの変化を明確にすることを目的としている。
複数の時間的・空間的シナリオにまたがる一般的な特徴を表現するための現在のRSICC手法の限界や、粒度、頑健で正確な変更記述の提供に欠けていることを踏まえ、セマンティック・CC(Semantic-CC)と呼ばれる基礎知識と意味指導に基づく新しい変更キャプション(CC)手法を導入する。
Semantic-CCは、ファンデーションモデルの潜在知識を活用することで、広範囲なアノテーションに対する高一般化アルゴリズムの依存を緩和し、変更検出(CD)からピクセルレベルのセマンティクスによって導かれるより包括的で正確な変更記述を生成する。
具体的には、デュアルイメージ特徴抽出のためのバイテンポラルSAMベースのエンコーダ、異種タスク間の情報やり取りを容易にするマルチタスクセマンティックアグリゲーションネック、画素レベルのセマンティックガイダンスを提供する単純なマルチスケール変更検出デコーダ、大きな言語モデル(LLM)に基づく変更キャプションデコーダを提案し、変更記述文を生成する。
また,CDとCCのジョイントトレーニングの安定性を確保するため,様々な段階で異なるタスクを監督する3段階のトレーニング戦略を提案する。
提案手法を LEVIR-CC および LEVIR-CD データセット上で検証する。
実験結果はCDとCCの相補性を相関させ,Semantic-CCがより正確な変更記述を生成できることを示す。
関連論文リスト
- Enhancing Perception of Key Changes in Remote Sensing Image Change Captioning [49.24306593078429]
KCFI(Key Change Features and Instruction-tuned)によるリモートセンシング画像変換キャプションのための新しいフレームワークを提案する。
KCFIは、バイテンポラルリモートセンシング画像特徴を抽出するViTsエンコーダと、重要な変化領域を識別するキー特徴知覚器と、画素レベルの変化検出デコーダとを含む。
提案手法の有効性を検証するため,LEVIR-CCデータセット上のいくつかの最新の変更キャプション手法との比較を行った。
論文 参考訳(メタデータ) (2024-09-19T09:33:33Z) - Trustworthy Image Semantic Communication with GenAI: Explainablity, Controllability, and Efficiency [59.15544887307901]
画像意味コミュニケーション(ISC)は,高効率な映像コンテンツ伝送を実現する可能性に注目されている。
既存のISCシステムは、解釈可能性、操作性、互換性の課題に直面している。
我々は、複数の下流推論タスクにGenerative Artificial Intelligence(GenAI)を利用する新しい信頼できるISCフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-07T14:32:36Z) - AddressCLIP: Empowering Vision-Language Models for City-wide Image Address Localization [57.34659640776723]
そこで我々は,より意味論的に問題を解決するために,AddressCLIPというエンドツーエンドのフレームワークを提案する。
われわれはピッツバーグとサンフランシスコに3つのデータセットを構築した。
論文 参考訳(メタデータ) (2024-07-11T03:18:53Z) - Improving Diversity in Zero-Shot GAN Adaptation with Semantic Variations [61.132408427908175]
0ショットのGAN適応は、よく訓練されたジェネレータを再利用して、目に見えないターゲットドメインの画像を合成することを目的としている。
実際の画像の代わりに1つの代表的テキスト機能しか持たないため、合成された画像は徐々に多様性を損なう。
そこで本研究では,CLIP空間における対象テキストの意味的変化を見つけるための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-08-21T08:12:28Z) - Align, Perturb and Decouple: Toward Better Leverage of Difference
Information for RSI Change Detection [24.249552791014644]
変化検出は、リモートセンシング画像(RSI)解析において広く採用されている手法である。
そこで我々は,アライメント,摂動,デカップリングといった差分情報を完全に活用するための一連の操作を提案する。
論文 参考訳(メタデータ) (2023-05-30T03:39:53Z) - CAT-Seg: Cost Aggregation for Open-Vocabulary Semantic Segmentation [56.58365347854647]
私たちは、視覚言語基盤モデル、特にCLIPを適応するためのコストベースの新しいアプローチを導入します。
エンコーダの微調整により,CLIPをセグメント化,未確認のクラスに適応させる手法を提案する。
論文 参考訳(メタデータ) (2023-03-21T12:28:21Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - DiverGAN: An Efficient and Effective Single-Stage Framework for Diverse
Text-to-Image Generation [7.781425222538382]
DiverGANは、自然言語による記述に従って、多様で、可塑性で、セマンティックに一貫性のある画像を生成するためのフレームワークである。
DiverGANは2つの新しいワードレベルアテンションモジュール、すなわちチャネルアテンションモジュール(CAM)とピクセルアテンションモジュール(PAM)を採用する。
条件適応型インスタンス-階層正規化(CAdaILN)を導入し、文の埋め込みから、形やテクスチャの変化量を柔軟に操作する言語的手がかりを実現する。
論文 参考訳(メタデータ) (2021-11-17T17:59:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。