論文の概要: Changes to Captions: An Attentive Network for Remote Sensing Change
Captioning
- arxiv url: http://arxiv.org/abs/2304.01091v2
- Date: Thu, 26 Oct 2023 09:37:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-28 02:27:49.629281
- Title: Changes to Captions: An Attentive Network for Remote Sensing Change
Captioning
- Title(参考訳): キャプションの変更:リモートセンシングによる変更キャプションのための注意ネットワーク
- Authors: Shizhen Chang and Pedram Ghamisi
- Abstract要約: 本研究では,リモートセンシング画像の変化を正確に記述することの重要性を強調した。
両時間リモートセンシング画像に対して,短時間でChg2Capと呼ばれる注意的変更対キャプションネットワークを提案する。
提案するChg2Capネットワークは2つの代表的なリモートセンシングデータセットで評価される。
- 参考スコア(独自算出の注目度): 15.986576036345333
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, advanced research has focused on the direct learning and
analysis of remote sensing images using natural language processing (NLP)
techniques. The ability to accurately describe changes occurring in
multi-temporal remote sensing images is becoming increasingly important for
geospatial understanding and land planning. Unlike natural image change
captioning tasks, remote sensing change captioning aims to capture the most
significant changes, irrespective of various influential factors such as
illumination, seasonal effects, and complex land covers. In this study, we
highlight the significance of accurately describing changes in remote sensing
images and present a comparison of the change captioning task for natural and
synthetic images and remote sensing images. To address the challenge of
generating accurate captions, we propose an attentive changes-to-captions
network, called Chg2Cap for short, for bi-temporal remote sensing images. The
network comprises three main components: 1) a Siamese CNN-based feature
extractor to collect high-level representations for each image pair; 2) an
attentive decoder that includes a hierarchical self-attention block to locate
change-related features and a residual block to generate the image embedding;
and 3) a transformer-based caption generator to decode the relationship between
the image embedding and the word embedding into a description. The proposed
Chg2Cap network is evaluated on two representative remote sensing datasets, and
a comprehensive experimental analysis is provided. The code and pre-trained
models will be available online at https://github.com/ShizhenChang/Chg2Cap.
- Abstract(参考訳): 近年,自然言語処理(NLP)技術を用いたリモートセンシング画像の直接学習と解析に注目が集まっている。
多時期リモートセンシング画像における変化を正確に記述する能力は,地理空間の理解や土地計画においてますます重要になっている。
自然画像変化キャプションタスクとは異なり、リモートセンシング変化キャプションは、照明、季節効果、複雑な土地被覆など、さまざまな要因に関わらず、最も重要な変化を捉えることを目的としている。
本研究では,リモートセンシング画像の変化を正確に記述することの重要性を強調し,自然画像と合成画像とリモートセンシング画像における変化キャプションタスクの比較を行う。
正確なキャプション生成の課題に対処するため,両時間リモートセンシング画像に対して,Chg2Capと呼ばれる注意的変更対キャプションネットワークを提案する。
ネットワークは3つの主要コンポーネントから構成される。
1) 画像ペアごとに高レベル表現を収集するシームズCNNに基づく特徴抽出器
2 画像埋め込みを生成するための変更関連特徴の特定のための階層的自己注意ブロック及び残留ブロックを含む注意的復号器
3) 画像埋め込みと記述への単語埋め込みの関係をデコードするトランスベースのキャプション生成装置。
提案するChg2Capネットワークを2つの代表的なリモートセンシングデータセットで評価し,総合的な実験分析を行った。
コードと事前訓練されたモデルはhttps://github.com/ShizhenChang/Chg2Cap.comからオンラインで入手できる。
関連論文リスト
- Enhancing Perception of Key Changes in Remote Sensing Image Change Captioning [49.24306593078429]
KCFI(Key Change Features and Instruction-tuned)によるリモートセンシング画像変換キャプションのための新しいフレームワークを提案する。
KCFIは、バイテンポラルリモートセンシング画像特徴を抽出するViTsエンコーダと、重要な変化領域を識別するキー特徴知覚器と、画素レベルの変化検出デコーダとを含む。
提案手法の有効性を検証するため,LEVIR-CCデータセット上のいくつかの最新の変更キャプション手法との比較を行った。
論文 参考訳(メタデータ) (2024-09-19T09:33:33Z) - Bootstrapping Interactive Image-Text Alignment for Remote Sensing Image
Captioning [49.48946808024608]
BITAと呼ばれるリモートセンシング画像キャプションのための対話型画像テキストアライメントをブートストラップする2段階の視覚言語事前学習手法を提案する。
具体的には、第1段階は画像テキストコントラスト学習による予備的なアライメントを含む。
第2段階では、インタラクティブなフーリエ変換器が凍結画像エンコーダと大きな言語モデルとを接続する。
論文 参考訳(メタデータ) (2023-12-02T17:32:17Z) - Explicit Change Relation Learning for Change Detection in VHR Remote
Sensing Images [12.228675703851733]
変更関係の特徴を明示的にマイニングするためのネットワークアーキテクチャNAMEを提案する。
変更検出の変更特徴は、事前変更画像特徴、後変更画像特徴、変更関係特徴に分けられる。
我々のネットワークは、F1、IoU、OAの点で、変更検出のための既存の先進的なネットワークよりも優れています。
論文 参考訳(メタデータ) (2023-11-14T08:47:38Z) - TransY-Net:Learning Fully Transformer Networks for Change Detection of
Remote Sensing Images [64.63004710817239]
リモートセンシング画像CDのためのトランスフォーマーベース学習フレームワークTransY-Netを提案する。
グローバルな視点からの特徴抽出を改善し、ピラミッド方式で多段階の視覚的特徴を組み合わせる。
提案手法は,4つの光学式および2つのSAR画像CDベンチマーク上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-10-22T07:42:19Z) - VcT: Visual change Transformer for Remote Sensing Image Change Detection [16.778418602705287]
本稿では,視覚変化検出問題に対する新しい視覚変化変換器(VcT)モデルを提案する。
トップKの信頼できるトークンは、クラスタリングアルゴリズムを使用してマップからマイニングし、洗練することができる。
複数のベンチマークデータセットに対する大規模な実験により,提案したVcTモデルの有効性が検証された。
論文 参考訳(メタデータ) (2023-10-17T17:25:31Z) - Neighborhood Contrastive Transformer for Change Captioning [80.10836469177185]
本研究では,異なる環境下での様々な変化に対するモデルの知覚能力を向上させるために,近傍のコントラスト変換器を提案する。
提案手法は,変化シナリオの異なる3つの公開データセットに対して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-03-06T14:39:54Z) - Image Captioning based on Feature Refinement and Reflective Decoding [0.0]
本稿では,エンコーダデコーダを用いた画像キャプションシステムを提案する。
画像の各領域の空間的特徴とグローバルな特徴をResNet-101をバックボーンとしてFaster R-CNNを使って抽出する。
デコーダはアテンションベースのリカレントモジュールとリフレクティブアテンションモジュールからなり、デコーダの長期的なシーケンシャル依存関係をモデル化する能力を高める。
論文 参考訳(メタデータ) (2022-06-16T07:56:28Z) - Injecting Semantic Concepts into End-to-End Image Captioning [61.41154537334627]
本稿では、地域特徴を抽出することなくグリッド表現を使用する、純粋視覚変換器を用いた画像キャプションモデルViTCAPを提案する。
性能向上のために,意味論的概念を予測し,それをエンドツーエンドのキャプションに組み込む新しいコンセプトトークンネットワーク(CTN)を導入する。
特に、CTNは視覚変換器に基づいて構築され、分類タスクを通じて概念トークンを予測するように設計されている。
論文 参考訳(メタデータ) (2021-12-09T22:05:05Z) - Text as Neural Operator: Image Manipulation by Text Instruction [68.53181621741632]
本稿では、複雑なテキスト命令を用いて複数のオブジェクトで画像を編集し、オブジェクトの追加、削除、変更を可能にする設定について検討する。
タスクの入力は、(1)参照画像を含むマルチモーダルであり、(2)所望の修正を記述した自然言語の命令である。
提案モデルは,最近の3つの公開データセットの強いベースラインに対して良好に動作することを示す。
論文 参考訳(メタデータ) (2020-08-11T07:07:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。