論文の概要: Robust Change Captioning in Remote Sensing: SECOND-CC Dataset and MModalCC Framework
- arxiv url: http://arxiv.org/abs/2501.10075v1
- Date: Fri, 17 Jan 2025 09:47:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-20 14:00:57.470490
- Title: Robust Change Captioning in Remote Sensing: SECOND-CC Dataset and MModalCC Framework
- Title(参考訳): リモートセンシングにおけるロバストな変更キャプション:SECOND-CCデータセットとMModalCCフレームワーク
- Authors: Ali Can Karaca, M. Enes Ozelbas, Saadettin Berber, Orkhan Karimli, Turabi Yildirim, M. Fatih Amasyali,
- Abstract要約: リモートセンシング変化キャプション(RSICC)は、自然言語におけるバイテンポラル画像間の変化を記述することを目的としている。
SECOND-CCは、高解像度のRGBイメージペア、セマンティックセグメンテーションマップ、および多様な現実世界シナリオを備えた新しいRSICCデータセットである。
MModalCCは、高度な注意機構を使用して意味データと視覚データを統合したマルチモーダルフレームワークである。
- 参考スコア(独自算出の注目度): 1.5943223374606597
- License:
- Abstract: Remote sensing change captioning (RSICC) aims to describe changes between bitemporal images in natural language. Existing methods often fail under challenges like illumination differences, viewpoint changes, blur effects, leading to inaccuracies, especially in no-change regions. Moreover, the images acquired at different spatial resolutions and have registration errors tend to affect the captions. To address these issues, we introduce SECOND-CC, a novel RSICC dataset featuring high-resolution RGB image pairs, semantic segmentation maps, and diverse real-world scenarios. SECOND-CC which contains 6,041 pairs of bitemporal RS images and 30,205 sentences describing the differences between images. Additionally, we propose MModalCC, a multimodal framework that integrates semantic and visual data using advanced attention mechanisms, including Cross-Modal Cross Attention (CMCA) and Multimodal Gated Cross Attention (MGCA). Detailed ablation studies and attention visualizations further demonstrate its effectiveness and ability to address RSICC challenges. Comprehensive experiments show that MModalCC outperforms state-of-the-art RSICC methods, including RSICCformer, Chg2Cap, and PSNet with +4.6% improvement on BLEU4 score and +9.6% improvement on CIDEr score. We will make our dataset and codebase publicly available to facilitate future research at https://github.com/ChangeCapsInRS/SecondCC
- Abstract(参考訳): リモートセンシング変化キャプション(RSICC)は、自然言語におけるバイテンポラル画像間の変化を記述することを目的としている。
既存の手法は、照明の違い、視点の変化、ぼやけた効果といった課題の下で失敗することが多く、特に非変化領域において不正確な結果をもたらす。
さらに、異なる空間解像度で取得され、登録エラーがある画像は、キャプションに影響を及ぼす傾向にある。
これらの問題に対処するために,高解像度RGBイメージペア,セマンティックセグメンテーションマップ,多種多様な実世界のシナリオを特徴とする新しいRSICCデータセットSECOND-CCを紹介する。
SECOND-CCは、6,041対のバイテンポラルRS画像と、画像の違いを記述した30,205文を含む。
また,CMCA (Cross-Modal Cross Attention) やMGCA (Multimodal Gated Cross Attention) など,高度な注意機構を用いて意味と視覚データを統合するマルチモーダルフレームワーク MModalCC を提案する。
詳細なアブレーション研究と注意の可視化により、RSICCの課題に対処する効果と能力がさらに証明された。
総合的な実験により、MModalCCはRSICCformer、Chg2Cap、PSNetなど最先端のRSICC法よりも、BLEU4スコアが+4.6%、CIDErスコアが+9.6%向上していることが示された。
私たちはデータセットとコードベースを公開して、https://github.com/ChangeCapsInRS/SecondCCで将来の研究を促進するつもりです。
関連論文リスト
- Cross-Domain Separable Translation Network for Multimodal Image Change Detection [11.25422609271201]
マルチモーダル変化検出(MCD)はリモートセンシングコミュニティにおいて特に重要である。
本稿では,MDDの課題,特に異なるセンサの画像を比較することの難しさに対処することに焦点を当てる。
これらの制限を克服するために、新しい教師なしクロスドメイン分離型翻訳ネットワーク(CSTN)が提案されている。
論文 参考訳(メタデータ) (2024-07-23T03:56:02Z) - Semantic-CC: Boosting Remote Sensing Image Change Captioning via Foundational Knowledge and Semantic Guidance [19.663899648983417]
本稿では,基礎知識と意味指導に基づく新しい変更キャプション(CC)手法を提案する。
提案手法を LEVIR-CC および LEVIR-CD データセット上で検証する。
論文 参考訳(メタデータ) (2024-07-19T05:07:41Z) - Distractors-Immune Representation Learning with Cross-modal Contrastive Regularization for Change Captioning [71.14084801851381]
変更キャプションは、類似した画像間のセマンティックな変化を簡潔に記述することを目的としている。
既存のほとんどの手法は、それらの違いを直接キャプチャし、エラーを起こしやすい特徴を得るリスクを負う。
本稿では,2つの画像表現の対応するチャネルを関連づけるイントラクタ免疫表現学習ネットワークを提案する。
論文 参考訳(メタデータ) (2024-07-16T13:00:33Z) - CIC-BART-SSA: Controllable Image Captioning with Structured Semantic Augmentation [9.493755431645313]
そこで本研究では,集中型および視覚的接地型キャプションをサンプリングするための,新しい完全自動手法を提案する。
抽象的意味表現(AMR)を利用して、エンティティ間のすべての意味・意味関係を符号化する。
次に、SSAに分散したデータセットから制御信号を出力する新しいモデルCIC-BART-SSAを開発する。
論文 参考訳(メタデータ) (2024-07-16T05:26:12Z) - AddressCLIP: Empowering Vision-Language Models for City-wide Image Address Localization [57.34659640776723]
そこで我々は,より意味論的に問題を解決するために,AddressCLIPというエンドツーエンドのフレームワークを提案する。
われわれはピッツバーグとサンフランシスコに3つのデータセットを構築した。
論文 参考訳(メタデータ) (2024-07-11T03:18:53Z) - OC4-ReID: Occluded Cloth-Changing Person Re-Identification [8.054546048450414]
Occluded Cloth-Changing Person Re-Identification (OC4-ReID)は、服が変わったときに特定の歩行者を回収する新しい方法である。
OC4-ReIDは衣服の変化と閉塞の2つの課題に同時に対処する。
提案したデータセットおよび2つのCC-ReIDベンチマークデータセットに関する総合的な実験は、提案手法の他の最先端手法に対する優れた性能を示す。
論文 参考訳(メタデータ) (2024-03-13T14:08:45Z) - BD-MSA: Body decouple VHR Remote Sensing Image Change Detection method
guided by multi-scale feature information aggregation [4.659935767219465]
リモートセンシング画像変化検出(RSCD)の目的は、同じ場所で撮影された両時間画像の違いを検出することである。
深層学習はRSCDタスクに広く使われており、結果認識の点で重要な結果をもたらしている。
論文 参考訳(メタデータ) (2024-01-09T02:53:06Z) - ClusterFormer: Clustering As A Universal Visual Learner [80.79669078819562]
CLUSTERFORMERは、トランスフォーマーを用いたCLUSTERingパラダイムに基づくユニバーサルビジョンモデルである。
不均一な視覚タスクに様々なレベルのクラスタリングの粒度で対処することができる。
その有効性のために、コンピュータビジョンにおける普遍モデルにおけるパラダイムシフトを触媒できることを期待します。
論文 参考訳(メタデータ) (2023-09-22T22:12:30Z) - BDA-SketRet: Bi-Level Domain Adaptation for Zero-Shot SBIR [52.78253400327191]
BDA-SketRetは、視覚データペアの空間的特徴と意味的特徴を整合させるために、バイレベルドメイン適応を実行する新しいフレームワークである。
拡張されたSketchy、TU-Berlin、QuickDrawの実験結果は、文献よりも大幅に改善された。
論文 参考訳(メタデータ) (2022-01-17T18:45:55Z) - Multi-Content Complementation Network for Salient Object Detection in
Optical Remote Sensing Images [108.79667788962425]
光リモートセンシング画像(RSI-SOD)における有能な物体検出は、いまだに課題である。
本稿では, RSI-SOD における複数コンテンツの相補性を検討するために, MCCNet (Multi-Content Complementation Network) を提案する。
MCCMでは、前景機能、エッジ機能、背景機能、グローバル画像レベル機能など、RSI-SODにとって重要な複数の機能について検討する。
論文 参考訳(メタデータ) (2021-12-02T04:46:40Z) - Dual-Level Collaborative Transformer for Image Captioning [126.59298716978577]
2つの機能の補完的な利点を実現するために、新しいデュアルレベルコラボレーショントランス(DLCT)ネットワークを紹介します。
さらに,これらの2つの特徴の直接融合によって生じる意味的雑音に対処するために,局所性制約付きクロスアテンションモジュールを提案する。
論文 参考訳(メタデータ) (2021-01-16T15:43:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。