論文の概要: RSCaMa: Remote Sensing Image Change Captioning with State Space Model
- arxiv url: http://arxiv.org/abs/2404.18895v1
- Date: Mon, 29 Apr 2024 17:31:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-30 12:39:07.429049
- Title: RSCaMa: Remote Sensing Image Change Captioning with State Space Model
- Title(参考訳): RSCaMa:状態空間モデルによるリモートセンシング画像変更キャプション
- Authors: Chenyang Liu, Keyan Chen, Bowen Chen, Haotian Zhang, Zhengxia Zou, Zhenwei Shi,
- Abstract要約: リモートセンシング画像変化キャプション(RSICC)は、多時間リモートセンシング画像の表面変化を特定し、それらを自然言語で記述することを目的としている。
我々は,MambaをRSCCに導入し,RSCaMa(Remote Sensing Change Captioning Mamba)と呼ばれる新しいアプローチを提案する。
実験により, CaMa層の有効性を検証し, RSCaMaの優れた性能を示した。
- 参考スコア(独自算出の注目度): 29.945966783242337
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Remote Sensing Image Change Captioning (RSICC) aims to identify surface changes in multi-temporal remote sensing images and describe them in natural language. Current methods typically rely on an encoder-decoder architecture and focus on designing a sophisticated neck to process bi-temporal features extracted by the backbone. Recently, State Space Models (SSMs), especially Mamba, have demonstrated outstanding performance in many fields, owing to their efficient feature-selective modelling capability. However, their potential in the RSICC task remains unexplored. In this paper, we introduce Mamba into RSICC and propose a novel approach called RSCaMa (Remote Sensing Change Captioning Mamba). Specifically, we utilize Siamese backbones to extract bi-temporal features, which are then processed through multiple CaMa layers consisting of Spatial Difference-guided SSM (SD-SSM) and Temporal Traveling SSM (TT-SSM). SD-SSM uses differential features to enhance change perception, while TT-SSM promotes bitemporal interactions in a token-wise cross-scanning manner. Experimental results validate the effectiveness of CaMa layers and demonstrate the superior performance of RSCaMa, as well as the potential of Mamba in the RSICC task. Additionally, we systematically compare the effects of three language decoders, including Mamba, GPT-style decoder with causal attention mechanism, and Transformer decoder with cross-attention mechanism. This provides valuable insights for future RSICC research. The code will be available at https://github.com/Chen-Yang-Liu/RSCaMa
- Abstract(参考訳): リモートセンシング画像変化キャプション(RSICC)は、多時間リモートセンシング画像の表面変化を特定し、それらを自然言語で記述することを目的としている。
現在の手法は典型的にはエンコーダ・デコーダアーキテクチャに依存しており、バックボーンから抽出されたバイテンポラルな特徴を処理するための洗練されたネックの設計に重点を置いている。
近年、ステートスペースモデル(SSM)、特にマンバは、効率的な特徴選択的モデリング能力のため、多くの分野で優れた性能を発揮している。
しかし、RSICCタスクにおける彼らのポテンシャルは未解明のままである。
本稿では,マンバをRSCCに導入し,RSCaMa(Remote Sensing Change Captioning Mamba)と呼ばれる新しいアプローチを提案する。
具体的には,SSM(Spatial difference-guided SSM)とTemporal Traveling SSM(TT-SSM)からなる複数のCaMa層を通して処理されるバイテンポラルな特徴を抽出するために,シームズバックボーンを用いる。
SD-SSMは変化知覚を高めるために差分特徴を使用し、TT-SSMはトークンワイドクロススキャン方式でバイテンポラル相互作用を促進する。
実験により, RSCaMaのCaMa層の有効性を検証し, RSCaMaの優れた性能, RSICCタスクにおけるMambaの可能性を示した。
さらに,3つの言語デコーダの効果を体系的に比較した。Mamba,GPT型デコーダと因果注意機構,Transformerデコーダとクロスアテンション機構である。
これは将来のRSICC研究に貴重な洞察を与える。
コードはhttps://github.com/Chen-Yang-Liu/RSCaMaで入手できる。
関連論文リスト
- Cross Space and Time: A Spatio-Temporal Unitized Model for Traffic Flow Forecasting [16.782154479264126]
時間的要因間の複雑な相互作用により、バックボーン・時間的トラフィックフローを予測することが課題となる。
既存のアプローチでは、これらの次元を分離し、重要な相互依存を無視している。
本稿では,空間的および時間的依存関係の両方をキャプチャする統合フレームワークであるSanonymous-Temporal Unitized Unitized Cell (ASTUC)を紹介する。
論文 参考訳(メタデータ) (2024-11-14T07:34:31Z) - MambaVT: Spatio-Temporal Contextual Modeling for robust RGB-T Tracking [51.28485682954006]
本研究では,マンバをベースとした純フレームワーク(MambaVT)を提案する。
具体的には、長距離クロスフレーム統合コンポーネントを考案し、ターゲットの外観変化にグローバルに適応する。
実験では、RGB-TトラッキングのためのMambaのビジョンの可能性が示され、MambaVTは4つの主要なベンチマークで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2024-08-15T02:29:00Z) - PoseMamba: Monocular 3D Human Pose Estimation with Bidirectional Global-Local Spatio-Temporal State Space Model [7.286873011001679]
単眼ビデオにおける複雑な人間のポーズ推定のための線形相関を用いたSSMに基づく純粋手法を提案する。
具体的には、各フレーム内だけでなく、フレーム間の人間の関節関係を包括的にモデル化する、双方向の時間的・時間的ブロックを提案する。
この戦略により、より論理的な幾何学的順序付け戦略が提供され、結果として局所空間スキャンが組み合わせられる。
論文 参考訳(メタデータ) (2024-08-07T04:38:03Z) - Empowering Snapshot Compressive Imaging: Spatial-Spectral State Space Model with Across-Scanning and Local Enhancement [51.557804095896174]
AsLE-SSMという,グローバルな局所的バランスの取れたコンテキストエンコーディングとチャネル間相互作用の促進に空間スペクトルSSMを用いる状態空間モデルを導入する。
実験の結果,ASLE-SSMは既存の最先端手法よりも優れており,推定速度はTransformerベースのMSTより2.4倍速く,パラメータの0.12(M)を節約できることがわかった。
論文 参考訳(メタデータ) (2024-08-01T15:14:10Z) - A Decoupled Spatio-Temporal Framework for Skeleton-based Action
Segmentation [89.86345494602642]
既存の手法は、弱い時間的モデリング能力に制限されている。
この問題に対処するために、Decoupled Scoupled Framework (DeST)を提案する。
DeSTは計算量が少なく、現在の最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2023-12-10T09:11:39Z) - Revisiting the Spatial and Temporal Modeling for Few-shot Action
Recognition [16.287968292213563]
スロシュネット(SloshNet)は、数発のアクション認識のための空間的および時間的モデリングを、より細かく修正する新しいフレームワークである。
提案するSloshNetは,Something V2, Kinetics, UCF101, HMDB51の4つのアクション認識データセットに対して広範に検証する。
論文 参考訳(メタデータ) (2023-01-19T08:34:04Z) - Gait Recognition in the Wild with Multi-hop Temporal Switch [81.35245014397759]
野生での歩行認識は、より実践的な問題であり、マルチメディアとコンピュータビジョンのコミュニティの注目を集めています。
本稿では,現実のシーンにおける歩行パターンの効果的な時間的モデリングを実現するために,新しいマルチホップ時間スイッチ方式を提案する。
論文 参考訳(メタデータ) (2022-09-01T10:46:09Z) - Multi-Temporal Convolutions for Human Action Recognition in Videos [83.43682368129072]
複数の解像度で抽出できる新しい時間・時間的畳み込みブロックを提案する。
提案するブロックは軽量で,任意の3D-CNNアーキテクチャに統合可能である。
論文 参考訳(メタデータ) (2020-11-08T10:40:26Z) - Learn to cycle: Time-consistent feature discovery for action recognition [83.43682368129072]
時間的変動を一般化することは、ビデオにおける効果的な行動認識の前提条件である。
Squeeze Re Temporal Gates (SRTG) を導入する。
SRTPGブロックを使用する場合,GFLOの数は最小限に抑えられ,一貫した改善が見られた。
論文 参考訳(メタデータ) (2020-06-15T09:36:28Z) - STH: Spatio-Temporal Hybrid Convolution for Efficient Action Recognition [39.58542259261567]
本稿では,空間的・時間的映像情報を小さなパラメータで同時に符号化するS-Temporal Hybrid Network(STH)を提案する。
このような設計は、効率的な時間的モデリングを可能にし、小さなモデルスケールを維持する。
STHは、3D CNNよりもパフォーマンス上の優位性を持ち、2D CNNよりもはるかに少ないパラメータコストを維持している。
論文 参考訳(メタデータ) (2020-03-18T04:46:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。