論文の概要: RSCaMa: Remote Sensing Image Change Captioning with State Space Model
- arxiv url: http://arxiv.org/abs/2404.18895v3
- Date: Tue, 21 May 2024 13:26:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-22 17:52:56.619661
- Title: RSCaMa: Remote Sensing Image Change Captioning with State Space Model
- Title(参考訳): RSCaMa:状態空間モデルによるリモートセンシング画像変更キャプション
- Authors: Chenyang Liu, Keyan Chen, Bowen Chen, Haotian Zhang, Zhengxia Zou, Zhenwei Shi,
- Abstract要約: リモートセンシング画像変化キャプション(RSICC)は、言語における多時間リモートセンシング画像間の表面的変化を記述することを目的としている。
これは、時間的特徴の空間的および時間的モデリングに挑戦する。
本稿では,複数のCaMa層を通した空間空間空間モデリングを効率的に行う新しいRSCaMaモデルを提案する。
- 参考スコア(独自算出の注目度): 29.945966783242337
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Remote Sensing Image Change Captioning (RSICC) aims to describe surface changes between multi-temporal remote sensing images in language, including the changed object categories, locations, and dynamics of changing objects (e.g., added or disappeared). This poses challenges to spatial and temporal modeling of bi-temporal features. Despite previous methods progressing in the spatial change perception, there are still weaknesses in joint spatial-temporal modeling. To address this, in this paper, we propose a novel RSCaMa model, which achieves efficient joint spatial-temporal modeling through multiple CaMa layers, enabling iterative refinement of bi-temporal features. To achieve efficient spatial modeling, we introduce the recently popular Mamba (a state space model) with a global receptive field and linear complexity into the RSICC task and propose the Spatial Difference-aware SSM (SD-SSM), overcoming limitations of previous CNN- and Transformer-based methods in the receptive field and computational complexity. SD-SSM enhances the model's ability to capture spatial changes sharply. In terms of efficient temporal modeling, considering the potential correlation between the temporal scanning characteristics of Mamba and the temporality of the RSICC, we propose the Temporal-Traversing SSM (TT-SSM), which scans bi-temporal features in a temporal cross-wise manner, enhancing the model's temporal understanding and information interaction. Experiments validate the effectiveness of the efficient joint spatial-temporal modeling and demonstrate the outstanding performance of RSCaMa and the potential of the Mamba in the RSICC task. Additionally, we systematically compare three different language decoders, including Mamba, GPT-style decoder, and Transformer decoder, providing valuable insights for future RSICC research. The code will be available at \emph{\url{https://github.com/Chen-Yang-Liu/RSCaMa}}
- Abstract(参考訳): Remote Sensing Image Change Captioning (RSICC) は、変更対象のカテゴリ、位置、変化対象のダイナミックス(例えば、追加または削除)を含む、言語における多時間リモートセンシングイメージ間の表面的変化を記述することを目的としている。
これは、時間的特徴の空間的および時間的モデリングに挑戦する。
従来の手法では空間変化の知覚が進んでいたが, 共同空間時間モデルでは依然として弱点が残っている。
そこで本稿では,複数のCaMa層を通した効率的な結合時空間モデリングを実現する新しいRSCaMaモデルを提案する。
空間の効率的なモデリングを実現するため,大域的受容場と線形複雑度を持つ最近流行のMamba(状態空間モデル)をRSICCタスクに導入し,従来のCNNおよびTransformerベースの手法の制約を克服した空間差認識SSM(SD-SSM)を提案する。
SD-SSMは、空間変化を鋭くキャプチャするモデルの能力を高める。
効率的な時間的モデリングでは,マンバの時間的走査特性とRSICCの時間的特性の相関を考慮し,時間的相互に時間的特徴を走査し,時間的理解と情報相互作用を高めるための時間的トラバースSSM(TT-SSM)を提案する。
RSICC タスクにおける RSCaMa の優れた性能と Mamba の可能性について実験により検証した。
さらに,Mamba,GPTスタイルデコーダ,Transformerデコーダの3つの異なる言語デコーダを体系的に比較し,将来のRSICC研究に有用な洞察を提供する。
コードは \emph{\url{https://github.com/Chen-Yang-Liu/RSCaMa}} で入手できる。
関連論文リスト
- Enhancing Adaptive History Reserving by Spiking Convolutional Block
Attention Module in Recurrent Neural Networks [21.509659756334802]
スパイキングニューラルネットワーク(SNN)は、時系列における時間的パターンを処理するための1種類の効率的なモデルである。
本稿では、先進的なスパイキング・コンボリューション・アテンション・モジュール(SCBAM)コンポーネントを組み込んだ繰り返しスパイキング・ニューラルネットワーク(RSNN)モデルを開発する。
SCBAMを通して空間的・時間的チャネルの履歴情報を適応的に呼び出すことで、効率的なメモリ呼び出し履歴と冗長性排除の利点をもたらす。
論文 参考訳(メタデータ) (2024-01-08T08:05:34Z) - A Decoupled Spatio-Temporal Framework for Skeleton-based Action
Segmentation [89.86345494602642]
既存の手法は、弱い時間的モデリング能力に制限されている。
この問題に対処するために、Decoupled Scoupled Framework (DeST)を提案する。
DeSTは計算量が少なく、現在の最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2023-12-10T09:11:39Z) - Revealing the Power of Spatial-Temporal Masked Autoencoders in
Multivariate Time Series Forecasting [17.911251232225094]
マスク付きオートエンコーダを用いて時空間ベースラインモデルの性能を向上させるMSS予測フレームワークを提案する。
事前トレーニング段階では、部分的に見えるMSSデータを処理するためにエンコーダ・デコーダアーキテクチャが使用される。
微調整段階では、エンコーダを保持し、既存の時空間モデルから元のデコーダを付加して予測を行う。
論文 参考訳(メタデータ) (2023-09-26T18:05:19Z) - STMT: A Spatial-Temporal Mesh Transformer for MoCap-Based Action
Recognition [66.96931254510544]
本研究では、モーションキャプチャー(MoCap)シーケンスを用いた人間の行動認識の問題点について検討する。
メッシュシーケンスを直接モデル化する新しい時空間メッシュ変換器(STMT)を提案する。
提案手法は,スケルトンベースモデルやポイントクラウドベースモデルと比較して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-03-31T16:19:27Z) - Revisiting the Spatial and Temporal Modeling for Few-shot Action
Recognition [16.287968292213563]
スロシュネット(SloshNet)は、数発のアクション認識のための空間的および時間的モデリングを、より細かく修正する新しいフレームワークである。
提案するSloshNetは,Something V2, Kinetics, UCF101, HMDB51の4つのアクション認識データセットに対して広範に検証する。
論文 参考訳(メタデータ) (2023-01-19T08:34:04Z) - Gait Recognition in the Wild with Multi-hop Temporal Switch [81.35245014397759]
野生での歩行認識は、より実践的な問題であり、マルチメディアとコンピュータビジョンのコミュニティの注目を集めています。
本稿では,現実のシーンにおける歩行パターンの効果的な時間的モデリングを実現するために,新しいマルチホップ時間スイッチ方式を提案する。
論文 参考訳(メタデータ) (2022-09-01T10:46:09Z) - Decoupling and Recoupling Spatiotemporal Representation for RGB-D-based
Motion Recognition [62.46544616232238]
従来の動作認識手法は、密結合した多時間表現によって有望な性能を実現している。
本稿では,RGB-D に基づく動作認識において引き起こされた表現を分離し,再分離することを提案する。
論文 参考訳(メタデータ) (2021-12-16T18:59:47Z) - Multi-Temporal Convolutions for Human Action Recognition in Videos [83.43682368129072]
複数の解像度で抽出できる新しい時間・時間的畳み込みブロックを提案する。
提案するブロックは軽量で,任意の3D-CNNアーキテクチャに統合可能である。
論文 参考訳(メタデータ) (2020-11-08T10:40:26Z) - Learn to cycle: Time-consistent feature discovery for action recognition [83.43682368129072]
時間的変動を一般化することは、ビデオにおける効果的な行動認識の前提条件である。
Squeeze Re Temporal Gates (SRTG) を導入する。
SRTPGブロックを使用する場合,GFLOの数は最小限に抑えられ,一貫した改善が見られた。
論文 参考訳(メタデータ) (2020-06-15T09:36:28Z) - STH: Spatio-Temporal Hybrid Convolution for Efficient Action Recognition [39.58542259261567]
本稿では,空間的・時間的映像情報を小さなパラメータで同時に符号化するS-Temporal Hybrid Network(STH)を提案する。
このような設計は、効率的な時間的モデリングを可能にし、小さなモデルスケールを維持する。
STHは、3D CNNよりもパフォーマンス上の優位性を持ち、2D CNNよりもはるかに少ないパラメータコストを維持している。
論文 参考訳(メタデータ) (2020-03-18T04:46:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。