Fugu-MT 論文翻訳(概要): RSCaMa: Remote Sensing Image Change Captioning with State Space Model

論文の概要: RSCaMa: Remote Sensing Image Change Captioning with State Space Model

arxiv url: http://arxiv.org/abs/2404.18895v3
Date: Tue, 21 May 2024 13:26:12 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-22 17:52:56.619661
Title: RSCaMa: Remote Sensing Image Change Captioning with State Space Model
Title（参考訳）: RSCaMa:状態空間モデルによるリモートセンシング画像変更キャプション
Authors: Chenyang Liu, Keyan Chen, Bowen Chen, Haotian Zhang, Zhengxia Zou, Zhenwei Shi,
Abstract要約: リモートセンシング画像変化キャプション(RSICC)は、言語における多時間リモートセンシング画像間の表面的変化を記述することを目的としている。これは、時間的特徴の空間的および時間的モデリングに挑戦する。本稿では,複数のCaMa層を通した空間空間空間モデリングを効率的に行う新しいRSCaMaモデルを提案する。
参考スコア（独自算出の注目度）: 29.945966783242337
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Remote Sensing Image Change Captioning (RSICC) aims to describe surface changes between multi-temporal remote sensing images in language, including the changed object categories, locations, and dynamics of changing objects (e.g., added or disappeared). This poses challenges to spatial and temporal modeling of bi-temporal features. Despite previous methods progressing in the spatial change perception, there are still weaknesses in joint spatial-temporal modeling. To address this, in this paper, we propose a novel RSCaMa model, which achieves efficient joint spatial-temporal modeling through multiple CaMa layers, enabling iterative refinement of bi-temporal features. To achieve efficient spatial modeling, we introduce the recently popular Mamba (a state space model) with a global receptive field and linear complexity into the RSICC task and propose the Spatial Difference-aware SSM (SD-SSM), overcoming limitations of previous CNN- and Transformer-based methods in the receptive field and computational complexity. SD-SSM enhances the model's ability to capture spatial changes sharply. In terms of efficient temporal modeling, considering the potential correlation between the temporal scanning characteristics of Mamba and the temporality of the RSICC, we propose the Temporal-Traversing SSM (TT-SSM), which scans bi-temporal features in a temporal cross-wise manner, enhancing the model's temporal understanding and information interaction. Experiments validate the effectiveness of the efficient joint spatial-temporal modeling and demonstrate the outstanding performance of RSCaMa and the potential of the Mamba in the RSICC task. Additionally, we systematically compare three different language decoders, including Mamba, GPT-style decoder, and Transformer decoder, providing valuable insights for future RSICC research. The code will be available at \emph{\url{https://github.com/Chen-Yang-Liu/RSCaMa}}
Abstract（参考訳）: Remote Sensing Image Change Captioning (RSICC) は、変更対象のカテゴリ、位置、変化対象のダイナミックス(例えば、追加または削除)を含む、言語における多時間リモートセンシングイメージ間の表面的変化を記述することを目的としている。これは、時間的特徴の空間的および時間的モデリングに挑戦する。従来の手法では空間変化の知覚が進んでいたが, 共同空間時間モデルでは依然として弱点が残っている。そこで本稿では,複数のCaMa層を通した効率的な結合時空間モデリングを実現する新しいRSCaMaモデルを提案する。空間の効率的なモデリングを実現するため,大域的受容場と線形複雑度を持つ最近流行のMamba(状態空間モデル)をRSICCタスクに導入し,従来のCNNおよびTransformerベースの手法の制約を克服した空間差認識SSM(SD-SSM)を提案する。 SD-SSMは、空間変化を鋭くキャプチャするモデルの能力を高める。効率的な時間的モデリングでは,マンバの時間的走査特性とRSICCの時間的特性の相関を考慮し,時間的相互に時間的特徴を走査し,時間的理解と情報相互作用を高めるための時間的トラバースSSM(TT-SSM)を提案する。 RSICC タスクにおける RSCaMa の優れた性能と Mamba の可能性について実験により検証した。さらに,Mamba,GPTスタイルデコーダ,Transformerデコーダの3つの異なる言語デコーダを体系的に比較し,将来のRSICC研究に有用な洞察を提供する。コードは \emph{\url{https://github.com/Chen-Yang-Liu/RSCaMa}} で入手できる。

関連論文リスト

TSkel-Mamba: Temporal Dynamic Modeling via State Space Model for Human Skeleton-based Action Recognition [59.99922360648663]
TSkel-Mambaは、空間力学と時間力学の両方を効果的に捉えるハイブリッドトランスフォーマー-Mambaフレームワークである。 MTIモジュールはマルチスケールのCycle演算子を使用して、チャネル間の時間的相互作用をキャプチャする。
論文参考訳（メタデータ） (2025-12-12T11:55:16Z)
SAMPO:Scale-wise Autoregression with Motion PrOmpt for generative world models [42.814012901180774]
textbfSAMPOは、フレーム内生成のための視覚的自己回帰モデリングと、次のフレーム生成のための因果モデリングを組み合わせたハイブリッドフレームワークである。動作条件付きビデオ予測とモデルベース制御において,SAMPOが競合性能を発揮することを示す。また、SAMPOのゼロショット一般化とスケーリング挙動を評価し、未知のタスクに一般化する能力を示す。
論文参考訳（メタデータ） (2025-09-19T02:41:37Z)
UST-SSM: Unified Spatio-Temporal State Space Models for Point Cloud Video Modeling [53.199942923818206]
ポイントクラウドビデオは、光と視点の変化の影響を低減しつつ3Dの動きを捉え、微妙で連続した人間の行動を認識するのに非常に効果的である。 SSM(Selective State Space Models)は、線形複雑性を伴うシーケンスモデリングにおいて優れた性能を示す。我々は,SSMの最新の進歩をクラウドビデオに向け,統一時空間モデル(UST-SSM)を提案する。
論文参考訳（メタデータ） (2025-08-20T10:46:01Z)
STNMamba: Mamba-based Spatial-Temporal Normality Learning for Video Anomaly Detection [48.997518615379995]
ビデオ異常検出(VAD)は、インテリジェントなビデオシステムの可能性から広く研究されている。 CNNやトランスフォーマーをベースとした既存の手法の多くは、依然としてかなりの計算負荷に悩まされている。空間的時間的正規性の学習を促進するために,STNMambaという軽量で効果的なネットワークを提案する。
論文参考訳（メタデータ） (2024-12-28T08:49:23Z)
Cross Space and Time: A Spatio-Temporal Unitized Model for Traffic Flow Forecasting [16.782154479264126]
時間的要因間の複雑な相互作用により、バックボーン・時間的トラフィックフローを予測することが課題となる。既存のアプローチでは、これらの次元を分離し、重要な相互依存を無視している。本稿では,空間的および時間的依存関係の両方をキャプチャする統合フレームワークであるSanonymous-Temporal Unitized Unitized Cell (ASTUC)を紹介する。
論文参考訳（メタデータ） (2024-11-14T07:34:31Z)
MambaVT: Spatio-Temporal Contextual Modeling for robust RGB-T Tracking [51.28485682954006]
本研究では,マンバをベースとした純フレームワーク(MambaVT)を提案する。具体的には、長距離クロスフレーム統合コンポーネントを考案し、ターゲットの外観変化にグローバルに適応する。実験では、RGB-TトラッキングのためのMambaのビジョンの可能性が示され、MambaVTは4つの主要なベンチマークで最先端のパフォーマンスを達成した。
論文参考訳（メタデータ） (2024-08-15T02:29:00Z)
PoseMamba: Monocular 3D Human Pose Estimation with Bidirectional Global-Local Spatio-Temporal State Space Model [7.286873011001679]
単眼ビデオにおける複雑な人間のポーズ推定のための線形相関を用いたSSMに基づく純粋手法を提案する。具体的には、各フレーム内だけでなく、フレーム間の人間の関節関係を包括的にモデル化する、双方向の時間的・時間的ブロックを提案する。この戦略により、より論理的な幾何学的順序付け戦略が提供され、結果として局所空間スキャンが組み合わせられる。
論文参考訳（メタデータ） (2024-08-07T04:38:03Z)
Spatial and Spatial-Spectral Morphological Mamba for Hyperspectral Image Classification [27.943537708598306]
形態空間マンバ(SMM)モデルと形態空間スペクトルマンバ(SSMM)モデル(MorpMamba)を提案する。 MorpMambaは、形態的操作の強みと状態空間モデルフレームワークを組み合わせることで、トランスフォーマーのより効率的な代替手段を提供する。広く使われているHSIデータセットの実験結果から、MorpMambaは従来のCNNやトランスフォーマーモデルよりも優れたパラメトリック効率を実現することが示された。
論文参考訳（メタデータ） (2024-08-02T16:28:51Z)
Empowering Snapshot Compressive Imaging: Spatial-Spectral State Space Model with Across-Scanning and Local Enhancement [51.557804095896174]
AsLE-SSMという,グローバルな局所的バランスの取れたコンテキストエンコーディングとチャネル間相互作用の促進に空間スペクトルSSMを用いる状態空間モデルを導入する。実験の結果,ASLE-SSMは既存の最先端手法よりも優れており,推定速度はTransformerベースのMSTより2.4倍速く,パラメータの0.12(M)を節約できることがわかった。
論文参考訳（メタデータ） (2024-08-01T15:14:10Z)
A Decoupled Spatio-Temporal Framework for Skeleton-based Action Segmentation [89.86345494602642]
既存の手法は、弱い時間的モデリング能力に制限されている。この問題に対処するために、Decoupled Scoupled Framework (DeST)を提案する。 DeSTは計算量が少なく、現在の最先端の手法を著しく上回っている。
論文参考訳（メタデータ） (2023-12-10T09:11:39Z)
Revisiting the Spatial and Temporal Modeling for Few-shot Action Recognition [16.287968292213563]
スロシュネット(SloshNet)は、数発のアクション認識のための空間的および時間的モデリングを、より細かく修正する新しいフレームワークである。提案するSloshNetは,Something V2, Kinetics, UCF101, HMDB51の4つのアクション認識データセットに対して広範に検証する。
論文参考訳（メタデータ） (2023-01-19T08:34:04Z)
Gait Recognition in the Wild with Multi-hop Temporal Switch [81.35245014397759]
野生での歩行認識は、より実践的な問題であり、マルチメディアとコンピュータビジョンのコミュニティの注目を集めています。本稿では,現実のシーンにおける歩行パターンの効果的な時間的モデリングを実現するために,新しいマルチホップ時間スイッチ方式を提案する。
論文参考訳（メタデータ） (2022-09-01T10:46:09Z)
Multi-Temporal Convolutions for Human Action Recognition in Videos [83.43682368129072]
複数の解像度で抽出できる新しい時間・時間的畳み込みブロックを提案する。提案するブロックは軽量で,任意の3D-CNNアーキテクチャに統合可能である。
論文参考訳（メタデータ） (2020-11-08T10:40:26Z)
Learn to cycle: Time-consistent feature discovery for action recognition [83.43682368129072]
時間的変動を一般化することは、ビデオにおける効果的な行動認識の前提条件である。 Squeeze Re Temporal Gates (SRTG) を導入する。 SRTPGブロックを使用する場合,GFLOの数は最小限に抑えられ,一貫した改善が見られた。
論文参考訳（メタデータ） (2020-06-15T09:36:28Z)
STH: Spatio-Temporal Hybrid Convolution for Efficient Action Recognition [39.58542259261567]
本稿では,空間的・時間的映像情報を小さなパラメータで同時に符号化するS-Temporal Hybrid Network(STH)を提案する。このような設計は、効率的な時間的モデリングを可能にし、小さなモデルスケールを維持する。 STHは、3D CNNよりもパフォーマンス上の優位性を持ち、2D CNNよりもはるかに少ないパラメータコストを維持している。
論文参考訳（メタデータ） (2020-03-18T04:46:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。