論文の概要: MV-CC: Mask Enhanced Video Model for Remote Sensing Change Caption
- arxiv url: http://arxiv.org/abs/2410.23946v1
- Date: Thu, 31 Oct 2024 14:02:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-01 17:01:42.521409
- Title: MV-CC: Mask Enhanced Video Model for Remote Sensing Change Caption
- Title(参考訳): MV-CC: リモートセンシング・チェンジ・キャプションのためのマスク強化ビデオモデル
- Authors: Ruixun Liu, Kaiyu Li, Jiayi Song, Dongwei Sun, Xiangyong Cao,
- Abstract要約: 融合モジュールを設計せずに新しいビデオモデルに基づくパラダイムを導入する。
具体的には、オフザシェルフビデオエンコーダを用いて、両時間画像の時間的特徴と空間的特徴を同時に抽出する。
提案手法は,他の最先端RSICC法と比較して優れた性能が得られる。
- 参考スコア(独自算出の注目度): 8.062368743143388
- License:
- Abstract: Remote sensing image change caption (RSICC) aims to provide natural language descriptions for bi-temporal remote sensing images. Since Change Caption (CC) task requires both spatial and temporal features, previous works follow an encoder-fusion-decoder architecture. They use an image encoder to extract spatial features and the fusion module to integrate spatial features and extract temporal features, which leads to increasingly complex manual design of the fusion module. In this paper, we introduce a novel video model-based paradigm without design of the fusion module and propose a Mask-enhanced Video model for Change Caption (MV-CC). Specifically, we use the off-the-shelf video encoder to simultaneously extract the temporal and spatial features of bi-temporal images. Furthermore, the types of changes in the CC are set based on specific task requirements, and to enable the model to better focus on the regions of interest, we employ masks obtained from the Change Detection (CD) method to explicitly guide the CC model. Experimental results demonstrate that our proposed method can obtain better performance compared with other state-of-the-art RSICC methods. The code is available at https://github.com/liuruixun/MV-CC.
- Abstract(参考訳): リモートセンシング画像変更キャプション(RSICC)は、双方向リモートセンシング画像のための自然言語記述を提供することを目的としている。
Change Caption (CC)タスクは空間的特徴と時間的特徴の両方を必要とするため、以前の作業はエンコーダ・フュージョン・デコーダアーキテクチャに従っている。
彼らは画像エンコーダを使って空間的特徴を抽出し、融合モジュールは空間的特徴を統合し、時間的特徴を抽出する。
本稿では,融合モジュールを設計せずに,新しいビデオモデルに基づくパラダイムを導入し,Mask-enhanced Video model for Change Caption (MV-CC)を提案する。
具体的には、オフザシェルフビデオエンコーダを用いて、両時間画像の時間的特徴と空間的特徴を同時に抽出する。
さらに、特定のタスク要求に基づいてCCの変更のタイプを設定し、関心領域にもっと焦点を合わせるために、変更検出(CD)法から得られたマスクを用いて、CCモデルを明示的にガイドする。
実験により,提案手法は,他の最先端RSICC法と比較して,優れた性能が得られることが示された。
コードはhttps://github.com/liuruixun/MV-CCで公開されている。
関連論文リスト
- Treat Stillness with Movement: Remote Sensing Change Detection via Coarse-grained Temporal Foregrounds Mining [10.830803079863704]
広範に採用されているバイテンポラルイメージベースフレームワークを再検討し、新しい粗粒度時間マイニング拡張(CTMA)フレームワークを提案する。
両時間画像に比例して、まず時間的操作を用いて映像に変換する。
そして、一連の時間エンコーダを採用して、粗い粒度変化領域の動画から運動特徴を抽出する。
論文 参考訳(メタデータ) (2024-08-15T11:04:26Z) - CM-UNet: Hybrid CNN-Mamba UNet for Remote Sensing Image Semantic Segmentation [19.496409240783116]
ローカル画像の特徴を抽出するCNNベースのエンコーダと,グローバル情報を集約・統合するMambaベースのデコーダからなるCM-UNetを提案する。
CSMambaブロックとMSAAモジュールを統合することで、CM-UNetは大規模リモートセンシング画像の長距離依存性とマルチスケールグローバルコンテキスト情報を効果的にキャプチャする。
論文 参考訳(メタデータ) (2024-05-17T04:20:12Z) - Latent-Shift: Latent Diffusion with Temporal Shift for Efficient
Text-to-Video Generation [115.09597127418452]
Latent-Shiftは、事前訓練されたテキスト・ツー・イメージ生成モデルに基づく効率的なテキスト・ツー・ビデオ生成手法である。
Latent-Shiftは、より効率的でありながら、同等またはより良い結果が得られることを示す。
論文 参考訳(メタデータ) (2023-04-17T17:57:06Z) - Divided Attention: Unsupervised Multi-Object Discovery with Contextually
Separated Slots [78.23772771485635]
本研究では,視覚領域を独立した移動領域に分割し,基礎的な真実や監督を伴わずに訓練する手法を提案する。
Slot Attentionに基づく逆条件エンコーダ・デコーダアーキテクチャで構成されている。
論文 参考訳(メタデータ) (2023-04-04T00:26:13Z) - STMT: A Spatial-Temporal Mesh Transformer for MoCap-Based Action Recognition [50.064502884594376]
本研究では、モーションキャプチャー(MoCap)シーケンスを用いた人間の行動認識の問題点について検討する。
メッシュシーケンスを直接モデル化する新しい時空間メッシュ変換器(STMT)を提案する。
提案手法は,スケルトンベースモデルやポイントクラウドベースモデルと比較して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-03-31T16:19:27Z) - Revisiting Temporal Modeling for CLIP-based Image-to-Video Knowledge
Transferring [82.84513669453744]
画像テキスト事前訓練モデル(例えばCLIP)は、大規模な画像テキストデータペアから学んだ、印象的な汎用マルチモーダル知識を示している。
画像間知識伝達の文脈における時間的モデリングを再考する。
本稿では,CLIPモデルを多様なビデオタスクに拡張する簡易かつ効果的な時間的モデリング機構を提案する。
論文 参考訳(メタデータ) (2023-01-26T14:12:02Z) - Collaborative Spatial-Temporal Modeling for Language-Queried Video Actor
Segmentation [90.74732705236336]
言語クエリビデオアクターセグメンテーションは、ターゲットフレーム内の自然言語クエリで記述されたアクションを実行するアクターのピクセルマスクを予測することを目的としています。
本研究では,ビデオクリップ上に3次元時間エンコーダを内蔵した空間時空間エンコーダ・デコーダフレームワークと,対象フレーム上に2次元空間エンコーダを組み込んで,クエリアクターを正確にセグメント化することを提案する。
論文 参考訳(メタデータ) (2021-05-14T13:27:53Z) - Motion-Attentive Transition for Zero-Shot Video Object Segmentation [99.44383412488703]
ゼロショットオブジェクトセグメンテーションのためのモーション・アテンタティブ・トランジション・ネットワーク(MATNet)を提案する。
モーション・アテンティブ・トランジション (MAT) と呼ばれる非対称のアテンションブロックは、2ストリームエンコーダ内に設計されている。
このように、エンコーダは深く相互に作用し、物体の動きと外観の間の密な階層的な相互作用を可能にする。
論文 参考訳(メタデータ) (2020-03-09T16:58:42Z) - CTM: Collaborative Temporal Modeling for Action Recognition [11.467061749436356]
動作認識のための時間情報を学習するための協調時間モデリング(CTM)ブロックを提案する。
CTMには、空間認識時空間モデリングパスと空間認識時空間モデリングパスの2つの協調パスが含まれている。
いくつかの一般的なアクション認識データセットの実験では、CTMブロックが2D CNNベースラインのパフォーマンス改善をもたらすことが示されている。
論文 参考訳(メタデータ) (2020-02-08T12:14:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。