論文の概要: Change Captioning in Remote Sensing: Evolution to SAT-Cap -- A Single-Stage Transformer Approach
- arxiv url: http://arxiv.org/abs/2501.08114v1
- Date: Tue, 14 Jan 2025 13:46:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-15 13:29:13.155904
- Title: Change Captioning in Remote Sensing: Evolution to SAT-Cap -- A Single-Stage Transformer Approach
- Title(参考訳): リモートセンシングにおける変更キャプション:SAT-Capへの進化 -- シングルステージトランスアプローチ
- Authors: Yuduo Wang, Weikang Yu, Pedram Ghamisi,
- Abstract要約: 既存の変更キャプション手法では、高い計算要求とオブジェクト記述の詳細な説明が不十分な2つの大きな課題に直面している。
リモートセンシング変換キャプションのための単一段機能融合を用いたトランスフォーマーモデルに基づくSAT-Capを提案する。
特にSAT-CapはSpatial-Channel Attention, Different-Guided Fusionモジュール, Caption Decoderを統合している。
- 参考スコア(独自算出の注目度): 11.699082207670815
- License:
- Abstract: Change captioning has become essential for accurately describing changes in multi-temporal remote sensing data, providing an intuitive way to monitor Earth's dynamics through natural language. However, existing change captioning methods face two key challenges: high computational demands due to multistage fusion strategy, and insufficient detail in object descriptions due to limited semantic extraction from individual images. To solve these challenges, we propose SAT-Cap based on the transformers model with a single-stage feature fusion for remote sensing change captioning. In particular, SAT-Cap integrates a Spatial-Channel Attention Encoder, a Difference-Guided Fusion module, and a Caption Decoder. Compared to typical models that require multi-stage fusion in transformer encoder and fusion module, SAT-Cap uses only a simple cosine similarity-based fusion module for information integration, reducing the complexity of the model architecture. By jointly modeling spatial and channel information in Spatial-Channel Attention Encoder, our approach significantly enhances the model's ability to extract semantic information from objects in multi-temporal remote sensing images. Extensive experiments validate the effectiveness of SAT-Cap, achieving CIDEr scores of 140.23% on the LEVIR-CC dataset and 97.74% on the DUBAI-CC dataset, surpassing current state-of-the-art methods. The code and pre-trained models will be available online.
- Abstract(参考訳): 変更キャプションは、多時間リモートセンシングデータの変化を正確に記述するために欠かせないものとなり、自然言語を通して地球の力学を監視する直感的な方法を提供する。
しかし、既存の変更キャプション手法では、多段階融合戦略による高い計算要求と、個々の画像からの限定的な意味抽出によるオブジェクト記述の細部が不十分な2つの大きな課題に直面している。
これらの課題を解決するために,リモートセンシング変換キャプションのための単一段機能融合を用いたトランスフォーマーモデルに基づくSAT-Capを提案する。
特にSAT-Capは、Spatial-Channel Attention Encoder、Varicial-Guided Fusionモジュール、Caption Decoderを統合している。
変換器エンコーダと融合モジュールの多段階融合を必要とする典型的なモデルと比較して、SAT-Capは情報統合のための単純なコサイン類似性に基づく融合モジュールのみを使用し、モデルアーキテクチャの複雑さを低減している。
空間チャネルアテンションエンコーダにおける空間情報とチャネル情報を共同でモデル化することにより,マルチ時間リモートセンシング画像中のオブジェクトから意味情報を抽出する能力を大幅に向上させる。
LEVIR-CCデータセットで140.23%、DUBAI-CCデータセットで97.74%のCIDErスコアを達成し、現在の最先端の手法を上回り、SAT-Capの有効性を検証した。
コードと事前訓練されたモデルはオンラインで利用できる。
関連論文リスト
- MV-CC: Mask Enhanced Video Model for Remote Sensing Change Caption [8.062368743143388]
融合モジュールを設計せずに新しいビデオモデルに基づくパラダイムを導入する。
具体的には、オフザシェルフビデオエンコーダを用いて、両時間画像の時間的特徴と空間的特徴を同時に抽出する。
提案手法は,他の最先端RSICC法と比較して優れた性能が得られる。
論文 参考訳(メタデータ) (2024-10-31T14:02:40Z) - UTSRMorph: A Unified Transformer and Superresolution Network for Unsupervised Medical Image Registration [4.068692674719378]
複雑な画像登録は、医用画像解析において重要な課題である。
本稿では,UTSRMorphネットワークと統合トランスフォーマー(UTSRMorph)ネットワークという,教師なしの新たな画像登録手法を提案する。
論文 参考訳(メタデータ) (2024-10-27T06:28:43Z) - A Transformer Model for Boundary Detection in Continuous Sign Language [55.05986614979846]
Transformerモデルは、分離された手話認識と連続手話認識の両方に使用される。
トレーニングプロセスは、入力されたビデオから抽出された手指キーポイントの特徴を豊かにする、孤立した手指ビデオを使用する。
トレーニングされたモデルと後処理の手法が組み合わさって、連続した手話ビデオ内の孤立した手話境界を検出する。
論文 参考訳(メタデータ) (2024-02-22T17:25:01Z) - Bi-directional Adapter for Multi-modal Tracking [67.01179868400229]
汎用の双方向アダプタを用いたマルチモーダル視覚プロンプト追跡モデルを提案する。
我々は、モーダリティ固有の情報をあるモーダリティから別のモーダリティへ転送するための、シンプルだが効果的なライト・フィーチャー・アダプタを開発した。
本モデルでは,完全微調整法と素早い学習法の両方と比較して,追跡性能が優れている。
論文 参考訳(メタデータ) (2023-12-17T05:27:31Z) - Mug-STAN: Adapting Image-Language Pretrained Models for General Video
Understanding [47.97650346560239]
マルチガイドアライメントモジュール(Mug-STAN)を用いた空間時間補助ネットワークを提案する。
Mug-STANは、CLIPやCoCaといった言語画像事前学習モデルの、ビデオテキスト後トレーニングと微調整の段階における適応性を著しく改善する。
論文 参考訳(メタデータ) (2023-11-25T17:01:38Z) - Few-shot Action Recognition with Captioning Foundation Models [61.40271046233581]
CapFSARは、テキストを手動でアノテートすることなく、マルチモーダルモデルの知識を利用するフレームワークである。
Transformerをベースとしたビジュアルテキストアグリゲーションモジュールはさらに、モーダル時間間の補完情報を組み込むように設計されている。
複数の標準的な数ショットベンチマークの実験では、提案したCapFSARが既存の手法に対して好適に動作することを示した。
論文 参考訳(メタデータ) (2023-10-16T07:08:39Z) - AICT: An Adaptive Image Compression Transformer [18.05997169440533]
我々は、より単純で効果的なTranformerベースのチャネルワイド自動回帰事前モデルを提案し、絶対画像圧縮変換器(ICT)を実現する。
提案したICTは、潜在表現からグローバルとローカルの両方のコンテキストをキャプチャできる。
我々は、サンドイッチのConvNeXtベースのプリ/ポストプロセッサで学習可能なスケーリングモジュールを活用し、よりコンパクトな潜在表現を正確に抽出する。
論文 参考訳(メタデータ) (2023-07-12T11:32:02Z) - BatchFormerV2: Exploring Sample Relationships for Dense Representation
Learning [88.82371069668147]
BatchFormerV2はより一般的なバッチトランスフォーマーモジュールである。
BatchFormerV2は、現在のDETRベースの検出方法を1.3%以上改善している。
論文 参考訳(メタデータ) (2022-04-04T05:53:42Z) - End-to-End Transformer Based Model for Image Captioning [1.4303104706989949]
Transformerベースのモデルはイメージキャプションをひとつのステージに統合し、エンドツーエンドのトレーニングを実現する。
モデルは138.2%(シングルモデル)と141.0%(4モデルのアンサンブル)の新しい最先端性能を達成する
論文 参考訳(メタデータ) (2022-03-29T08:47:46Z) - ZS-SLR: Zero-Shot Sign Language Recognition from RGB-D Videos [49.337912335944026]
ゼロショット手話認識(ZS-SLR)の問題を定式化し、RGBとDepthの2つの入力モードから2つのストリームモデルを提案する。
視覚変換機能を活用するために,人間の検出と視覚特徴表現に2つの視覚変換モデルを用いる。
視覚変換器とLSTMネットワークを用いて人体からの時間的表現を得る。
論文 参考訳(メタデータ) (2021-08-23T10:48:18Z) - CCVS: Context-aware Controllable Video Synthesis [95.22008742695772]
プレゼンテーションでは、古いビデオクリップから新しいビデオクリップを合成するための自己教師付き学習アプローチを紹介している。
時間的連続性のための文脈情報と微妙な制御のための補助情報に基づいて合成過程を規定する。
論文 参考訳(メタデータ) (2021-07-16T17:57:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。