論文の概要: A Lightweight Sparse Focus Transformer for Remote Sensing Image Change Captioning
- arxiv url: http://arxiv.org/abs/2405.06598v2
- Date: Fri, 11 Oct 2024 09:50:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-14 13:28:27.184873
- Title: A Lightweight Sparse Focus Transformer for Remote Sensing Image Change Captioning
- Title(参考訳): リモートセンシング画像変更キャプションのための軽量スパース焦点変換器
- Authors: Dongwei Sun, Yajie Bao, Junmin Liu, Xiangyong Cao,
- Abstract要約: 本稿では、リモートセンシング画像変更キャプション(RSICC)タスクのためのスパースフォーカス変換器(SFT)を提案する。
提案するSFTネットワークは,スパースアテンション機構を組み込むことで,パラメータ数と計算複雑性を低減できる。
- 参考スコア(独自算出の注目度): 11.93705794906543
- License:
- Abstract: Remote sensing image change captioning (RSICC) aims to automatically generate sentences that describe content differences in remote sensing bitemporal images. Recently, attention-based transformers have become a prevalent idea for capturing the features of global change. However, existing transformer-based RSICC methods face challenges, e.g., high parameters and high computational complexity caused by the self-attention operation in the transformer encoder component. To alleviate these issues, this paper proposes a Sparse Focus Transformer (SFT) for the RSICC task. Specifically, the SFT network consists of three main components, i.e. a high-level features extractor based on a convolutional neural network (CNN), a sparse focus attention mechanism-based transformer encoder network designed to locate and capture changing regions in dual-temporal images, and a description decoder that embeds images and words to generate sentences for captioning differences. The proposed SFT network can reduce the parameter number and computational complexity by incorporating a sparse attention mechanism within the transformer encoder network. Experimental results on various datasets demonstrate that even with a reduction of over 90\% in parameters and computational complexity for the transformer encoder, our proposed network can still obtain competitive performance compared to other state-of-the-art RSICC methods. The code is available at \href{https://github.com/sundongwei/SFT_chag2cap}{Lite\_Chag2cap}.
- Abstract(参考訳): リモートセンシング画像変化キャプション(RSICC)は、リモートセンシングバイテンポラル画像における内容の違いを記述した文を自動的に生成することを目的としている。
近年、注目に基づくトランスフォーマーは、グローバルな変化の特徴を捉えるための主流のアイデアとなっている。
しかし,既存の変圧器を用いたRSICC法では,変圧器エンコーダの自己注意操作による高パラメータ,高計算量といった課題に直面している。
本稿では,これらの問題を緩和するために,RSICCタスクのためのスパースフォーカス変換器(SFT)を提案する。
具体的には、SFTネットワークは、畳み込みニューラルネットワーク(CNN)に基づく高レベルの特徴抽出器、二重時間画像における変化領域の特定とキャプチャを意図したスパースフォーカスアテンション機構ベースのトランスフォーマーエンコーダネットワーク、画像と単語を埋め込み、キャプションの差分を生成する記述デコーダの3つの主要コンポーネントから構成される。
提案したSFTネットワークは,変圧器エンコーダネットワークにスパースアテンション機構を組み込むことで,パラメータ数と計算複雑性を低減できる。
実験結果から, 変圧器エンコーダのパラメータが90%以上削減された場合でも, 提案するネットワークは, 従来のRSICC法と比較して, 競争性能が向上することを示した。
コードは \href{https://github.com/sundongwei/SFT_chag2cap}{Lite\_Chag2cap} で公開されている。
関連論文リスト
- High-Performance Transformers for Table Structure Recognition Need Early
Convolutions [25.04573593082671]
既存のアプローチでは、ビジュアルエンコーダには古典的畳み込みニューラルネットワーク(CNN)、テキストデコーダにはトランスフォーマーが使用されている。
表現力を犠牲にすることなくテーブル構造認識(TSR)のための軽量ビジュアルエンコーダを設計する。
畳み込みステムは従来のCNNバックボーンのパフォーマンスとより単純なモデルで一致できることが判明した。
論文 参考訳(メタデータ) (2023-11-09T18:20:52Z) - AICT: An Adaptive Image Compression Transformer [18.05997169440533]
我々は、より単純で効果的なTranformerベースのチャネルワイド自動回帰事前モデルを提案し、絶対画像圧縮変換器(ICT)を実現する。
提案したICTは、潜在表現からグローバルとローカルの両方のコンテキストをキャプチャできる。
我々は、サンドイッチのConvNeXtベースのプリ/ポストプロセッサで学習可能なスケーリングモジュールを活用し、よりコンパクトな潜在表現を正確に抽出する。
論文 参考訳(メタデータ) (2023-07-12T11:32:02Z) - Transformer-based Variable-rate Image Compression with
Region-of-interest Control [24.794581811606445]
本稿では,変換器を用いた学習画像圧縮システムを提案する。
関心の領域機能をサポートしながら、単一のモデルで可変レート圧縮を実現することができる。
論文 参考訳(メタデータ) (2023-05-18T08:40:34Z) - Reducing Redundancy in the Bottleneck Representation of the Autoencoders [98.78384185493624]
オートエンコーダは教師なしニューラルネットワークの一種であり、様々なタスクを解くのに使用できる。
本稿では,ボトルネック表現における特徴冗長性を明示的に罰する手法を提案する。
我々は,3つの異なるデータセットを用いた次元削減,MNISTデータセットを用いた画像圧縮,ファッションMNISTを用いた画像デノナイズという,さまざまなタスクにまたがってアプローチを検証した。
論文 参考訳(メタデータ) (2022-02-09T18:48:02Z) - Transformer-based SAR Image Despeckling [53.99620005035804]
本稿では,SAR画像復号化のためのトランスフォーマーネットワークを提案する。
提案する非特定ネットワークは、トランスフォーマーベースのエンコーダにより、異なる画像領域間のグローバルな依存関係を学習することができる。
実験により,提案手法は従来型および畳み込み型ニューラルネットワークに基づく解法よりも大幅に改善されていることが示された。
論文 参考訳(メタデータ) (2022-01-23T20:09:01Z) - Towards End-to-End Image Compression and Analysis with Transformers [99.50111380056043]
本稿では,クラウドベースの画像分類アプリケーションを対象として,トランスフォーマーを用いたエンドツーエンドの画像圧縮解析モデルを提案する。
我々は、圧縮された特徴から画像分類を行うためにビジョントランスフォーマー(ViT)モデルを再設計し、トランスフォーマーからの長期情報を用いて画像圧縮を容易にすることを目指している。
画像圧縮と分類作業の両方において,提案モデルの有効性を示す実験結果が得られた。
論文 参考訳(メタデータ) (2021-12-17T03:28:14Z) - Transformer-based Image Compression [18.976159633970177]
Transformer-based Image Compression (TIC) アプローチは、標準変分オートエンコーダ(VAE)アーキテクチャをメインおよびハイパーエンコーダデコーダのペアで再利用する。
TICは、Deep Convolutional Neural Network(CNN)ベースの学習画像符号化(lic)メソッドや、最近承認されたVersatile Video Coding(VVC)標準のハンドクラフトルールベースの内部プロファイルなど、最先端のアプローチと競合する。
論文 参考訳(メタデータ) (2021-11-12T13:13:20Z) - Fully Transformer Networks for Semantic ImageSegmentation [26.037770622551882]
エンコーダデコーダをベースとしたFully Transformer Networks (FTN) を用いた意味的イメージセグメンテーションのための新しいフレームワークについて検討する。
階層的特徴を段階的に学習するエンコーダとして、標準視覚変換器(ViT)の計算複雑性を低減しつつ、ピラミッド群変換器(PGT)を提案する。
次に,セマンティックイメージセグメンテーションのためのPGTエンコーダの複数レベルから意味レベルと空間レベル情報を融合する特徴ピラミッドトランス (FPT) を提案する。
論文 参考訳(メタデータ) (2021-06-08T05:15:28Z) - Transformer-Based Deep Image Matching for Generalizable Person
Re-identification [114.56752624945142]
画像マッチングと距離学習にトランスフォーマーを適用する可能性について検討する。
視覚変換器 (ViT) とデコーダ付きバニラ変換器 (Vanilla Transformer) はイメージ・ツー・イメージ・アテンションの欠如により画像マッチングに適していないことがわかった。
そこで本研究では,クエリキーの類似性のみを保ちながら,ソフトマックス重み付けによる注意の完全な実装を省略する,単純化されたデコーダを提案する。
論文 参考訳(メタデータ) (2021-05-30T05:38:33Z) - Swin-Unet: Unet-like Pure Transformer for Medical Image Segmentation [63.46694853953092]
Swin-Unetは、医用画像セグメンテーション用のUnetライクなトランスフォーマーである。
トークン化されたイメージパッチは、TransformerベースのU字型デコーダデコーダアーキテクチャに供給される。
論文 参考訳(メタデータ) (2021-05-12T09:30:26Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。