論文の概要: Progressive Scale-aware Network for Remote sensing Image Change
Captioning
- arxiv url: http://arxiv.org/abs/2303.00355v2
- Date: Mon, 18 Dec 2023 07:17:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-21 02:51:38.332397
- Title: Progressive Scale-aware Network for Remote sensing Image Change
Captioning
- Title(参考訳): リモートセンシング画像変化キャプションのためのプログレッシブスケールアウェアネットワーク
- Authors: Chenyang Liu, Jiajun Yang, Zipeng Qi, Zhengxia Zou and Zhenwei Shi
- Abstract要約: この問題に対処するために,プログレッシブ・スケール・アウェア・ネットワーク(PSNet)を提案する。
マルチスケールの視覚的特徴を十分に抽出するために、レイヤを積み重ねて、バイテンポラル特徴の異なる特徴を利用する。
実験の結果,PDP層とSRモジュールは有効であり,PSNetは従来の手法よりも優れていた。
- 参考スコア(独自算出の注目度): 26.424616686549985
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Remote sensing (RS) images contain numerous objects of different scales,
which poses significant challenges for the RS image change captioning (RSICC)
task to identify visual changes of interest in complex scenes and describe them
via language. However, current methods still have some weaknesses in
sufficiently extracting and utilizing multi-scale information. In this paper,
we propose a progressive scale-aware network (PSNet) to address the problem.
PSNet is a pure Transformer-based model. To sufficiently extract multi-scale
visual features, multiple progressive difference perception (PDP) layers are
stacked to progressively exploit the differencing features of bitemporal
features. To sufficiently utilize the extracted multi-scale features for
captioning, we propose a scale-aware reinforcement (SR) module and combine it
with the Transformer decoding layer to progressively utilize the features from
different PDP layers. Experiments show that the PDP layer and SR module are
effective and our PSNet outperforms previous methods. Our code is public at
https://github.com/Chen-Yang-Liu/PSNet
- Abstract(参考訳): リモートセンシング(RS)画像にはさまざまなスケールのオブジェクトが含まれており、複雑なシーンにおける視覚的関心の変化を識別し、言語を介して記述するためにRS画像変更キャプション(RSICC)タスクに重大な課題が生じる。
しかし,近年の手法では,マルチスケール情報を十分に抽出・活用する上での弱点が残っている。
本稿では,この問題に対処するためのprogressive scale-aware network (psnet)を提案する。
PSNetはトランスフォーマーベースのモデルである。
マルチスケールの視覚特徴を十分に抽出するために、多段階差分認識(PDP)層を積み重ねて、バイテンポラル特徴の差分特徴を段階的に活用する。
抽出した多機能キャプションを十分に活用するために,スケールアウェア強化(SR)モジュールを提案し,それをTransformerデコーディング層と組み合わせて,異なるPDP層の特徴を段階的に活用する。
実験の結果,PDP層とSRモジュールは有効であり,PSNetは従来の手法よりも優れていた。
私たちのコードはhttps://github.com/Chen-Yang-Liu/PSNetで公開されています。
関連論文リスト
- Multi-scale Unified Network for Image Classification [33.560003528712414]
CNNは、実世界のマルチスケール画像入力を扱う際に、性能と計算効率において顕著な課題に直面している。
本稿では,マルチスケール,統一ネットワーク,スケール不変制約からなるMultiscale Unified Network(MUSN)を提案する。
MUSNは精度が44.53%向上し、マルチスケールシナリオではFLOPを7.01-16.13%減少させる。
論文 参考訳(メタデータ) (2024-03-27T06:40:26Z) - TransY-Net:Learning Fully Transformer Networks for Change Detection of
Remote Sensing Images [64.63004710817239]
リモートセンシング画像CDのためのトランスフォーマーベース学習フレームワークTransY-Netを提案する。
グローバルな視点からの特徴抽出を改善し、ピラミッド方式で多段階の視覚的特徴を組み合わせる。
提案手法は,4つの光学式および2つのSAR画像CDベンチマーク上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-10-22T07:42:19Z) - M$^{2}$SNet: Multi-scale in Multi-scale Subtraction Network for Medical
Image Segmentation [73.10707675345253]
医用画像から多様なセグメンテーションを仕上げるマルチスケールサブトラクションネットワーク(M$2$SNet)を提案する。
本手法は,4つの異なる医用画像セグメンテーションタスクの11つのデータセットに対して,異なる評価基準の下で,ほとんどの最先端手法に対して好意的に機能する。
論文 参考訳(メタデータ) (2023-03-20T06:26:49Z) - Fully Transformer Network for Change Detection of Remote Sensing Images [22.989324947501014]
リモートセンシング画像CDのための新しい学習フレームワークであるFully Transformer Network (FTN)を提案する。
グローバルな視点からの特徴抽出を改善し、ピラミッド方式で多段階の視覚的特徴を組み合わせる。
提案手法は,4つの公開CDベンチマーク上での最先端性能を実現する。
論文 参考訳(メタデータ) (2022-10-03T08:21:25Z) - Scale Attention for Learning Deep Face Representation: A Study Against
Visual Scale Variation [69.45176408639483]
我々はスケール空間理論に頼って凸層を再構築する。
我々はSCale AttentioN Conv Neural Network(textbfSCAN-CNN)という新しいスタイルを構築した。
単発方式として、推論はマルチショット融合よりも効率的である。
論文 参考訳(メタデータ) (2022-09-19T06:35:04Z) - Multi-level Second-order Few-shot Learning [111.0648869396828]
教師付きまたは教師なしの少数ショット画像分類と少数ショット動作認識のためのマルチレベル2次数列学習ネットワーク(MlSo)を提案する。
我々は、パワーノーマライズされた二階学習者ストリームと、複数のレベルの視覚的抽象化を表現する機能を組み合わせた、いわゆる2階学習者ストリームを活用している。
我々は,Omniglot, mini-ImageNet, tiered-ImageNet, Open MIC, CUB Birds, Stanford Dogs, Cars, HMDB51, UCF101, mini-MITなどのアクション認識データセットなどの標準データセットに対して,優れた結果を示す。
論文 参考訳(メタデータ) (2022-01-15T19:49:00Z) - MPViT: Multi-Path Vision Transformer for Dense Prediction [43.89623453679854]
Vision Transformers (ViTs) は、単一スケールパッチによるマルチスケール表現のためのシンプルなマルチステージ構造を構築する。
OuriTsのスケールは5Mから73Mまでで、最先端のVision Transformerよりも優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2021-12-21T06:34:50Z) - Less is More: Pay Less Attention in Vision Transformers [61.05787583247392]
注意の少ないvIsion Transformerは、畳み込み、完全接続層、自己アテンションが、画像パッチシーケンスを処理するためにほぼ同等な数学的表現を持つという事実に基づいている。
提案したLITは、画像分類、オブジェクト検出、インスタンス分割を含む画像認識タスクにおいて有望な性能を達成する。
論文 参考訳(メタデータ) (2021-05-29T05:26:07Z) - MACU-Net for Semantic Segmentation of Fine-Resolution Remotely Sensed
Images [11.047174552053626]
MACU-Netは、マルチスケールのスキップ接続と非対称畳み込みベースのU-Netで、微細解像度のリモートセンシング画像を提供する。
本設計では,(1)低レベル・高レベルの特徴写像に含まれる意味的特徴と,(2)非対称な畳み込みブロックは,標準畳み込み層の特徴表現と特徴抽出能力を強化する。
2つのリモートセンシングデータセットで行った実験では、提案したMACU-NetがU-Net、U-NetPPL、U-Net 3+、その他のベンチマークアプローチを超越していることが示されている。
論文 参考訳(メタデータ) (2020-07-26T08:56:47Z) - PSConv: Squeezing Feature Pyramid into One Compact Poly-Scale
Convolutional Layer [76.44375136492827]
畳み込みニューラルネットワーク(CNN)は、しばしばスケールに敏感である。
我々は、この後悔を、より細かい粒度でマルチスケールの機能を利用して埋める。
提案した畳み込み演算は、PSConv(Poly-Scale Convolution)と呼ばれ、拡張率のスペクトルを混合する。
論文 参考訳(メタデータ) (2020-07-13T05:14:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。