論文の概要: SiamixFormer: a fully-transformer Siamese network with temporal Fusion
for accurate building detection and change detection in bi-temporal remote
sensing images
- arxiv url: http://arxiv.org/abs/2208.00657v2
- Date: Fri, 21 Jul 2023 08:39:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-24 16:46:56.681158
- Title: SiamixFormer: a fully-transformer Siamese network with temporal Fusion
for accurate building detection and change detection in bi-temporal remote
sensing images
- Title(参考訳): SiamixFormer: 両時間リモートセンシング画像の正確なビルディング検出と変更検出のための時間核融合を用いた完全変圧シマセネットワーク
- Authors: Amir Mohammadian, Foad Ghaderi
- Abstract要約: リモートセンシング画像による建物検出と変更検出は、都市と救助計画に役立つ。
現在、建物検出のための既存のモデルのほとんどは、建物を検知するために1つの画像(事前発見画像)しか使用していない。
本稿では,前・後画像を入力として使用するシアミキフォーマー(SiamixFormer)を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Building detection and change detection using remote sensing images can help
urban and rescue planning. Moreover, they can be used for building damage
assessment after natural disasters. Currently, most of the existing models for
building detection use only one image (pre-disaster image) to detect buildings.
This is based on the idea that post-disaster images reduce the model's
performance because of presence of destroyed buildings. In this paper, we
propose a siamese model, called SiamixFormer, which uses pre- and post-disaster
images as input. Our model has two encoders and has a hierarchical transformer
architecture. The output of each stage in both encoders is given to a temporal
transformer for feature fusion in a way that query is generated from
pre-disaster images and (key, value) is generated from post-disaster images. To
this end, temporal features are also considered in feature fusion. Another
advantage of using temporal transformers in feature fusion is that they can
better maintain large receptive fields generated by transformer encoders
compared with CNNs. Finally, the output of the temporal transformer is given to
a simple MLP decoder at each stage. The SiamixFormer model is evaluated on xBD,
and WHU datasets, for building detection and on LEVIR-CD and CDD datasets for
change detection and could outperform the state-of-the-art.
- Abstract(参考訳): リモートセンシング画像による建物検出と変更検出は、都市と救助計画に役立つ。
また、自然災害後の建物被害評価にも利用できる。
現在、建物検出の既存のモデルのほとんどは、建物を検出するのに1つの画像(以前の画像)しか使用していない。
これは、解体後の建物の存在により、モデルの性能が低下するという考え方に基づいている。
本稿では,ディザスタ前画像とディザスタ後画像を入力として使用するsiamixformerモデルを提案する。
我々のモデルは2つのエンコーダを持ち、階層的なトランスフォーマーアーキテクチャを持っている。
両エンコーダの各ステージの出力は、前ディスカスター画像からクエリが生成され、後ディスカスター画像から(キー、値)が生成されるように、機能融合のための時間変換器に与えられる。
この目的のために、時間的特徴も機能融合において考慮される。
機能融合における時間変換器のもう1つの利点は、CNNと比較して、トランスフォーマーエンコーダによって生成される大きな受容場をよりよく維持できることである。
最後に、時間変換器の出力は各段階で単純なMPPデコーダに与えられる。
SiamixFormerモデルは、xBDとWHUデータセットで評価され、検出の構築と変更検出のためのLEVIR-CDとCDDデータセットで評価される。
関連論文リスト
- Zero-Shot Detection of AI-Generated Images [54.01282123570917]
AI生成画像を検出するゼロショットエントロピー検出器(ZED)を提案する。
機械によるテキスト検出の最近の研究に触発された私たちのアイデアは、分析対象の画像が実際の画像のモデルと比較してどれだけ驚くかを測定することである。
ZEDは精度の点でSoTAよりも平均3%以上改善されている。
論文 参考訳(メタデータ) (2024-09-24T08:46:13Z) - DiAD: A Diffusion-based Framework for Multi-class Anomaly Detection [55.48770333927732]
本稿では,拡散型異常検出(Difusion-based Anomaly Detection, DAD)フレームワークを提案する。
画素空間オートエンコーダ、安定拡散の復調ネットワークに接続する潜在空間セマンティックガイド(SG)ネットワーク、特徴空間事前学習機能抽出器から構成される。
MVTec-ADとVisAデータセットの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2023-12-11T18:38:28Z) - Image Deblurring by Exploring In-depth Properties of Transformer [86.7039249037193]
我々は、事前訓練された視覚変換器(ViT)から抽出した深い特徴を活用し、定量的な測定値によって測定された性能を犠牲にすることなく、回復した画像のシャープ化を促進する。
得られた画像と対象画像の変換器特徴を比較することにより、事前学習された変換器は、高解像度のぼやけた意味情報を提供する。
特徴をベクトルとみなし、抽出された画像から抽出された表現とユークリッド空間における対象表現との差を計算する。
論文 参考訳(メタデータ) (2023-03-24T14:14:25Z) - Pure Transformer with Integrated Experts for Scene Text Recognition [11.089203218000854]
シーンテキスト認識(STR:Scene text recognition)は、自然のシーンの収穫された画像のテキストを読む作業である。
近年、変換器アーキテクチャはSTRで広く採用されており、長期依存を捕捉する強力な能力を示している。
本研究は,ハイブリッドCNN変換器モデルより優れた単純なベースラインとして,トランスフォーマーのみのモデルを提案する。
論文 参考訳(メタデータ) (2022-11-09T15:26:59Z) - Masked Transformer for image Anomaly Localization [14.455765147827345]
パッチマスキングを用いたビジョントランスフォーマーアーキテクチャに基づく画像異常検出のための新しいモデルを提案する。
マルチレゾリューションパッチとその集合埋め込みは,モデルの性能を大幅に向上させることを示す。
提案モデルはMVTecや頭部CTなどの一般的な異常検出データセットでテストされている。
論文 参考訳(メタデータ) (2022-10-27T15:30:48Z) - Dual-Tasks Siamese Transformer Framework for Building Damage Assessment [11.888964682446879]
トランスフォーマーによる損傷評価アーキテクチャ(DamFormer)の設計の試みについて述べる。
我々の知る限り、このような深層トランスフォーマーベースのネットワークがマルチテンポラルリモートセンシングの解釈タスクのために提案されたのは、これが初めてである。
論文 参考訳(メタデータ) (2022-01-26T14:11:16Z) - Towards End-to-End Image Compression and Analysis with Transformers [99.50111380056043]
本稿では,クラウドベースの画像分類アプリケーションを対象として,トランスフォーマーを用いたエンドツーエンドの画像圧縮解析モデルを提案する。
我々は、圧縮された特徴から画像分類を行うためにビジョントランスフォーマー(ViT)モデルを再設計し、トランスフォーマーからの長期情報を用いて画像圧縮を容易にすることを目指している。
画像圧縮と分類作業の両方において,提案モデルの有効性を示す実験結果が得られた。
論文 参考訳(メタデータ) (2021-12-17T03:28:14Z) - REPLICA: Enhanced Feature Pyramid Network by Local Image Translation and
Conjunct Attention for High-Resolution Breast Tumor Detection [6.112883009328882]
本稿では,局所画像翻訳と接続注意(REPLICA)による再生ネットワークの強化について述べる。
我々は、畳み込みオートエンコーダを発電機として使用し、局所ピラミッドを介して画像にオブジェクトを注入し、それらの特徴を隠蔽層で抽出して、新しい画像を生成する。
そして、シミュレーション画像の数が多いため、視覚変換器を使用して、特徴ピラミッドネットワークへの入力として機能する各ResNet層の出力を強化する。
論文 参考訳(メタデータ) (2021-11-22T21:33:02Z) - PPT Fusion: Pyramid Patch Transformerfor a Case Study in Image Fusion [37.993611194758195]
画像から意味情報を抽出する問題に対処するため,Patch Pyramid Transformer(PPT)を提案する。
実験により, 現状の核融合法に対して優れた性能を示した。
論文 参考訳(メタデータ) (2021-07-29T13:57:45Z) - Visual Saliency Transformer [127.33678448761599]
RGBとRGB-Dの液状物体検出(SOD)のための、純粋な変圧器であるVST(Visual Saliency Transformer)に基づく新しい統一モデルを開発しました。
イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。
実験結果から,RGBとRGB-D SODのベンチマークデータセットにおいて,本モデルが既存の最新結果を上回っていることが示された。
論文 参考訳(メタデータ) (2021-04-25T08:24:06Z) - End-to-End Trainable Multi-Instance Pose Estimation with Transformers [68.93512627479197]
畳み込みニューラルネットワークとトランスを組み合わせることで,マルチインスタンスポーズ推定のための新たなエンドツーエンドトレーニング可能なアプローチを提案する。
変換器を用いたエンドツーエンドのトレーニング可能なオブジェクト検出に関する最近の研究に触発されて、変換器エンコーダデコーダアーキテクチャとバイパーティイトマッチングスキームを併用して、与えられた画像中のすべての個人のポーズを直接回帰する。
提案モデルであるポーズ推定トランスフォーマ(poet)は,キーポイント損失,キーポイント可視性損失,センター損失,クラス損失からなる,新たなセットベースグローバル損失を用いてトレーニングを行う。
論文 参考訳(メタデータ) (2021-03-22T18:19:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。