論文の概要: Mask Approximation Net: A Novel Diffusion Model Approach for Remote Sensing Change Captioning
- arxiv url: http://arxiv.org/abs/2412.19179v2
- Date: Sun, 16 Feb 2025 09:13:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 16:13:23.29251
- Title: Mask Approximation Net: A Novel Diffusion Model Approach for Remote Sensing Change Captioning
- Title(参考訳): マスク近似ネット:リモートセンシング変化キャプションのための新しい拡散モデルアプローチ
- Authors: Dongwei Sun, Jing Yao, Changsheng Zhou, Xiangyong Cao, Pedram Ghamisi,
- Abstract要約: 本稿では,拡散モデルを用いたリモートセンシング画像変化検出と記述のための新しいアプローチを提案する。
高周波ノイズの管理によりモデル性能を向上させるために,周波数誘導型複素フィルタモジュールを導入する。
本稿では,リモートセンシングによる変化検出と記述のための提案手法の有効性を検証する。
- 参考スコア(独自算出の注目度): 15.88864190284027
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Remote sensing image change description represents an innovative multimodal task within the realm of remote sensing processing. This task not only facilitates the detection of alterations in surface conditions, but also provides comprehensive descriptions of these changes, thereby improving human interpretability and interactivity.Generally, existing deep-learning-based methods predominantly utilized a three-stage framework that successively perform feature extraction, feature fusion, and localization from bitemporal images before text generation. However, this reliance often leads to an excessive focus on the design of specific network architectures and restricts the feature distributions to the dataset at hand, which in turn results in limited generalizability and robustness during application.To address these limitations, this paper proposes a novel approach for remote sensing image change detection and description that incorporates diffusion models, aiming to transition the emphasis of modeling paradigms from conventional feature learning to data distribution learning. The proposed method primarily includes a simple multi-scale change detection module, whose output features are subsequently refined by an well-designed diffusion model. Furthermore, we introduce a frequency-guided complex filter module to boost the model performance by managing high-frequency noise throughout the diffusion process. We validate the effectiveness of our proposed method across several datasets for remote sensing change detection and description, showcasing its superior performance compared to existing techniques. The code will be available at \href{https://github.com/sundongwei}{MaskApproxNet} after a possible publication.
- Abstract(参考訳): リモートセンシング画像変化記述は、リモートセンシング処理の領域における革新的なマルチモーダルタスクを表す。
この課題は, 表面条件の変化の検出を容易にするだけでなく, これらの変化の包括的記述も提供し, 人間の解釈可能性や対話性の向上を図っている。
しかし,本論文では,従来の特徴学習からデータ分散学習へのモデルパラダイムの重点化をめざして,拡散モデルを用いたリモートセンシング画像変化検出と記述のための新しいアプローチを提案する。
提案手法は主に単純なマルチスケール変化検出モジュールを含んでおり、その出力特性はその後よく設計された拡散モデルによって洗練される。
さらに,拡散過程全体にわたって高周波ノイズを管理することでモデル性能を向上させるために,周波数誘導複合フィルタモジュールを導入する。
提案手法の有効性を,リモートセンシングによる変化検出と記述のための複数のデータセットで検証し,既存の手法と比較して優れた性能を示す。
コードは公開後、 \href{https://github.com/sundongwei}{MaskApproxNet}で入手できる。
関連論文リスト
- LDGNet: A Lightweight Difference Guiding Network for Remote Sensing Change Detection [6.554696547472252]
光リモートセンシングによる変化検出を誘導する軽量差分誘導ネットワーク(LDGNet)を提案する。
まず、軽量バックボーンネットワークの特徴表現能力を高めるために、差分誘導モジュール(DGM)を提案する。
次に,Visual State Space Model (VSSM) を用いたDADFモジュールを提案する。
論文 参考訳(メタデータ) (2025-04-07T13:33:54Z) - Effective Diffusion Transformer Architecture for Image Super-Resolution [63.254644431016345]
画像超解像のための効果的な拡散変換器(DiT-SR)を設計する。
実際には、DiT-SRは全体のU字型アーキテクチャを活用し、すべての変圧器ブロックに対して均一な等方性設計を採用する。
我々は、広く使われているAdaLNの制限を分析し、周波数適応型時間-ステップ条件付けモジュールを提案する。
論文 参考訳(メタデータ) (2024-09-29T07:14:16Z) - Mixture-of-Noises Enhanced Forgery-Aware Predictor for Multi-Face Manipulation Detection and Localization [52.87635234206178]
本稿では,多面的操作検出と局所化に適したMoNFAPという新しいフレームワークを提案する。
このフレームワークには2つの新しいモジュールが含まれている: Forgery-aware Unified Predictor (FUP) Module と Mixture-of-Noises Module (MNM)。
論文 参考訳(メタデータ) (2024-08-05T08:35:59Z) - Wavelet-based Bi-dimensional Aggregation Network for SAR Image Change Detection [53.842568573251214]
3つのSARデータセットによる実験結果から、我々のWBANetは現代最先端の手法を著しく上回っていることが明らかとなった。
我々のWBANetは、それぞれのデータセットで98.33%、96.65%、96.62%の正確な分類(PCC)を達成している。
論文 参考訳(メタデータ) (2024-07-18T04:36:10Z) - ReNoise: Real Image Inversion Through Iterative Noising [62.96073631599749]
本研究では,操作数を増やすことなく,高い品質と操作率の逆転法を導入し,再現精度を向上する。
我々は,近年の高速化拡散モデルを含む様々なサンプリングアルゴリズムとモデルを用いて,Renoise手法の性能を評価する。
論文 参考訳(メタデータ) (2024-03-21T17:52:08Z) - Siamese Meets Diffusion Network: SMDNet for Enhanced Change Detection in
High-Resolution RS Imagery [7.767708235606408]
我々は,新しいネットワークであるSiamese-U2Net Feature Differential Meets Network (SMDNet)を提案する。
このネットワークは、画像エッジ変化検出の精度を向上させるために、Siam-U2Net Feature Differential (SU-FDE)とデノイング拡散暗黙モデルを組み合わせる。
特徴抽出モデルと拡散モデルを組み合わせることで,リモートセンシング画像における変化検出の有効性を示す。
論文 参考訳(メタデータ) (2024-01-17T16:48:55Z) - Multimodal Transformer Using Cross-Channel attention for Object Detection in Remote Sensing Images [1.662438436885552]
マルチモーダル融合は、複数のモーダルからのデータを融合することで精度を高めることが決定されている。
早期に異なるチャネル間の関係をマッピングするための新しいマルチモーダル融合戦略を提案する。
本手法は,中期・後期の手法とは対照的に,早期の融合に対処することにより,既存の手法と比較して,競争力や性能に優れる。
論文 参考訳(メタデータ) (2023-10-21T00:56:11Z) - Unified Frequency-Assisted Transformer Framework for Detecting and
Grounding Multi-Modal Manipulation [109.1912721224697]
本稿では、DGM4問題に対処するため、UFAFormerという名前のUnified Frequency-Assisted TransFormerフレームワークを提案する。
離散ウェーブレット変換を利用して、画像を複数の周波数サブバンドに分解し、リッチな顔偽造品をキャプチャする。
提案する周波数エンコーダは、帯域内およびバンド間自己アテンションを組み込んだもので、多種多様なサブバンド内および多種多様なフォージェリー特徴を明示的に集約する。
論文 参考訳(メタデータ) (2023-09-18T11:06:42Z) - Remote Sensing Image Change Detection with Graph Interaction [1.8579693774597708]
本稿では,BGINet-CDを用いたリモートセンシングによる画像変化検出のためのバイテンポラル画像グラフインタラクションネットワークを提案する。
本モデルは,GZ CDデータセット上の他の最先端手法(SOTA)と比較して,優れた性能を示す。
論文 参考訳(メタデータ) (2023-07-05T03:32:49Z) - DragDiffusion: Harnessing Diffusion Models for Interactive Point-based Image Editing [94.24479528298252]
DragGANは、ピクセルレベルの精度で印象的な編集結果を実現する、インタラクティブなポイントベースの画像編集フレームワークである。
大規模な事前学習拡散モデルを利用することで、実画像と拡散画像の両方における対話的点ベース編集の適用性を大幅に向上する。
本稿では,対話的点ベース画像編集手法の性能を評価するため,DragBenchというベンチマークデータセットを提案する。
論文 参考訳(メタデータ) (2023-06-26T06:04:09Z) - A Generic Shared Attention Mechanism for Various Backbone Neural Networks [53.36677373145012]
自己注意モジュール(SAM)は、異なる層にまたがる強い相関した注意マップを生成する。
Dense-and-Implicit Attention (DIA)はSAMをレイヤ間で共有し、長期間のメモリモジュールを使用する。
我々のシンプルで効果的なDIAは、様々なネットワークバックボーンを一貫して拡張できます。
論文 参考訳(メタデータ) (2022-10-27T13:24:08Z) - dual unet:a novel siamese network for change detection with cascade
differential fusion [4.651756476458979]
本稿では,変化検出タスク,すなわちDual-UNetのための新しいSiameseニューラルネットワークを提案する。
従来のバイテンポラル画像の符号化とは対照的に,画素の空間的差分関係に着目したエンコーダ差分アテンションモジュールを設計する。
実験により、提案手法は、一般的な季節変化検出データセットにおいて、常に最も高度な手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2022-08-12T14:24:09Z) - Semantic Image Synthesis via Diffusion Models [174.24523061460704]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に事実上のGANベースのアプローチに従っている。
意味画像合成のためのDDPMに基づく新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z) - Infrared Small-Dim Target Detection with Transformer under Complex
Backgrounds [155.388487263872]
変換器を用いた赤外線小径目標検出手法を提案する。
画像特徴の相互作用情報をより広い範囲で学習するために,変換器の自己認識機構を採用する。
最小限のターゲットの機能を学習するための機能拡張モジュールも設計しています。
論文 参考訳(メタデータ) (2021-09-29T12:23:41Z) - Learnable Multi-level Frequency Decomposition and Hierarchical Attention
Mechanism for Generalized Face Presentation Attack Detection [7.324459578044212]
顔提示攻撃検知(PAD)は多くの注目を集めており、顔認識システムを保護する上で重要な役割を果たしている。
両ストリーム畳み込みニューラルネットワーク(CNN)フレームワークを提案する。
ステップワイドアブレーション研究において提案したPAD法の設計を実証した。
論文 参考訳(メタデータ) (2021-09-16T13:06:43Z) - GridDehazeNet+: An Enhanced Multi-Scale Network with Intra-Task
Knowledge Transfer for Single Image Dehazing [12.982905875008214]
GridDehazeNet+と呼ばれる強化されたマルチスケールネットワークを提案します。
プリプロセス、バックボーン、後処理の3つのモジュールで構成されている。
論文 参考訳(メタデータ) (2021-03-25T17:35:36Z) - Learning Enriched Features for Real Image Restoration and Enhancement [166.17296369600774]
畳み込みニューラルネットワーク(CNN)は、画像復元作業における従来のアプローチよりも劇的に改善されている。
ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とした,新しいアーキテクチャを提案する。
提案手法は,高解像度の空間的詳細を同時に保存しながら,複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
論文 参考訳(メタデータ) (2020-03-15T11:04:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。