論文の概要: Mask Approximation Net: Merging Feature Extraction and Distribution Learning for Remote Sensing Change Captioning
- arxiv url: http://arxiv.org/abs/2412.19179v1
- Date: Thu, 26 Dec 2024 11:35:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-30 17:29:18.731004
- Title: Mask Approximation Net: Merging Feature Extraction and Distribution Learning for Remote Sensing Change Captioning
- Title(参考訳): マスク近似ネット:リモートセンシング変更キャプションのための特徴抽出と分布学習の融合
- Authors: Dongwei Sun, Xiangyong Cao,
- Abstract要約: 本稿では,拡散モデルを統合したリモートセンシング画像変化検出と記述のための新しいアプローチを提案する。
拡散過程において高周波ノイズを処理するために,周波数誘導型複素フィルタモジュールを導入する。
いくつかのリモートセンシング変化検出記述データセットに対する提案手法の有効性を検証した。
- 参考スコア(独自算出の注目度): 6.414911767727252
- License:
- Abstract: Remote sensing image change description, as a novel multimodal task in the field of remote sensing processing, not only enables the detection of changes in surface conditions but also provides detailed descriptions of these changes, thereby enhancing human interpretability and interactivity. However, previous methods mainly employed Convolutional Neural Network (CNN) architectures to extract bitemporal image features. This approach often leads to an overemphasis on designing specific network architectures and limits the captured feature distributions to the current dataset, resulting in poor generalizability and robustness when applied to other datasets or real-world scenarios. To address these limitations, this paper proposes a novel approach for remote sensing image change detection and description that integrates diffusion models, aiming to shift the focus from conventional feature learning paradigms to data distribution learning. The proposed method primarily includes a simple multi-scale change detection module, whose output features are subsequently refined using a diffusion model. Additionally, we introduce a frequency-guided complex filter module to handle high-frequency noise during the diffusion process, which helps to maintain model performance. Finally, we validate the effectiveness of our proposed method on several remote sensing change detection description datasets, demonstrating its superior performance. The code available at MaskApproxNet.
- Abstract(参考訳): リモートセンシング画像変化記述は、リモートセンシング処理分野における新しいマルチモーダルタスクとして、表面状態の変化の検出を可能にするだけでなく、これらの変化の詳細な記述も提供し、人間の解釈可能性や対話性を高める。
しかし、従来の手法では、主に畳み込みニューラルネットワーク(CNN)アーキテクチャを用いて、バイテンポラル画像の特徴を抽出していた。
このアプローチは、特定のネットワークアーキテクチャの設計に過大評価され、キャプチャされた特徴分散を現在のデータセットに制限する。
これらの制約に対処するために,従来の特徴学習パラダイムからデータ分散学習へ焦点を移すことを目的として,拡散モデルを統合したリモートセンシング画像変化検出と記述のための新しいアプローチを提案する。
提案手法は主に単純なマルチスケール変化検出モジュールを含み,その後拡散モデルを用いて出力特性を洗練する。
さらに,拡散過程における高周波ノイズを処理するための周波数誘導複合フィルタモジュールを導入し,モデル性能の維持に役立てる。
最後に,提案手法の有効性を複数のリモートセンシング変化検出記述データセットで検証し,その性能を実証した。
MaskApproxNetで利用可能なコード。
関連論文リスト
- Unsupervised Modality Adaptation with Text-to-Image Diffusion Models for Semantic Segmentation [54.96563068182733]
セグメンテーションタスクのためのテキスト・ツー・イメージ拡散モデル(MADM)を用いたモダリティ適応を提案する。
MADMは、広範囲な画像とテキストのペアで事前訓練されたテキストと画像の拡散モデルを使用して、モデルの相互モダリティ能力を向上する。
我々は,MADMが画像から深度,赤外線,イベントのモダリティといった様々なモダリティタスクにまたがって,最先端の適応性能を実現することを示す。
論文 参考訳(メタデータ) (2024-10-29T03:49:40Z) - Effective Diffusion Transformer Architecture for Image Super-Resolution [63.254644431016345]
画像超解像のための効果的な拡散変換器(DiT-SR)を設計する。
実際には、DiT-SRは全体のU字型アーキテクチャを活用し、すべての変圧器ブロックに対して均一な等方性設計を採用する。
我々は、広く使われているAdaLNの制限を分析し、周波数適応型時間-ステップ条件付けモジュールを提案する。
論文 参考訳(メタデータ) (2024-09-29T07:14:16Z) - Novel Change Detection Framework in Remote Sensing Imagery Using Diffusion Models and Structural Similarity Index (SSIM) [0.0]
変化検出はリモートセンシングにおいて重要な課題であり、環境変化、都市の成長、災害影響のモニタリングを可能にする。
近年の機械学習、特に拡散モデルのような生成モデルの発展は、変化検出精度を高める新たな機会を提供する。
本稿では,安定拡散モデルの強度と構造類似度指数(SSIM)を組み合わせ,頑健で解釈可能な変化マップを作成する新しい変化検出フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-20T07:54:08Z) - Mixture-of-Noises Enhanced Forgery-Aware Predictor for Multi-Face Manipulation Detection and Localization [52.87635234206178]
本稿では,多面的操作検出と局所化に適したMoNFAPという新しいフレームワークを提案する。
このフレームワークには2つの新しいモジュールが含まれている: Forgery-aware Unified Predictor (FUP) Module と Mixture-of-Noises Module (MNM)。
論文 参考訳(メタデータ) (2024-08-05T08:35:59Z) - ReNoise: Real Image Inversion Through Iterative Noising [62.96073631599749]
本研究では,操作数を増やすことなく,高い品質と操作率の逆転法を導入し,再現精度を向上する。
我々は,近年の高速化拡散モデルを含む様々なサンプリングアルゴリズムとモデルを用いて,Renoise手法の性能を評価する。
論文 参考訳(メタデータ) (2024-03-21T17:52:08Z) - Multimodal Transformer Using Cross-Channel attention for Object Detection in Remote Sensing Images [1.662438436885552]
マルチモーダル融合は、複数のモーダルからのデータを融合することで精度を高めることが決定されている。
早期に異なるチャネル間の関係をマッピングするための新しいマルチモーダル融合戦略を提案する。
本手法は,中期・後期の手法とは対照的に,早期の融合に対処することにより,既存の手法と比較して,競争力や性能に優れる。
論文 参考訳(メタデータ) (2023-10-21T00:56:11Z) - Unified Frequency-Assisted Transformer Framework for Detecting and
Grounding Multi-Modal Manipulation [109.1912721224697]
本稿では、DGM4問題に対処するため、UFAFormerという名前のUnified Frequency-Assisted TransFormerフレームワークを提案する。
離散ウェーブレット変換を利用して、画像を複数の周波数サブバンドに分解し、リッチな顔偽造品をキャプチャする。
提案する周波数エンコーダは、帯域内およびバンド間自己アテンションを組み込んだもので、多種多様なサブバンド内および多種多様なフォージェリー特徴を明示的に集約する。
論文 参考訳(メタデータ) (2023-09-18T11:06:42Z) - Remote Sensing Image Change Detection with Graph Interaction [1.8579693774597708]
本稿では,BGINet-CDを用いたリモートセンシングによる画像変化検出のためのバイテンポラル画像グラフインタラクションネットワークを提案する。
本モデルは,GZ CDデータセット上の他の最先端手法(SOTA)と比較して,優れた性能を示す。
論文 参考訳(メタデータ) (2023-07-05T03:32:49Z) - DragDiffusion: Harnessing Diffusion Models for Interactive Point-based Image Editing [94.24479528298252]
DragGANは、ピクセルレベルの精度で印象的な編集結果を実現する、インタラクティブなポイントベースの画像編集フレームワークである。
大規模な事前学習拡散モデルを利用することで、実画像と拡散画像の両方における対話的点ベース編集の適用性を大幅に向上する。
本稿では,対話的点ベース画像編集手法の性能を評価するため,DragBenchというベンチマークデータセットを提案する。
論文 参考訳(メタデータ) (2023-06-26T06:04:09Z) - Learnable Multi-level Frequency Decomposition and Hierarchical Attention
Mechanism for Generalized Face Presentation Attack Detection [7.324459578044212]
顔提示攻撃検知(PAD)は多くの注目を集めており、顔認識システムを保護する上で重要な役割を果たしている。
両ストリーム畳み込みニューラルネットワーク(CNN)フレームワークを提案する。
ステップワイドアブレーション研究において提案したPAD法の設計を実証した。
論文 参考訳(メタデータ) (2021-09-16T13:06:43Z) - GridDehazeNet+: An Enhanced Multi-Scale Network with Intra-Task
Knowledge Transfer for Single Image Dehazing [12.982905875008214]
GridDehazeNet+と呼ばれる強化されたマルチスケールネットワークを提案します。
プリプロセス、バックボーン、後処理の3つのモジュールで構成されている。
論文 参考訳(メタデータ) (2021-03-25T17:35:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。