Fugu-MT 論文翻訳(概要): Mask Approximation Net: Merging Feature Extraction and Distribution Learning for Remote Sensing Change Captioning

論文の概要: Mask Approximation Net: Merging Feature Extraction and Distribution Learning for Remote Sensing Change Captioning

arxiv url: http://arxiv.org/abs/2412.19179v1
Date: Thu, 26 Dec 2024 11:35:57 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-30 21:44:05.12078
Title: Mask Approximation Net: Merging Feature Extraction and Distribution Learning for Remote Sensing Change Captioning
Title（参考訳）: マスク近似ネット:リモートセンシング変更キャプションのための特徴抽出と分布学習の融合
Authors: Dongwei Sun, Xiangyong Cao,
Abstract要約: 本稿では,拡散モデルを統合したリモートセンシング画像変化検出と記述のための新しいアプローチを提案する。拡散過程において高周波ノイズを処理するために,周波数誘導型複素フィルタモジュールを導入する。いくつかのリモートセンシング変化検出記述データセットに対する提案手法の有効性を検証した。
参考スコア（独自算出の注目度）: 6.414911767727252
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Remote sensing image change description, as a novel multimodal task in the field of remote sensing processing, not only enables the detection of changes in surface conditions but also provides detailed descriptions of these changes, thereby enhancing human interpretability and interactivity. However, previous methods mainly employed Convolutional Neural Network (CNN) architectures to extract bitemporal image features. This approach often leads to an overemphasis on designing specific network architectures and limits the captured feature distributions to the current dataset, resulting in poor generalizability and robustness when applied to other datasets or real-world scenarios. To address these limitations, this paper proposes a novel approach for remote sensing image change detection and description that integrates diffusion models, aiming to shift the focus from conventional feature learning paradigms to data distribution learning. The proposed method primarily includes a simple multi-scale change detection module, whose output features are subsequently refined using a diffusion model. Additionally, we introduce a frequency-guided complex filter module to handle high-frequency noise during the diffusion process, which helps to maintain model performance. Finally, we validate the effectiveness of our proposed method on several remote sensing change detection description datasets, demonstrating its superior performance. The code available at MaskApproxNet.
Abstract（参考訳）: リモートセンシング画像変化記述は、リモートセンシング処理分野における新しいマルチモーダルタスクとして、表面状態の変化の検出を可能にするだけでなく、これらの変化の詳細な記述も提供し、人間の解釈可能性や対話性を高める。しかし、従来の手法では、主に畳み込みニューラルネットワーク(CNN)アーキテクチャを用いて、バイテンポラル画像の特徴を抽出していた。このアプローチは、特定のネットワークアーキテクチャの設計に過大評価され、キャプチャされた特徴分散を現在のデータセットに制限する。これらの制約に対処するために,従来の特徴学習パラダイムからデータ分散学習へ焦点を移すことを目的として,拡散モデルを統合したリモートセンシング画像変化検出と記述のための新しいアプローチを提案する。提案手法は主に単純なマルチスケール変化検出モジュールを含み,その後拡散モデルを用いて出力特性を洗練する。さらに,拡散過程における高周波ノイズを処理するための周波数誘導複合フィルタモジュールを導入し,モデル性能の維持に役立てる。最後に,提案手法の有効性を複数のリモートセンシング変化検出記述データセットで検証し,その性能を実証した。 MaskApproxNetで利用可能なコード。

関連論文リスト

Wavelet-Guided Dual-Frequency Encoding for Remote Sensing Change Detection [67.84730634802204]
リモートセンシング画像の変化検出は,自然災害監視,都市拡張追跡,インフラ管理など,さまざまな工学的応用において重要な役割を担っている。既存のほとんどの手法は空間領域モデリングに依存しており、特徴表現の限られた多様性は微妙な変化領域の検出を妨げる。本研究では、特にウェーブレット領域における周波数領域の特徴モデリングが周波数成分の微細な違いを増幅し、空間領域において捉えにくいエッジ変化の知覚を高めることを観察する。
論文参考訳（メタデータ） (2025-08-07T11:14:16Z)
LDGNet: A Lightweight Difference Guiding Network for Remote Sensing Change Detection [6.554696547472252]
光リモートセンシングによる変化検出を誘導する軽量差分誘導ネットワーク(LDGNet)を提案する。まず、軽量バックボーンネットワークの特徴表現能力を高めるために、差分誘導モジュール(DGM)を提案する。次に,Visual State Space Model (VSSM) を用いたDADFモジュールを提案する。
論文参考訳（メタデータ） (2025-04-07T13:33:54Z)
FreSca: Scaling in Frequency Space Enhances Diffusion Models [55.75504192166779]
本稿では,潜時拡散モデルにおける周波数制御について検討する。本稿では,低周波成分と高周波成分にノイズ差を分解する新しいフレームワークFreScaを紹介する。 FreScaはモデルの再トレーニングやアーキテクチャの変更なしに動作し、モデルとタスクに依存しない制御を提供する。
論文参考訳（メタデータ） (2025-04-02T22:03:11Z)
DiffMoE: Dynamic Token Selection for Scalable Diffusion Transformers [86.5541501589166]
DiffMoEはバッチレベルのグローバルトークンプールで、トレーニング中に専門家がグローバルトークンの配布にアクセスできるようにする。 ImageNetベンチマークの拡散モデル間での最先端のパフォーマンスを実現する。このアプローチの有効性は、クラス条件生成を超えて、テキスト・ツー・イメージ生成のようなより困難なタスクにも及んでいる。
論文参考訳（メタデータ） (2025-03-18T17:57:07Z)
A feature refinement module for light-weight semantic segmentation network [11.285793559719702]
本稿では,軽量ネットワークのセマンティック情報を得る能力を向上させるために,新しいセマンティックセマンティックセマンティクス手法を提案する。 Cityscapes と Bdd100K のデータセットを用いて,提案手法が精度と計算コストのトレードオフを期待できることを示す。
論文参考訳（メタデータ） (2024-12-11T03:31:20Z)
Effective Diffusion Transformer Architecture for Image Super-Resolution [63.254644431016345]
画像超解像のための効果的な拡散変換器(DiT-SR)を設計する。実際には、DiT-SRは全体のU字型アーキテクチャを活用し、すべての変圧器ブロックに対して均一な等方性設計を採用する。我々は、広く使われているAdaLNの制限を分析し、周波数適応型時間-ステップ条件付けモジュールを提案する。
論文参考訳（メタデータ） (2024-09-29T07:14:16Z)
Mixture-of-Noises Enhanced Forgery-Aware Predictor for Multi-Face Manipulation Detection and Localization [52.87635234206178]
本稿では,多面的操作検出と局所化に適したMoNFAPという新しいフレームワークを提案する。このフレームワークには2つの新しいモジュールが含まれている: Forgery-aware Unified Predictor (FUP) Module と Mixture-of-Noises Module (MNM)。
論文参考訳（メタデータ） (2024-08-05T08:35:59Z)
Wavelet-based Bi-dimensional Aggregation Network for SAR Image Change Detection [53.842568573251214]
3つのSARデータセットによる実験結果から、我々のWBANetは現代最先端の手法を著しく上回っていることが明らかとなった。我々のWBANetは、それぞれのデータセットで98.33%、96.65%、96.62%の正確な分類(PCC)を達成している。
論文参考訳（メタデータ） (2024-07-18T04:36:10Z)
FANet: Feature Amplification Network for Semantic Segmentation in Cluttered Background [9.970265640589966]
既存のディープラーニングアプローチでは、複雑なシナリオに存在するセマンティックセグメンテーションにおいて重要なセマンティックな方法が残されている。マルチステージ機能拡張モジュールを用いて意味情報を組み込んだバックボーンネットワークとして機能増幅ネットワーク(FANet)を提案する。実験の結果,既存の手法と比較して最先端の性能が示された。
論文参考訳（メタデータ） (2024-07-12T15:57:52Z)
ReNoise: Real Image Inversion Through Iterative Noising [62.96073631599749]
本研究では,操作数を増やすことなく,高い品質と操作率の逆転法を導入し,再現精度を向上する。我々は,近年の高速化拡散モデルを含む様々なサンプリングアルゴリズムとモデルを用いて,Renoise手法の性能を評価する。
論文参考訳（メタデータ） (2024-03-21T17:52:08Z)
Siamese Meets Diffusion Network: SMDNet for Enhanced Change Detection in High-Resolution RS Imagery [7.767708235606408]
我々は,新しいネットワークであるSiamese-U2Net Feature Differential Meets Network (SMDNet)を提案する。このネットワークは、画像エッジ変化検出の精度を向上させるために、Siam-U2Net Feature Differential (SU-FDE)とデノイング拡散暗黙モデルを組み合わせる。特徴抽出モデルと拡散モデルを組み合わせることで,リモートセンシング画像における変化検出の有効性を示す。
論文参考訳（メタデータ） (2024-01-17T16:48:55Z)
Multimodal Transformer Using Cross-Channel attention for Object Detection in Remote Sensing Images [1.662438436885552]
マルチモーダル融合は、複数のモーダルからのデータを融合することで精度を高めることが決定されている。早期に異なるチャネル間の関係をマッピングするための新しいマルチモーダル融合戦略を提案する。本手法は,中期・後期の手法とは対照的に,早期の融合に対処することにより,既存の手法と比較して,競争力や性能に優れる。
論文参考訳（メタデータ） (2023-10-21T00:56:11Z)
Unified Frequency-Assisted Transformer Framework for Detecting and Grounding Multi-Modal Manipulation [109.1912721224697]
本稿では、DGM4問題に対処するため、UFAFormerという名前のUnified Frequency-Assisted TransFormerフレームワークを提案する。離散ウェーブレット変換を利用して、画像を複数の周波数サブバンドに分解し、リッチな顔偽造品をキャプチャする。提案する周波数エンコーダは、帯域内およびバンド間自己アテンションを組み込んだもので、多種多様なサブバンド内および多種多様なフォージェリー特徴を明示的に集約する。
論文参考訳（メタデータ） (2023-09-18T11:06:42Z)
Remote Sensing Image Change Detection with Graph Interaction [1.8579693774597708]
本稿では,BGINet-CDを用いたリモートセンシングによる画像変化検出のためのバイテンポラル画像グラフインタラクションネットワークを提案する。本モデルは,GZ CDデータセット上の他の最先端手法(SOTA)と比較して,優れた性能を示す。
論文参考訳（メタデータ） (2023-07-05T03:32:49Z)
DragDiffusion: Harnessing Diffusion Models for Interactive Point-based Image Editing [94.24479528298252]
DragGANは、ピクセルレベルの精度で印象的な編集結果を実現する、インタラクティブなポイントベースの画像編集フレームワークである。大規模な事前学習拡散モデルを利用することで、実画像と拡散画像の両方における対話的点ベース編集の適用性を大幅に向上する。本稿では,対話的点ベース画像編集手法の性能を評価するため,DragBenchというベンチマークデータセットを提案する。
論文参考訳（メタデータ） (2023-06-26T06:04:09Z)
A Generic Shared Attention Mechanism for Various Backbone Neural Networks [53.36677373145012]
自己注意モジュール(SAM)は、異なる層にまたがる強い相関した注意マップを生成する。 Dense-and-Implicit Attention (DIA)はSAMをレイヤ間で共有し、長期間のメモリモジュールを使用する。我々のシンプルで効果的なDIAは、様々なネットワークバックボーンを一貫して拡張できます。
論文参考訳（メタデータ） (2022-10-27T13:24:08Z)
dual unet:a novel siamese network for change detection with cascade differential fusion [4.651756476458979]
本稿では,変化検出タスク,すなわちDual-UNetのための新しいSiameseニューラルネットワークを提案する。従来のバイテンポラル画像の符号化とは対照的に,画素の空間的差分関係に着目したエンコーダ差分アテンションモジュールを設計する。実験により、提案手法は、一般的な季節変化検出データセットにおいて、常に最も高度な手法よりも優れていることが示された。
論文参考訳（メタデータ） (2022-08-12T14:24:09Z)
Semantic Image Synthesis via Diffusion Models [174.24523061460704]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。セマンティック画像合成に関する最近の研究は、主に事実上のGANベースのアプローチに従っている。意味画像合成のためのDDPMに基づく新しいフレームワークを提案する。
論文参考訳（メタデータ） (2022-06-30T18:31:51Z)
CM-GAN: Image Inpainting with Cascaded Modulation GAN and Object-Aware Training [112.96224800952724]
複雑な画像に大きな穴をあける際の可視像構造を生成するためのカスケード変調GAN(CM-GAN)を提案する。各デコーダブロックにおいて、まず大域変調を適用し、粗い意味認識合成構造を行い、次に大域変調の出力に空間変調を適用し、空間適応的に特徴写像を更に調整する。さらに,ネットワークがホール内の新たな物体を幻覚させるのを防ぐため,実世界のシナリオにおける物体除去タスクのニーズを満たすために,オブジェクト認識型トレーニングスキームを設計する。
論文参考訳（メタデータ） (2022-03-22T16:13:27Z)
Infrared Small-Dim Target Detection with Transformer under Complex Backgrounds [155.388487263872]
変換器を用いた赤外線小径目標検出手法を提案する。画像特徴の相互作用情報をより広い範囲で学習するために,変換器の自己認識機構を採用する。最小限のターゲットの機能を学習するための機能拡張モジュールも設計しています。
論文参考訳（メタデータ） (2021-09-29T12:23:41Z)
Learnable Multi-level Frequency Decomposition and Hierarchical Attention Mechanism for Generalized Face Presentation Attack Detection [7.324459578044212]
顔提示攻撃検知(PAD)は多くの注目を集めており、顔認識システムを保護する上で重要な役割を果たしている。両ストリーム畳み込みニューラルネットワーク(CNN)フレームワークを提案する。ステップワイドアブレーション研究において提案したPAD法の設計を実証した。
論文参考訳（メタデータ） (2021-09-16T13:06:43Z)
Deep Variational Models for Collaborative Filtering-based Recommender Systems [63.995130144110156]
ディープラーニングは、リコメンダシステムの結果を改善するために、正確な協調フィルタリングモデルを提供する。提案するモデルは, 深層建築の潜伏空間において, 変分概念を注入性に適用する。提案手法は, 入射雑音効果を超える変動エンリッチメントのシナリオにおいて, 提案手法の優位性を示す。
論文参考訳（メタデータ） (2021-07-27T08:59:39Z)
GridDehazeNet+: An Enhanced Multi-Scale Network with Intra-Task Knowledge Transfer for Single Image Dehazing [12.982905875008214]
GridDehazeNet+と呼ばれる強化されたマルチスケールネットワークを提案します。プリプロセス、バックボーン、後処理の3つのモジュールで構成されている。
論文参考訳（メタデータ） (2021-03-25T17:35:36Z)
Learning Enriched Features for Real Image Restoration and Enhancement [166.17296369600774]
畳み込みニューラルネットワーク(CNN)は、画像復元作業における従来のアプローチよりも劇的に改善されている。ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とした,新しいアーキテクチャを提案する。提案手法は,高解像度の空間的詳細を同時に保存しながら,複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
論文参考訳（メタデータ） (2020-03-15T11:04:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。