論文の概要: P-MSDiff: Parallel Multi-Scale Diffusion for Remote Sensing Image Segmentation
- arxiv url: http://arxiv.org/abs/2405.20443v2
- Date: Wed, 24 Jul 2024 07:34:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-25 18:41:39.478342
- Title: P-MSDiff: Parallel Multi-Scale Diffusion for Remote Sensing Image Segmentation
- Title(参考訳): P-MSDiff:リモートセンシング画像分割のための並列多スケール拡散
- Authors: Qi Zhang, Guohua Geng, Longquan Yan, Pengbo Zhou, Zhaodi Li, Kang Li, Qinglin Liu,
- Abstract要約: 拡散モデルとマルチスケール機能はセグメンテーションタスクにおいて不可欠な要素である。
並列なマルチスケール分岐を持つ拡散モデルとして知られるセマンティックセグメンテーションの新しいモデルを提案する。
我々のモデルは、UAVidとVayhingen Buildingのデータセットに基づいて、J1測定値に基づいて、優れたパフォーマンスを示す。
- 参考スコア(独自算出の注目度): 8.46409964236009
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models and multi-scale features are essential components in semantic segmentation tasks that deal with remote-sensing images. They contribute to improved segmentation boundaries and offer significant contextual information. U-net-like architectures are frequently employed in diffusion models for segmentation tasks. These architectural designs include dense skip connections that may pose challenges for interpreting intermediate features. Consequently, they might not efficiently convey semantic information throughout various layers of the encoder-decoder architecture. To address these challenges, we propose a new model for semantic segmentation known as the diffusion model with parallel multi-scale branches. This model consists of Parallel Multiscale Diffusion modules (P-MSDiff) and a Cross-Bridge Linear Attention mechanism (CBLA). P-MSDiff enhances the understanding of semantic information across multiple levels of granularity and detects repetitive distribution data through the integration of recursive denoising branches. It further facilitates the amalgamation of data by connecting relevant branches to the primary framework to enable concurrent denoising. Furthermore, within the interconnected transformer architecture, the LA module has been substituted with the CBLA module. This module integrates a semidefinite matrix linked to the query into the dot product computation of keys and values. This integration enables the adaptation of queries within the LA framework. This adjustment enhances the structure for multi-head attention computation, leading to enhanced network performance and CBLA is a plug-and-play module. Our model demonstrates superior performance based on the J1 metric on both the UAVid and Vaihingen Building datasets, showing improvements of 1.60% and 1.40% over strong baseline models, respectively.
- Abstract(参考訳): 拡散モデルとマルチスケール機能は、リモートセンシング画像を扱うセマンティックセグメンテーションタスクにおいて必須のコンポーネントである。
セグメンテーション境界の改善に寄与し、重要なコンテキスト情報を提供する。
U-netのようなアーキテクチャは、分割タスクの拡散モデルによく使用される。
これらのアーキテクチャ設計には、中間的特徴の解釈に困難をもたらす可能性のある、密集したスキップ接続が含まれる。
したがって、エンコーダ・デコーダアーキテクチャの様々な層で意味情報を効率的に伝達することはできない。
これらの課題に対処するために、並列なマルチスケール分岐を持つ拡散モデルとして知られるセマンティックセグメンテーションの新しいモデルを提案する。
このモデルは並列多スケール拡散モジュール(P-MSDiff)とクロスブリッジ線形注意機構(CBLA)から構成される。
P-MSDiffは、複数のレベルの粒度にわたる意味情報の理解を強化し、再帰的分枝の統合を通じて反復的な分布データを検出する。
さらに、関連するブランチをプライマリフレームワークに接続することで、データのアマルガミエーションを促進し、コンカレントな denoising を可能にする。
さらに、相互接続型トランスアーキテクチャでは、LAモジュールはCBLAモジュールに置き換えられている。
このモジュールは、クエリにリンクされた半定値行列を、キーと値のドット積計算に統合する。
この統合により、LAフレームワーク内のクエリの適応が可能になる。
この調整により、マルチヘッドアテンション計算の構造が強化され、ネットワーク性能が向上し、CBLAはプラグアンドプレイモジュールである。
我々のモデルは、UAVidとVayhingen Buildingのデータセットに基づいてJ1測定値に基づいて、優れたパフォーマンスを示し、それぞれ強力なベースラインモデルよりも1.60%と1.40%の改善を示している。
関連論文リスト
- Brain-Inspired Stepwise Patch Merging for Vision Transformers [6.108377966393714]
本稿では,ステップワイズ・パッチ・マージ(SPM)と呼ばれる新しい手法を提案する。
ImageNet-1K、COCO、ADE20Kなどのベンチマークデータセットで実施された大規模な実験は、SPMが様々なモデルの性能を大幅に改善することを示した。
論文 参考訳(メタデータ) (2024-09-11T03:04:46Z) - Local-to-Global Cross-Modal Attention-Aware Fusion for HSI-X Semantic Segmentation [19.461033552684576]
HSI-X分類のためのローカル・グローバル・クロスモーダル・アテンション・アウェア・フュージョン(LoGoCAF)フレームワークを提案する。
LoGoCAFは、HSIとXのモダリティから情報を学ぶために、ピクセルからピクセルまでのセマンティックセマンティックセマンティックセマンティクスアーキテクチャを採用している。
論文 参考訳(メタデータ) (2024-06-25T16:12:20Z) - DiffVein: A Unified Diffusion Network for Finger Vein Segmentation and
Authentication [50.017055360261665]
DiffVeinは、静脈分割と認証タスクを同時に処理する統合拡散モデルベースのフレームワークである。
これら2つのブランチ間の機能相互作用を改善するために,2つの特別なモジュールを導入する。
このようにして、我々のフレームワークは拡散とセグメンテーションの埋め込みの間の動的相互作用を可能にする。
論文 参考訳(メタデータ) (2024-02-03T06:49:42Z) - Hi-ResNet: Edge Detail Enhancement for High-Resolution Remote Sensing Segmentation [10.919956120261539]
高分解能リモートセンシング(HRS)セマンティックセマンティクスは、高分解能カバレッジ領域からキーオブジェクトを抽出する。
HRS画像内の同じカテゴリのオブジェクトは、多様な地理的環境におけるスケールと形状の顕著な違いを示す。
効率的なネットワーク構造を持つ高分解能リモートセンシングネットワーク(Hi-ResNet)を提案する。
論文 参考訳(メタデータ) (2023-05-22T03:58:25Z) - SIM-Trans: Structure Information Modeling Transformer for Fine-grained
Visual Categorization [59.732036564862796]
本稿では,オブジェクト構造情報を変換器に組み込んだSIM-Trans(Structure Information Modeling Transformer)を提案する。
提案した2つのモジュールは軽量化されており、任意のトランスフォーマーネットワークにプラグインでき、エンドツーエンドで容易に訓練できる。
実験と解析により,提案したSIM-Transが細粒度視覚分類ベンチマークの最先端性能を達成することを示した。
論文 参考訳(メタデータ) (2022-08-31T03:00:07Z) - Multi-scale and Cross-scale Contrastive Learning for Semantic
Segmentation [5.281694565226513]
セグメンテーションネットワークによって抽出されたマルチスケール特徴の識別能力を高めるために,コントラスト学習を適用した。
まず、エンコーダのマルチスケール表現を共通の特徴空間にマッピングすることにより、教師付き局所言語制約の新しい形式をインスタンス化する。
論文 参考訳(メタデータ) (2022-03-25T01:24:24Z) - DeMFI: Deep Joint Deblurring and Multi-Frame Interpolation with
Flow-Guided Attentive Correlation and Recursive Boosting [50.17500790309477]
DeMFI-Netは、共同でデブロアリングとマルチフレームのフレームワークである。
低フレームレートのぼやけたビデオを高フレームレートでシャープなビデオに変換する。
多様なデータセットに対して、最先端(SOTA)のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-11-19T00:00:15Z) - Boosting Few-shot Semantic Segmentation with Transformers [81.43459055197435]
TRansformer-based Few-shot Semantic segmentation Method (TRFS)
我々のモデルは,グローバル・エンハンスメント・モジュール(GEM)とローカル・エンハンスメント・モジュール(LEM)の2つのモジュールから構成される。
論文 参考訳(メタデータ) (2021-08-04T20:09:21Z) - CaEGCN: Cross-Attention Fusion based Enhanced Graph Convolutional
Network for Clustering [51.62959830761789]
クロスアテンションに基づくディープクラスタリングフレームワークCross-Attention Fusion based Enhanced Graph Convolutional Network (CaEGCN)を提案する。
CaEGCNには、クロスアテンション融合、Content Auto-Encoder、Graph Convolutional Auto-Encoder、および自己監視モデルという4つの主要なモジュールが含まれている。
異なるタイプのデータセットに対する実験結果は、提案したCaEGCNの優位性とロバスト性を証明する。
論文 参考訳(メタデータ) (2021-01-18T05:21:59Z) - Sequential Hierarchical Learning with Distribution Transformation for
Image Super-Resolution [83.70890515772456]
画像SRのための逐次階層学習型超解像ネットワーク(SHSR)を構築した。
特徴のスケール間相関を考察し、階層的情報を段階的に探索するシーケンシャルなマルチスケールブロック(SMB)を考案する。
実験結果から,SHSRは最先端手法に優れた定量的性能と視覚的品質が得られることが示された。
論文 参考訳(メタデータ) (2020-07-19T01:35:53Z) - Encoder-Decoder Based Convolutional Neural Networks with
Multi-Scale-Aware Modules for Crowd Counting [6.893512627479196]
正確かつ効率的な群集カウントのための2つの修正ニューラルネットワークを提案する。
最初のモデルはM-SFANetと名付けられ、アラス空間ピラミッドプール(ASPP)とコンテキスト認識モジュール(CAN)が付属している。
第2のモデルはM-SegNetと呼ばれ、SFANetの双線形アップサンプリングをSegNetで使用される最大アンプールに置き換えることで生成される。
論文 参考訳(メタデータ) (2020-03-12T03:00:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。