Fugu-MT 論文翻訳(概要): Multi-modal land cover mapping of remote sensing images using pyramid attention and gated fusion networks

論文の概要: Multi-modal land cover mapping of remote sensing images using pyramid attention and gated fusion networks

arxiv url: http://arxiv.org/abs/2111.03845v1
Date: Sat, 6 Nov 2021 10:01:01 GMT
ステータス: 翻訳完了
システム内更新日: 2021-11-09 16:39:54.069070
Title: Multi-modal land cover mapping of remote sensing images using pyramid attention and gated fusion networks
Title（参考訳）: ピラミッドアテンションとゲート融合ネットワークを用いたリモートセンシング画像のマルチモーダル土地被覆マッピング
Authors: Qinghui Liu, Michael Kampffmeyer, Robert Jenssen and Arnt-B{\o}rre Salberg
Abstract要約: 本稿では、新しいピラミッド注意融合(PAF)モジュールとゲート融合ユニット(GFU)に基づくマルチモーダルリモートセンシングデータの土地被覆マッピングのための新しいマルチモーダルネットワークを提案する。 PAFモジュールは、内蔵のクロスレベルおよびクロスビューアテンション融合機構により、各モードからより微細なコンテキスト表現を効率的に得るように設計されている。 GFUモジュールは、新機能の早期マージに新しいゲーティング機構を使用し、隠れた冗長性とノイズを減少させる。
参考スコア（独自算出の注目度）: 20.66034058363032
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Multi-modality data is becoming readily available in remote sensing (RS) and can provide complementary information about the Earth's surface. Effective fusion of multi-modal information is thus important for various applications in RS, but also very challenging due to large domain differences, noise, and redundancies. There is a lack of effective and scalable fusion techniques for bridging multiple modality encoders and fully exploiting complementary information. To this end, we propose a new multi-modality network (MultiModNet) for land cover mapping of multi-modal remote sensing data based on a novel pyramid attention fusion (PAF) module and a gated fusion unit (GFU). The PAF module is designed to efficiently obtain rich fine-grained contextual representations from each modality with a built-in cross-level and cross-view attention fusion mechanism, and the GFU module utilizes a novel gating mechanism for early merging of features, thereby diminishing hidden redundancies and noise. This enables supplementary modalities to effectively extract the most valuable and complementary information for late feature fusion. Extensive experiments on two representative RS benchmark datasets demonstrate the effectiveness, robustness, and superiority of the MultiModNet for multi-modal land cover classification.
Abstract（参考訳）: マルチモダリティデータはリモートセンシング(RS)で容易に利用でき、地球表面に関する補完的な情報を提供することができる。したがって、マルチモーダル情報の効果的な融合は、RSの様々なアプリケーションにとって重要であるが、大きなドメイン差、ノイズ、冗長性のために非常に難しい。複数のモダリティエンコーダをブリッジし、補完情報を完全に活用するための効果的でスケーラブルな融合技術がない。そこで本研究では,新しいピラミッド注意融合(PAF)モジュールとゲート融合ユニット(GFU)に基づくマルチモーダルリモートセンシングデータのランドカバーマッピングのためのマルチモーダルネットワーク(MultiModNet)を提案する。 PAFモジュールは、内蔵のクロスレベルおよびクロスビューアテンション融合機構により、各モードからよりきめ細かいコンテキスト表現を効率的に得るように設計されており、GFUモジュールは、特徴の早期にマージするための新しいゲーティング機構を利用して、隠れた冗長性とノイズを低減している。これにより、補助的モダリティは、後期特徴融合の最も価値ある補完的情報を効果的に抽出することができる。 2つのrsベンチマークデータセットに関する広範な実験は、マルチモーダル土地被覆分類におけるマルチモデネットの有効性、ロバスト性、優越性を示している。

関連論文リスト

Prototype-Based Information Compensation Network for Multi-Source Remote Sensing Data Classification [56.065032039986725]
マルチソースリモートセンシングデータ共同分類は、土地被覆分類の精度と信頼性を提供することを目的としている。既存の手法では、周波数間マルチソース特徴結合と相補的な情報探索の不整合という2つの課題に直面している。 HSIとSAR/LiDARデータに基づく土地被覆分類のためのプロトタイプベース情報補償ネットワーク(PICNet)を提案する。
論文参考訳（メタデータ） (2025-05-06T22:30:23Z)
Multimodal-Aware Fusion Network for Referring Remote Sensing Image Segmentation [7.992331117310217]
リモートセンシング画像セグメンテーション(RRSIS)は、リモートセンシング画像セグメンテーションにおける新しい視覚課題である。我々は,2つのモード間の微粒なアライメントと融合を実現するために,マルチモーダル・アウェア・フュージョン・ネットワーク(MAFN)を設計する。
論文参考訳（メタデータ） (2025-03-14T08:31:21Z)
Multimodality Helps Few-Shot 3D Point Cloud Semantic Segmentation [61.91492500828508]
FS-PCS (Few-shot 3D point cloud segmentation) は、最小のサポートサンプルで新しいカテゴリを分割するモデルを一般化することを目的としている。本稿では,テキストラベルと潜在的に利用可能な2次元画像モダリティを利用して,コストフリーのマルチモーダルFS-PCSセットアップを提案する。トレーニングバイアスを軽減するため,テスト時間適応型クロスモーダルセグ(TACC)技術を提案する。
論文参考訳（メタデータ） (2024-10-29T19:28:41Z)
Part-Whole Relational Fusion Towards Multi-Modal Scene Understanding [51.96911650437978]
マルチモーダル融合はマルチモーダルシーン理解において重要な役割を担っている。既存のほとんどの手法は、2つのモダリティを含むクロスモーダル融合に焦点を当てており、しばしばより複雑なマルチモーダル融合を見落としている。マルチモーダルシーン理解のためのPWRF(Relational Part-Whole Fusion)フレームワークを提案する。
論文参考訳（メタデータ） (2024-10-19T02:27:30Z)
MANet: Fine-Tuning Segment Anything Model for Multimodal Remote Sensing Semantic Segmentation [8.443065903814821]
本研究では,マルチモーダルリモートセマンティックセマンティックセマンティックセグメンテーションのための新しいマルチモーダルアダプタベースネットワーク(MANet)を提案する。このアプローチのコアとなるのは、SAMのイメージエンコーダを微調整して、マルチモーダルデータに対するモデルの一般的な知識を効果的に活用するMultimodal Adapter(MMAdapter)の開発である。この研究は、マルチモーダル核融合のための新しいネットワークを導入するだけでなく、SAMのDSM(Digital Surface Model)データによる強力な一般化能力も初めて示した。
論文参考訳（メタデータ） (2024-10-15T00:52:16Z)
PVAFN: Point-Voxel Attention Fusion Network with Multi-Pooling Enhancing for 3D Object Detection [59.355022416218624]
点とボクセルの表現の統合は、LiDARベースの3Dオブジェクト検出においてより一般的になりつつある。 PVAFN(Point-Voxel Attention Fusion Network)と呼ばれる新しい2段3次元物体検出器を提案する。 PVAFNはマルチプール戦略を使用して、マルチスケールとリージョン固有の情報を効果的に統合する。
論文参考訳（メタデータ） (2024-08-26T19:43:01Z)
A Semantic-Aware and Multi-Guided Network for Infrared-Visible Image Fusion [41.34335755315773]
マルチモダリティ画像融合は、2つのソース画像から特定のモダリティ情報と共有モダリティ情報を融合することを目的としている。本稿では,3分岐エンコーダデコーダアーキテクチャと,それに対応する融合層を融合戦略として提案する。可視・近赤外画像融合および医用画像融合タスクにおける最先端手法と比較して,本手法は競争力のある結果を得た。
論文参考訳（メタデータ） (2024-06-11T09:32:40Z)
LMFNet: An Efficient Multimodal Fusion Approach for Semantic Segmentation in High-Resolution Remote Sensing [25.016421338677816]
現在のメソッドは2種類のデータしか処理せず、追加のモダリティが提供できる豊富な情報を欠いていることが多い。我々は,新しい textbfLightweight textbfMultimodal data textbfFusion textbfNetwork (LMFNet) を提案する。 LMFNetは、RGB、NirRG、DSMを含む様々なデータタイプを、重量共有型マルチブランチ・ビジョン・トランスフォーマーで同時に対応している。
論文参考訳（メタデータ） (2024-04-21T13:29:42Z)
Multimodal Informative ViT: Information Aggregation and Distribution for Hyperspectral and LiDAR Classification [25.254816993934746]
Multimodal Informative Vit (MIVit) は革新的な情報集約配信機構を備えたシステムである。 MIVitは、各モードの分離されたおよび融合された特徴の実験的分布における冗長性を減少させる。以上の結果から,MIVitの双方向凝集分配機構は極めて有効であることが示唆された。
論文参考訳（メタデータ） (2024-01-06T09:53:33Z)
HiDAnet: RGB-D Salient Object Detection via Hierarchical Depth Awareness [2.341385717236931]
本稿では,RGB-Dサリエンシ検出のための階層的深度認識ネットワーク(HiDAnet)を提案する。我々のモチベーションは、幾何学的先行の多粒性特性がニューラルネットワーク階層とよく相関しているという観察から来ています。当社のHiDAnetは最先端の手法よりも大きなマージンで良好に動作します。
論文参考訳（メタデータ） (2023-01-18T10:00:59Z)
Transformer-based Network for RGB-D Saliency Detection [82.6665619584628]
RGB-Dサリエンシ検出の鍵は、2つのモードにわたる複数のスケールで情報を完全なマイニングとヒューズすることである。コンバータは機能融合と機能拡張の両面において高い有効性を示す一様操作であることを示す。提案するネットワークは,最先端のRGB-D値検出手法に対して良好に動作する。
論文参考訳（メタデータ） (2021-12-01T15:53:58Z)
Specificity-preserving RGB-D Saliency Detection [103.3722116992476]
本稿では,RGB-Dサリエンシ検出のための特異性保存ネットワーク(SP-Net)を提案する。 2つのモダリティ特化ネットワークと共有学習ネットワークを採用し、個別および共有唾液マップを生成する。 6つのベンチマークデータセットの実験では、SP-Netは他の最先端の手法よりも優れています。
論文参考訳（メタデータ） (2021-08-18T14:14:22Z)
Efficient Human Pose Estimation by Learning Deeply Aggregated Representations [67.24496300046255]
深く集約された表現を学習することで、効率的な人間ポーズ推定ネットワーク(DANet)を提案する。私たちのネットワークは、より小さなモデルの複雑さで、同等またはより良い精度を達成できます。
論文参考訳（メタデータ） (2020-12-13T10:58:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。