論文の概要: Frequency-Aware Vision-Language Multimodality Generalization Network for Remote Sensing Image Classification
- arxiv url: http://arxiv.org/abs/2511.10774v1
- Date: Thu, 13 Nov 2025 19:52:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 22:42:18.318018
- Title: Frequency-Aware Vision-Language Multimodality Generalization Network for Remote Sensing Image Classification
- Title(参考訳): リモートセンシング画像分類のための周波数対応ビジョンランゲージ多モード一般化ネットワーク
- Authors: Junjie Zhang, Feng Zhao, Hanqiang Liu, Jun Yu,
- Abstract要約: RS多モード一般化(RSMG)を学習パラダイムとして定式化する。
RS画像分類のための周波数対応視覚言語多モード一般化ネットワーク(FVMGN)を提案する。
- 参考スコア(独自算出の注目度): 23.481207716722082
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The booming remote sensing (RS) technology is giving rise to a novel multimodality generalization task, which requires the model to overcome data heterogeneity while possessing powerful cross-scene generalization ability. Moreover, most vision-language models (VLMs) usually describe surface materials in RS images using universal texts, lacking proprietary linguistic prior knowledge specific to different RS vision modalities. In this work, we formalize RS multimodality generalization (RSMG) as a learning paradigm, and propose a frequency-aware vision-language multimodality generalization network (FVMGN) for RS image classification. Specifically, a diffusion-based training-test-time augmentation (DTAug) strategy is designed to reconstruct multimodal land-cover distributions, enriching input information for FVMGN. Following that, to overcome multimodal heterogeneity, a multimodal wavelet disentanglement (MWDis) module is developed to learn cross-domain invariant features by resampling low and high frequency components in the frequency domain. Considering the characteristics of RS vision modalities, shared and proprietary class texts is designed as linguistic inputs for the transformer-based text encoder to extract diverse text features. For multimodal vision inputs, a spatial-frequency-aware image encoder (SFIE) is constructed to realize local-global feature reconstruction and representation. Finally, a multiscale spatial-frequency feature alignment (MSFFA) module is suggested to construct a unified semantic space, ensuring refined multiscale alignment of different text and vision features in spatial and frequency domains. Extensive experiments show that FVMGN has the excellent multimodality generalization ability compared with state-of-the-art (SOTA) methods.
- Abstract(参考訳): 爆発的なリモートセンシング(RS)技術は、強力なクロスシーンの一般化能力を持ちながら、データ不均一性を克服する必要のある、新しい多モード一般化タスクを生み出している。
さらに、ほとんどの視覚言語モデル(VLM)は、普通、普遍的なテキストを用いてRS画像の表面物質を記述し、異なるRS視覚モダリティに特有の独自の言語的事前知識を欠いている。
本研究では、学習パラダイムとしてRSマルチモーダリティ一般化(RSMG)を定式化し、RS画像分類のための周波数対応視覚言語多モーダリティ一般化ネットワーク(FVMGN)を提案する。
具体的には、FVMGNの入力情報を強化し、多モードの土地被覆分布を再構築する拡散型トレーニング-テスト-タイム拡張(DTAug)戦略を設計する。
その後、マルチモーダルな不均一性を克服するため、周波数領域内の低周波成分と高周波成分を再サンプリングすることにより、クロスドメイン不変性を学習するマルチモーダルウェーブレット・ディアンタングメント(MWDis)モジュールを開発した。
RSビジョンのモダリティの特徴を考慮すると、共有およびプロプライエタリなクラステキストはトランスフォーマーベースのテキストエンコーダの言語入力として設計され、多様なテキスト特徴を抽出する。
マルチモーダル視覚入力では、局所的特徴再構成と表現を実現するために、空間周波数対応画像エンコーダ(SFIE)が構築される。
最後に,マルチスケールな空間周波数特徴アライメント(MSFFA)モジュールが提案され,空間領域と周波数領域における異なるテキストおよび視覚特徴のマルチスケールアライメントを確保する。
大規模な実験により、FVMGNは最先端(SOTA)法と比較して優れた多モード一般化能力を有することが示された。
関連論文リスト
- Wavelet-Guided Dual-Frequency Encoding for Remote Sensing Change Detection [67.84730634802204]
リモートセンシング画像の変化検出は,自然災害監視,都市拡張追跡,インフラ管理など,さまざまな工学的応用において重要な役割を担っている。
既存のほとんどの手法は空間領域モデリングに依存しており、特徴表現の限られた多様性は微妙な変化領域の検出を妨げる。
本研究では、特にウェーブレット領域における周波数領域の特徴モデリングが周波数成分の微細な違いを増幅し、空間領域において捉えにくいエッジ変化の知覚を高めることを観察する。
論文 参考訳(メタデータ) (2025-08-07T11:14:16Z) - MGCR-Net:Multimodal Graph-Conditioned Vision-Language Reconstruction Network for Remote Sensing Change Detection [55.702662643521265]
マルチモーダルデータのセマンティックインタラクション機能を検討するために,マルチモーダルグラフ条件付き視覚言語再構成ネットワーク(MGCR-Net)を提案する。
4つの公開データセットによる実験結果から,MGCRは主流CD法に比べて優れた性能を示した。
論文 参考訳(メタデータ) (2025-08-03T02:50:08Z) - EarthGPT-X: A Spatial MLLM for Multi-level Multi-Source Remote Sensing Imagery Understanding with Visual Prompting [46.44805092655782]
EarthGPT-Xは、マルチソースRS画像の理解を統一する最初のフレキシブル空間MLLMである。
1つのフレームワークで様々な視覚的プロンプトの下で、粗い粒度ときめ細かな視覚的タスクを達成します。
論文 参考訳(メタデータ) (2025-04-17T09:56:35Z) - Multimodal-Aware Fusion Network for Referring Remote Sensing Image Segmentation [7.992331117310217]
リモートセンシング画像セグメンテーション(RRSIS)は、リモートセンシング画像セグメンテーションにおける新しい視覚課題である。
我々は,2つのモード間の微粒なアライメントと融合を実現するために,マルチモーダル・アウェア・フュージョン・ネットワーク(MAFN)を設計する。
論文 参考訳(メタデータ) (2025-03-14T08:31:21Z) - RSUniVLM: A Unified Vision Language Model for Remote Sensing via Granularity-oriented Mixture of Experts [17.76606110070648]
複数の粒度にまたがる包括的視覚理解のための統一型エンドツーエンドRS VLMであるRSUniVLMを提案する。
RSUniVLMは、変更検出や変更キャプションのインスタンスを含む、マルチイメージ解析において効果的に機能する。
また、RSと一般ドメインの両方の既存のデータセットに基づいて、大規模なRS命令追従データセットを構築した。
論文 参考訳(メタデータ) (2024-12-07T15:11:21Z) - Multisource Collaborative Domain Generalization for Cross-Scene Remote Sensing Image Classification [57.945437355714155]
クロスシーン画像分類は, 異なる分布領域のアノテート領域に, 地中物質の事前の知識を伝達することを目的としている。
既存のアプローチでは、未確認のターゲットドメインへの単一ソースドメインの一般化に重点を置いている。
マルチソースリモートセンシングデータの均一性と不均一性特性に基づく,新しいマルチソース協調型ドメイン一般化フレームワーク(MS-CDG)を提案する。
論文 参考訳(メタデータ) (2024-12-05T06:15:08Z) - Unified Frequency-Assisted Transformer Framework for Detecting and
Grounding Multi-Modal Manipulation [109.1912721224697]
本稿では、DGM4問題に対処するため、UFAFormerという名前のUnified Frequency-Assisted TransFormerフレームワークを提案する。
離散ウェーブレット変換を利用して、画像を複数の周波数サブバンドに分解し、リッチな顔偽造品をキャプチャする。
提案する周波数エンコーダは、帯域内およびバンド間自己アテンションを組み込んだもので、多種多様なサブバンド内および多種多様なフォージェリー特徴を明示的に集約する。
論文 参考訳(メタデータ) (2023-09-18T11:06:42Z) - Encoder Fusion Network with Co-Attention Embedding for Referring Image
Segmentation [87.01669173673288]
本稿では,視覚的エンコーダをマルチモーダルな特徴学習ネットワークに変換するエンコーダ融合ネットワーク(EFN)を提案する。
EFNには、マルチモーダル機能の並列更新を実現するコアテンションメカニズムが組み込まれている。
4つのベンチマークデータセットによる実験結果から,提案手法がポストプロセッシングを伴わずに最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2021-05-05T02:27:25Z) - Learning Enriched Features for Real Image Restoration and Enhancement [166.17296369600774]
畳み込みニューラルネットワーク(CNN)は、画像復元作業における従来のアプローチよりも劇的に改善されている。
ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とした,新しいアーキテクチャを提案する。
提案手法は,高解像度の空間的詳細を同時に保存しながら,複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
論文 参考訳(メタデータ) (2020-03-15T11:04:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。