Fugu-MT 論文翻訳(概要): Structure-Semantic Decoupled Modulation of Global Geospatial Embeddings for High-Resolution Remote Sensing Mapping

論文の概要: Structure-Semantic Decoupled Modulation of Global Geospatial Embeddings for High-Resolution Remote Sensing Mapping

arxiv url: http://arxiv.org/abs/2604.19591v2
Date: Wed, 22 Apr 2026 09:29:15 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-23 15:36:10.463336
Title: Structure-Semantic Decoupled Modulation of Global Geospatial Embeddings for High-Resolution Remote Sensing Mapping
Title（参考訳）: 高分解能リモートセンシングマッピングのための地球空間埋め込みの構造的非結合変調
Authors: Jienan Lyu, Miao Yang, Jinchen Cai, Yiwen Hu, Guanyi Lu, Junhao Qiu, Runmin Dong,
Abstract要約: 微細な高解像度リモートセンシングマッピングは通常、局所的な視覚的特徴に依存している。本稿では,グローバルな表現をモーダル・インジェクション・パスに分離する構造意味分離変調フレームワークを提案する。本手法は,既存の相互拡散法と比較して最先端の性能を実現する。
参考スコア（独自算出の注目度）: 4.025673425380818
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Fine-grained high-resolution remote sensing mapping typically relies on localized visual features, which restricts cross-domain generalizability and often leads to fragmented predictions of large-scale land covers. While global geospatial foundation models offer powerful, generalizable representations, directly fusing their high-dimensional implicit embeddings with high-resolution visual features frequently triggers feature interference and spatial structure degradation due to a severe semantic-spatial gap. To overcome these limitations, we propose a Structure-Semantic Decoupled Modulation (SSDM) framework, which decouples global geospatial representations into two complementary cross-modal injection pathways. First, the structural prior modulation branch introduces the macroscopic receptive field priors from global representations into the self-attention modules of the high-resolution encoder. By guiding local feature extraction with holistic structural constraints, it effectively suppresses prediction fragmentation caused by high-frequency detail noise and excessive intra-class variance. Second, the global semantic injection branch explicitly aligns holistic context with the deep high-resolution feature space and directly supplements global semantics via cross-modal integration, thereby significantly enhancing the semantic consistency and category-level discrimination of complex land covers. Extensive experiments demonstrate that our method achieves state-of-the-art performance compared to existing cross-modal fusion approaches. By unleashing the potential of global embeddings, SSDM consistently improves high-resolution mapping accuracy across diverse scenarios, providing a universal and effective paradigm for integrating geospatial foundation models into high-resolution vision tasks.
Abstract（参考訳）: 微細な高解像度リモートセンシングマッピングは、通常、局所的な視覚的特徴に依存しており、ドメイン間の一般化を制限し、しばしば大規模な土地被覆の断片的な予測につながる。グローバルな地理空間基盤モデルは強力で一般化可能な表現を提供する一方で、高解像度の視覚特徴を持つ高次元の暗黙の埋め込みを直接融合することで、深刻な意味空間ギャップによる特徴的干渉と空間構造劣化を頻繁に引き起こす。これらの制約を克服するために,グローバルな空間表現を2つの相補的な相互モード注入経路に分離する,構造化セマンティックデカップリング変調(SSDM)フレームワークを提案する。まず、構造的事前変調分岐は、大域的表現からのマクロ的受容場先行を高分解能エンコーダの自己保持モジュールに導入する。局所特徴抽出を全体的構造的制約で導くことにより、高周波詳細ノイズと過度なクラス内分散に起因する予測フラグメンテーションを効果的に抑制する。第2に、グローバルセマンティックインジェクション・ブランチは、包括的コンテキストと深い高解像度特徴空間を明示的に整合させ、クロスモーダルな統合を通じてグローバルセマンティックスを直接補完することにより、複雑な土地被覆のセマンティック一貫性とカテゴリレベルの識別を大幅に向上させる。大規模な実験により,本手法は既存の相互拡散法と比較して最先端の性能を達成できることが実証された。グローバルな埋め込みの可能性を解き放つことで、SSDMは様々なシナリオにわたる高解像度マッピング精度を一貫して改善し、地理空間基盤モデルを高解像度ビジョンタスクに統合するための普遍的で効果的なパラダイムを提供する。

関連論文リスト

Hyperbolic Enhanced Representation Learning for Incomplete Multi-view Clustering [57.38215918201251]
本稿では,不完全なマルチビュークラスタリングのためのハイパーボリック拡張表現学習フレームワークであるHERLを提案する。ポアンカレボール内で操作すると、HERLは表現学習を強化するために構造を意識した潜在空間を構築する。 HERLは最先端のアプローチよりも一貫して優れていることを示す。
論文参考訳（メタデータ） (2026-04-18T10:50:46Z)
ReconMIL: Synergizing Latent Space Reconstruction with Bi-Stream Mamba for Whole Slide Image Analysis [29.765137795042804]
全スライド画像(WSI)解析は、MIL(Multiple Case Learning)に大きく依存している。このドメインギャップを埋め、グローバルな機能アグリゲーションのバランスをとるために設計された新しいフレームワークであるReconMILを紹介します。提案手法では,ジェネリックな特徴をコンパクトなタスク固有多様体に適応的に射影するラテント空間再構成モジュールを提案する。
論文参考訳（メタデータ） (2026-03-20T13:09:54Z)
Disentangled Textual Priors for Diffusion-based Image Super-Resolution [41.71306518338786]
Image Super-Resolutionは、劣化した低解像度入力から高解像度画像を再構成することを目的としている。既存のアプローチは、グローバルなレイアウトとローカルな詳細を混ぜ合わせた、絡み合った、あるいは粗い粒度の前のものに依存することが多い。 DTPSRは,2つの相補的な次元に絡み合ったテキストの先行処理を導入する新しい拡散型SRフレームワークである。
論文参考訳（メタデータ） (2026-03-08T03:02:55Z)
Universal Pansharpening Foundation Model [67.10467574892282]
高分解能マルチスペクトル(MS)画像は、テクスチャリッチパンクロマティック(PAN)画像と低分解能MS画像からのスペクトル特性から空間的詳細を統合することで生成する。本稿では,衛星非依存およびシーンロバスト融合のための普遍的パンシャーピング基盤モデルFoundPSを提案する。
論文参考訳（メタデータ） (2026-03-04T08:30:15Z)
Small Object Detection in Complex Backgrounds with Multi-Scale Attention and Global Relation Modeling [8.24377869183113]
複雑な背景下での小さなオブジェクト検出は、深刻な特徴劣化、弱いセマンティック表現、不正確なローカライゼーションのために難しい課題である。既存の検出フレームワークは主に汎用オブジェクト用に設計されている。小型オブジェクト検出に適した多層機能拡張とグローバルリレーショナルモデリングフレームワークを提案する。
論文参考訳（メタデータ） (2026-03-04T06:57:46Z)
StepVAR: Structure-Texture Guided Pruning for Visual Autoregressive Models [98.72926158261937]
本稿では,Visual AutoRegressive モデルのためのトレーニングフリートークン解析フレームワークを提案する。我々は局所的なテクスチャの詳細を捉えるために軽量なハイパスフィルタを使用し、グローバルな構造情報を保存するために主成分分析(PCA)を活用している。スパーストークンの下で有効な次世代の予測を維持するために,近接した特徴伝達戦略を導入する。
論文参考訳（メタデータ） (2026-03-02T11:35:05Z)
SRSR: Enhancing Semantic Accuracy in Real-World Image Super-Resolution with Spatially Re-Focused Text-Conditioning [59.013863248600046]
本稿では,空間的に再焦点を絞ったテキストコンディショニングを推論時に洗練する超解像フレームワークを提案する。第二に,非接地画素に対するテキストの影響を選択的に回避し,幻覚を防ぐ空間的自由誘導機構を導入する。
論文参考訳（メタデータ） (2025-10-26T05:03:55Z)
Residual Prior-driven Frequency-aware Network for Image Fusion [6.90874640835234]
画像融合は、高品質な融合画像を生成するために、モダリティにまたがる相補的な情報を統合することを目的としている。本稿ではRPFNetと呼ばれる残差優先周波数対応ネットワークを提案する。
論文参考訳（メタデータ） (2025-07-09T10:48:00Z)
Diffusion Models Without Attention [110.5623058129782]
Diffusion State Space Model (DiffuSSM) は、よりスケーラブルな状態空間モデルバックボーンで注目メカニズムを置き換えるアーキテクチャである。拡散訓練におけるFLOP効率の高いアーキテクチャへの注力は、大きな前進となる。
論文参考訳（メタデータ） (2023-11-30T05:15:35Z)
Relation Matters: Foreground-aware Graph-based Relational Reasoning for Domain Adaptive Object Detection [81.07378219410182]
我々は、FGRR(Fearground-aware Graph-based Reasoning)というドメインDのための新しい汎用フレームワークを提案する。 FGRRはグラフ構造を検出パイプラインに組み込んで、ドメイン内およびドメイン間フォアグラウンドオブジェクト関係を明示的にモデル化する。実験の結果、提案したFGRRは4つのDomainDベンチマークの最先端よりも優れていることが示された。
論文参考訳（メタデータ） (2022-06-06T05:12:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。