論文の概要: Residual Prior-driven Frequency-aware Network for Image Fusion
- arxiv url: http://arxiv.org/abs/2507.06735v1
- Date: Wed, 09 Jul 2025 10:48:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-10 17:37:43.555933
- Title: Residual Prior-driven Frequency-aware Network for Image Fusion
- Title(参考訳): 画像融合のための残差事前駆動周波数認識ネットワーク
- Authors: Guan Zheng, Xue Wang, Wenhua Qian, Peng Liu, Runzhuo Ma,
- Abstract要約: 画像融合は、高品質な融合画像を生成するために、モダリティにまたがる相補的な情報を統合することを目的としている。
本稿ではRPFNetと呼ばれる残差優先周波数対応ネットワークを提案する。
- 参考スコア(独自算出の注目度): 6.90874640835234
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image fusion aims to integrate complementary information across modalities to generate high-quality fused images, thereby enhancing the performance of high-level vision tasks. While global spatial modeling mechanisms show promising results, constructing long-range feature dependencies in the spatial domain incurs substantial computational costs. Additionally, the absence of ground-truth exacerbates the difficulty of capturing complementary features effectively. To tackle these challenges, we propose a Residual Prior-driven Frequency-aware Network, termed as RPFNet. Specifically, RPFNet employs a dual-branch feature extraction framework: the Residual Prior Module (RPM) extracts modality-specific difference information from residual maps, thereby providing complementary priors for fusion; the Frequency Domain Fusion Module (FDFM) achieves efficient global feature modeling and integration through frequency-domain convolution. Additionally, the Cross Promotion Module (CPM) enhances the synergistic perception of local details and global structures through bidirectional feature interaction. During training, we incorporate an auxiliary decoder and saliency structure loss to strengthen the model's sensitivity to modality-specific differences. Furthermore, a combination of adaptive weight-based frequency contrastive loss and SSIM loss effectively constrains the solution space, facilitating the joint capture of local details and global features while ensuring the retention of complementary information. Extensive experiments validate the fusion performance of RPFNet, which effectively integrates discriminative features, enhances texture details and salient objects, and can effectively facilitate the deployment of the high-level vision task.
- Abstract(参考訳): 画像融合は、高画質の融合画像を生成するために、モダリティをまたいだ補完情報を統合することを目的としており、高レベルの視覚タスクの性能を高めることを目的としている。
グローバルな空間モデリング機構は有望な結果を示すが、空間領域における長距離特徴依存の構築は相当な計算コストを発生させる。
さらに、接地路の欠如は補足的特徴を効果的に捉えることの難しさを増す。
これらの課題に対処するために、RPFNetと呼ばれるResidual Prior-driven Frequency-aware Networkを提案する。
具体的には、Residual Prior Module (RPM) は残余マップからモダリティ固有の差分情報を抽出し、融合の相補的な事前情報を提供し、FDFM(Fedquency Domain Fusion Module) は周波数領域の畳み込みによる効率的なグローバルな特徴モデリングと統合を実現する。
さらに、クロスプロモーションモジュール(CPM)は、双方向の特徴相互作用を通じて、局所的な詳細とグローバルな構造に対する相乗的認識を強化する。
トレーニング中は補助デコーダとサリエンシ構造損失を組み込んで、モデルがモダリティに特有な相違に敏感であることを強化する。
さらに、適応重みに基づく周波数コントラスト損失とSSIM損失の組み合わせは、解空間を効果的に制約し、補完情報の保持を確保しつつ、局所的な詳細とグローバルな特徴の同時捕捉を容易にする。
差別的特徴を効果的に統合し、テクスチャの詳細と健全なオブジェクトを強化し、高レベルの視覚タスクを効果的に展開するRPFNetの融合性能を検証する。
関連論文リスト
- Unleashing Correlation and Continuity for Hyperspectral Reconstruction from RGB Images [64.80875911446937]
RGB画像からのHSI再構成のための相関連続性ネットワーク(CCNet)を提案する。
局所スペクトルの相関について,GrSCM(Group-wise Spectral correlation Modeling)モジュールを紹介する。
グローバルスペクトルの連続性のために、我々はNeSCMモジュールを設計する。
論文 参考訳(メタデータ) (2025-01-02T15:14:40Z) - Accelerated Multi-Contrast MRI Reconstruction via Frequency and Spatial Mutual Learning [50.74383395813782]
本稿では,周波数・空間相互学習ネットワーク(FSMNet)を提案する。
提案したFSMNetは, 加速度係数の異なるマルチコントラストMR再構成タスクに対して, 最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-09-21T12:02:47Z) - MMR-Mamba: Multi-Modal MRI Reconstruction with Mamba and Spatial-Frequency Information Fusion [17.084083262801737]
MMR-MambaはMRI再建のためのマルチモーダル機能を完全にかつ効率的に統合する新しいフレームワークである。
具体的には,空間領域におけるTCM(Target modality-guided Cross Mamba)モジュールの設計を行う。
次に、フーリエ領域におけるグローバル情報を効率的に統合するための選択周波数融合(SFF)モジュールを提案する。
論文 参考訳(メタデータ) (2024-06-27T07:30:54Z) - Deep Common Feature Mining for Efficient Video Semantic Segmentation [25.851900402539467]
ビデオセマンティックセグメンテーションのためのDeep Common Feature Mining(DCFM)を提案する。
DCFMは、機能を2つの補完的なコンポーネントに明示的に分解する。
自己教師付き損失関数を組み込んで,クラス内特徴の類似性を強化し,時間的整合性を高める。
論文 参考訳(メタデータ) (2024-03-05T06:17:59Z) - Modality-Collaborative Transformer with Hybrid Feature Reconstruction
for Robust Emotion Recognition [35.15390769958969]
ハイブリッド特徴再構成(MCT-HFR)を用いた統一型モダリティ協調変換器を提案する。
MCT-HFRは、モダリティ内およびモダリティ間関係を同時に抽出し、動的にバランスをとる新しいアテンションベースのエンコーダで構成されている。
モデルトレーニング中、LFIは、完全特徴を監督信号として活用し、局所的欠落した特徴を回復する一方、GFAはペア完全表現と不完全表現のグローバルな意味的ギャップを減らすように設計されている。
論文 参考訳(メタデータ) (2023-12-26T01:59:23Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - Global Context-Aware Progressive Aggregation Network for Salient Object
Detection [117.943116761278]
我々は,低レベルな外観特徴,高レベルな意味特徴,グローバルな文脈特徴を統合化するための新しいネットワークGCPANetを提案する。
提案手法は, 定量的かつ定性的に, 最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-03-02T04:26:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。