論文の概要: MAFS: Masked Autoencoder for Infrared-Visible Image Fusion and Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2509.11817v1
- Date: Mon, 15 Sep 2025 11:55:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:23.259957
- Title: MAFS: Masked Autoencoder for Infrared-Visible Image Fusion and Semantic Segmentation
- Title(参考訳): MAFS:赤外線可視画像融合とセマンティックセグメンテーションのためのマスク付きオートエンコーダ
- Authors: Liying Wang, Xiaoli Zhang, Chuanmin Jia, Siwei Ma,
- Abstract要約: 画像融合とセマンティックセグメンテーションのための統合ネットワークを提案する。
画像融合のセマンティック・アウェア機能を高めるための異種機能融合戦略を考案する。
フレームワーク内では,マルチステージトランスフォーマーデコーダを設計し,より微細なマルチスケールフューズされた特徴を効率的に集約する。
- 参考スコア(独自算出の注目度): 43.62940654606311
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Infrared-visible image fusion methods aim at generating fused images with good visual quality and also facilitate the performance of high-level tasks. Indeed, existing semantic-driven methods have considered semantic information injection for downstream applications. However, none of them investigates the potential for reciprocal promotion between pixel-wise image fusion and cross-modal feature fusion perception tasks from a macroscopic task-level perspective. To address this limitation, we propose a unified network for image fusion and semantic segmentation. MAFS is a parallel structure, containing a fusion sub-network and a segmentation sub-network. On the one hand, We devise a heterogeneous feature fusion strategy to enhance semantic-aware capabilities for image fusion. On the other hand, by cascading the fusion sub-network and a segmentation backbone, segmentation-related knowledge is transferred to promote feature-level fusion-based segmentation. Within the framework, we design a novel multi-stage Transformer decoder to aggregate fine-grained multi-scale fused features efficiently. Additionally, a dynamic factor based on the max-min fairness allocation principle is introduced to generate adaptive weights of two tasks and guarantee smooth training in a multi-task manner. Extensive experiments demonstrate that our approach achieves competitive results compared with state-of-the-art methods. The code is available at https://github.com/Abraham-Einstein/MAFS/.
- Abstract(参考訳): 赤外可視画像融合法は,視覚的品質のよい融合画像の生成を目標とし,ハイレベルなタスクの実行を容易にする。
実際、既存の意味駆動手法では、下流アプリケーションに対する意味情報注入が検討されている。
しかし、これらは、ピクセルワイド画像融合とクロスモーダル特徴融合認識タスクの相互促進の可能性について、マクロ的なタスクレベルの観点から検討するものではない。
この制限に対処するため,画像融合とセマンティックセグメンテーションのための統一ネットワークを提案する。
MAFSは並列構造であり、フュージョンサブネットワークとセグメンテーションサブネットワークを含んでいる。
一方,画像融合のための意味認識能力を高めるため,異種機能融合戦略を考案した。
一方、フュージョンサブネットワークとセグメンテーションバックボーンをカスケードすることにより、セグメンテーション関連の知識を伝達し、特徴レベルのフュージョンベースのセグメンテーションを促進する。
フレームワーク内では,マルチステージトランスフォーマーデコーダを設計し,より微細なマルチスケールフューズされた特徴を効率的に集約する。
さらに、2つのタスクの適応重みを生成し、マルチタスク方式でスムーズなトレーニングを保証するために、最大値の公平度割り当て原理に基づく動的因子を導入する。
大規模な実験により,本手法は最先端の手法と比較して,競争力のある結果が得られることが示された。
コードはhttps://github.com/Abraham-Einstein/MAFS/で入手できる。
関連論文リスト
- Deep Unfolding Multi-modal Image Fusion Network via Attribution Analysis [16.6226059346127]
セマンティックセグメンテーションのために、より効率的に融合画像を調整するための「Unfolding Analysis Fusion Network」 (UAAFusion) を提案する。
帰属分析技術を用いて,課題識別のためのソース画像中の意味領域の寄与を探索する。
提案手法は,帰属分析から導かれる最適化目的を用いたモデル駆動型展開ネットワークを構築する。
論文 参考訳(メタデータ) (2025-02-03T16:00:21Z) - Fusion from Decomposition: A Self-Supervised Approach for Image Fusion and Beyond [74.96466744512992]
画像融合の本質は、ソース画像からの相補的な情報を統合することである。
DeFusion++は、画像融合の品質を高め、下流の高レベル視覚タスクの有効性を高める、汎用的な融合表現を生成する。
論文 参考訳(メタデータ) (2024-10-16T06:28:49Z) - Multi-interactive Feature Learning and a Full-time Multi-modality
Benchmark for Image Fusion and Segmentation [66.15246197473897]
多モード画像融合とセグメンテーションは、自律走行とロボット操作において重要な役割を果たす。
画像融合とtextbfSegmentation のための textbfMulti-textbfinteractive textbfFeature Learning アーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-08-04T01:03:58Z) - A Task-guided, Implicitly-searched and Meta-initialized Deep Model for
Image Fusion [69.10255211811007]
本稿では,課題の多い現実シナリオにおいて,画像融合問題に対処するためのタスク誘導,インプリシト検索,メタ一般化(TIM)深層モデルを提案する。
具体的には、画像融合の教師なし学習プロセスを導くために、下流タスクからの情報を組み込む制約付き戦略を提案する。
このフレームワーク内に暗黙の探索スキームを設計し、高速な融合モデルのためのコンパクトなアーキテクチャを自動で発見する。
論文 参考訳(メタデータ) (2023-05-25T08:54:08Z) - LRRNet: A Novel Representation Learning Guided Fusion Network for
Infrared and Visible Images [98.36300655482196]
我々は,融合タスクを数学的に定式化し,その最適解とそれを実装可能なネットワークアーキテクチャとの接続を確立する。
特に、融合タスクに学習可能な表現アプローチを採用し、融合ネットワークアーキテクチャの構築は学習可能なモデルを生成する最適化アルゴリズムによって導かれる。
この新しいネットワークアーキテクチャに基づいて、赤外線および可視光画像を融合するために、エンドツーエンドの軽量核融合ネットワークを構築する。
論文 参考訳(メタデータ) (2023-04-11T12:11:23Z) - Unsupervised Image Fusion Method based on Feature Mutual Mapping [16.64607158983448]
上記の問題に対処するために,教師なし適応画像融合法を提案する。
入力元画像間の画素の接続を計測するグローバルマップを構築した。
本手法は視覚的知覚と客観的評価の両方において優れた性能を実現する。
論文 参考訳(メタデータ) (2022-01-25T07:50:14Z) - TransFuse: A Unified Transformer-based Image Fusion Framework using
Self-supervised Learning [5.849513679510834]
画像融合(英: Image fusion)とは、複数のソース画像からの情報を補完情報と統合し、単一の画像の豊かさを改善する技術である。
2段階の手法では、大規模な自然言語データセット上でエンコーダ・デコーダネットワークをトレーニングすることで、タスク固有の大量のトレーニングデータの必要性を回避する。
本稿では, ネットワークがタスク固有の特徴を学習することを奨励する, 破壊再構成に基づく自己指導型学習手法を提案する。
論文 参考訳(メタデータ) (2022-01-19T07:30:44Z) - Semantic Image Fusion [2.4366811507669124]
本稿では,事前学習したCNNネットワークアーキテクチャを用いた視覚コンテンツの意味結合システムを提案する。
単純な "choose maximum" と "local majority" のフィルタベースの融合ルールは、特徴マップの融合に使用される。
開発手法は,最先端技術に同等の低レベル核融合性能を与えることができる。
論文 参考訳(メタデータ) (2021-10-13T13:15:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。