Fugu-MT 論文翻訳(概要): Rethinking Normalization Strategies and Convolutional Kernels for Multimodal Image Fusion

論文の概要: Rethinking Normalization Strategies and Convolutional Kernels for Multimodal Image Fusion

arxiv url: http://arxiv.org/abs/2411.10036v1
Date: Fri, 15 Nov 2024 08:36:24 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:47.984699
Title: Rethinking Normalization Strategies and Convolutional Kernels for Multimodal Image Fusion
Title（参考訳）: マルチモーダル画像融合のための正規化戦略と畳み込みカーネルの再考
Authors: Dan He, Guofen Wang, Weisheng Li, Yucheng Shu, Wenbo Li, Lijian Yang, Yuping Huang, Feiyan Li,
Abstract要約: マルチモーダル画像融合は、様々なモーダルからの情報を総合的な画像を得るために統合することを目的としている。既存の手法では、自然画像の融合を優先し、情報補完とネットワークトレーニング戦略に重点を置く傾向にある。本稿では,融合目標,統計特性,およびデータ分布に関する2つの課題の有意な差異を論じる。
参考スコア（独自算出の注目度）: 25.140475569677758
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multimodal image fusion (MMIF) aims to integrate information from different modalities to obtain a comprehensive image, aiding downstream tasks. However, existing methods tend to prioritize natural image fusion and focus on information complementary and network training strategies. They ignore the essential distinction between natural and medical image fusion and the influence of underlying components. This paper dissects the significant differences between the two tasks regarding fusion goals, statistical properties, and data distribution. Based on this, we rethink the suitability of the normalization strategy and convolutional kernels for end-to-end MMIF.Specifically, this paper proposes a mixture of instance normalization and group normalization to preserve sample independence and reinforce intrinsic feature correlation.This strategy promotes the potential of enriching feature maps, thus boosting fusion performance. To this end, we further introduce the large kernel convolution, effectively expanding receptive fields and enhancing the preservation of image detail. Moreover, the proposed multipath adaptive fusion module recalibrates the decoder input with features of various scales and receptive fields, ensuring the transmission of crucial information. Extensive experiments demonstrate that our method exhibits state-of-the-art performance in multiple fusion tasks and significantly improves downstream applications. The code is available at https://github.com/HeDan-11/LKC-FUNet.
Abstract（参考訳）: マルチモーダル画像融合(MMIF)は、様々なモーダルからの情報を統合して、下流タスクを支援する包括的画像を得る。しかし、既存の手法では、自然画像の融合を優先し、情報補完とネットワークトレーニング戦略に重点を置く傾向にある。自然画像融合と医用画像融合の区別と、基礎となる構成要素の影響を無視する。本稿では,融合目標,統計特性,およびデータ分布に関する2つの課題間の有意な差異を論じる。そこで本研究では,サンプル独立性を保ち,固有特徴相関の強化を図るために,サンプル正規化とグループ正規化の混合を提案し,特徴写像の強化と融合性能の向上を図る。この目的のために、我々はさらに大きなカーネルの畳み込みを導入し、受容領域を効果的に拡張し、画像の細部を保存しやすくする。さらに,提案したマルチパス適応核融合モジュールは,デコーダの入力を様々なスケールや受容領域の特徴で再分類し,重要な情報の伝達を保証する。大規模な実験により,本手法は複数の融合タスクにおける最先端性能を示し,下流アプリケーションを大幅に改善することを示した。コードはhttps://github.com/HeDan-11/LKC-FUNetで公開されている。

関連論文リスト

Towards Unified Semantic and Controllable Image Fusion: A Diffusion Transformer Approach [99.80480649258557]
DiTFuseは命令駆動のフレームワークで、単一のモデル内でセマンティクスを意識した融合を実行する。パブリックなIVIF、MFF、MEFベンチマークの実験では、より優れた量的および質的な性能、よりシャープなテクスチャ、より優れたセマンティック保持が確認されている。
論文参考訳（メタデータ） (2025-12-08T05:04:54Z)
FusionFM: All-in-One Multi-Modal Image Fusion with Flow Matching [42.22268167379098]
我々は、画像融合をソースモーダルから融合画像分布への直接確率的輸送として定式化する。タスク毎に最も信頼性の高い擬似ラベルを選択するためにタスク認識選択関数を用いる。マルチタスクシナリオでは、弾力的な重み強化と経験的再生機構を統合し、クロスタスク性能を維持する。
論文参考訳（メタデータ） (2025-11-17T02:56:48Z)
Efficient Rectified Flow for Image Fusion [48.330480065862474]
本稿では,画像融合のための1ステップの効率的な拡散モデルであるRFfusionを提案する。また,画像融合に適したタスク固有の変分オートエンコーダアーキテクチャを提案する。提案手法は,推算速度と融合品質の両方の観点から,他の最先端手法よりも優れている。
論文参考訳（メタデータ） (2025-09-20T06:21:00Z)
Decouple, Reorganize, and Fuse: A Multimodal Framework for Cancer Survival Prediction [25.880454851313434]
がん生存率分析は、様々な医療指標にまたがって情報を統合して生存時間の予測を行うのが一般的である。既存の手法は主に、モダリティの異なる分離された特徴を抽出し、結合、注意、MoEベースの融合のような融合操作を実行することに焦点を当てている。本稿では,モダリティデカップリングと動的MoE融合モジュール間のランダムな特徴再構成戦略を考案したDecoupling-Reorganization-Fusion framework(DeReF)を提案する。
論文参考訳（メタデータ） (2025-08-26T03:18:25Z)
Deep Unfolding Multi-modal Image Fusion Network via Attribution Analysis [16.6226059346127]
セマンティックセグメンテーションのために、より効率的に融合画像を調整するための「Unfolding Analysis Fusion Network」 (UAAFusion) を提案する。帰属分析技術を用いて,課題識別のためのソース画像中の意味領域の寄与を探索する。提案手法は,帰属分析から導かれる最適化目的を用いたモデル駆動型展開ネットワークを構築する。
論文参考訳（メタデータ） (2025-02-03T16:00:21Z)
Fusion from Decomposition: A Self-Supervised Approach for Image Fusion and Beyond [74.96466744512992]
画像融合の本質は、ソース画像からの相補的な情報を統合することである。 DeFusion++は、画像融合の品質を高め、下流の高レベル視覚タスクの有効性を高める、汎用的な融合表現を生成する。
論文参考訳（メタデータ） (2024-10-16T06:28:49Z)
A Semantic-Aware and Multi-Guided Network for Infrared-Visible Image Fusion [41.34335755315773]
本稿では、相関駆動型分解特徴のモデル化と高レベルグラフ表現の理由について論じる。本稿では,3分岐エンコーダデコーダアーキテクチャと,それに対応する融合層を融合戦略として提案する。可視・近赤外画像融合と医用画像融合タスクにおける最先端手法と比較して, 競争力のある結果を示す実験を行った。
論文参考訳（メタデータ） (2024-06-11T09:32:40Z)
MMA-UNet: A Multi-Modal Asymmetric UNet Architecture for Infrared and Visible Image Fusion [4.788349093716269]
MMIF(Multi-modal Image fusion)は、様々なモダリティから有用な情報を同じ表現空間にマッピングする。既存の融合アルゴリズムは、対称的にマルチモーダル画像を融合する傾向があり、浅い情報や偏りが単一モーダルに対して失われる。本研究では,異なるモードにおける情報の空間分布の差異を解析し,同一ネットワーク内の符号化特徴が同時に深層特徴空間アライメントを実現するには困難であることを証明した。
論文参考訳（メタデータ） (2024-04-27T01:35:21Z)
From Text to Pixels: A Context-Aware Semantic Synergy Solution for Infrared and Visible Image Fusion [66.33467192279514]
我々は、テキスト記述から高レベルなセマンティクスを活用し、赤外線と可視画像のセマンティクスを統合するテキスト誘導多モード画像融合法を提案する。本手法は,視覚的に優れた融合結果を生成するだけでなく,既存の手法よりも高い検出mAPを達成し,最先端の結果を得る。
論文参考訳（メタデータ） (2023-12-31T08:13:47Z)
Mutual-Guided Dynamic Network for Image Fusion [51.615598671899335]
画像融合のための新しい相互誘導動的ネットワーク(MGDN)を提案する。 5つのベンチマークデータセットによる実験結果から,提案手法は4つの画像融合タスクにおいて既存手法よりも優れていることが示された。
論文参考訳（メタデータ） (2023-08-24T03:50:37Z)
A Task-guided, Implicitly-searched and Meta-initialized Deep Model for Image Fusion [69.10255211811007]
本稿では,課題の多い現実シナリオにおいて,画像融合問題に対処するためのタスク誘導,インプリシト検索,メタ一般化(TIM)深層モデルを提案する。具体的には、画像融合の教師なし学習プロセスを導くために、下流タスクからの情報を組み込む制約付き戦略を提案する。このフレームワーク内に暗黙の探索スキームを設計し、高速な融合モデルのためのコンパクトなアーキテクチャを自動で発見する。
論文参考訳（メタデータ） (2023-05-25T08:54:08Z)
Equivariant Multi-Modality Image Fusion [124.11300001864579]
エンドツーエンドの自己教師型学習のための同変多モードImAge融合パラダイムを提案する。我々のアプローチは、自然画像応答が特定の変換に等しくなるという以前の知識に根ざしている。実験により、EMMAは赤外線可視画像と医用画像に高品質な融合結果をもたらすことが確認された。
論文参考訳（メタデータ） (2023-05-19T05:50:24Z)
Unsupervised Image Fusion Method based on Feature Mutual Mapping [16.64607158983448]
上記の問題に対処するために,教師なし適応画像融合法を提案する。入力元画像間の画素の接続を計測するグローバルマップを構築した。本手法は視覚的知覚と客観的評価の両方において優れた性能を実現する。
論文参考訳（メタデータ） (2022-01-25T07:50:14Z)
Deep Multimodal Fusion by Channel Exchanging [87.40768169300898]
本稿では,異なるモードのサブネットワーク間で動的にチャネルを交換するパラメータフリーマルチモーダル融合フレームワークを提案する。このような交換プロセスの有効性は、畳み込みフィルタを共有してもBN層をモダリティで分離しておくことで保証される。
論文参考訳（メタデータ） (2020-11-10T09:53:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。