Fugu-MT 論文翻訳(概要): Bridging the Gap between Multi-focus and Multi-modal: A Focused Integration Framework for Multi-modal Image Fusion

論文の概要: Bridging the Gap between Multi-focus and Multi-modal: A Focused Integration Framework for Multi-modal Image Fusion

arxiv url: http://arxiv.org/abs/2311.01886v2
Date: Wed, 31 Jan 2024 12:13:49 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-01 17:29:43.981688
Title: Bridging the Gap between Multi-focus and Multi-modal: A Focused Integration Framework for Multi-modal Image Fusion
Title（参考訳）: マルチフォーカスとマルチモーダルのギャップを埋める - マルチモーダル画像融合のための集中型統合フレームワーク
Authors: Xilai Li, Xiaosong Li, Tao Ye, Xiaoqi Cheng, Wuyang Liu, Haishu Tan
Abstract要約: MMIF(Multi-Modal Image fusion)は、異なるモダリティ画像からの貴重な情報を融合画像に統合する。本稿では,協調型統合とモダリティ情報抽出のためのMMIFフレームワークを提案する。提案アルゴリズムは、視覚知覚と定量的評価において最先端の手法を超越することができる。
参考スコア（独自算出の注目度）: 5.417493475406649
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multi-modal image fusion (MMIF) integrates valuable information from different modality images into a fused one. However, the fusion of multiple visible images with different focal regions and infrared images is a unprecedented challenge in real MMIF applications. This is because of the limited depth of the focus of visible optical lenses, which impedes the simultaneous capture of the focal information within the same scene. To address this issue, in this paper, we propose a MMIF framework for joint focused integration and modalities information extraction. Specifically, a semi-sparsity-based smoothing filter is introduced to decompose the images into structure and texture components. Subsequently, a novel multi-scale operator is proposed to fuse the texture components, capable of detecting significant information by considering the pixel focus attributes and relevant data from various modal images. Additionally, to achieve an effective capture of scene luminance and reasonable contrast maintenance, we consider the distribution of energy information in the structural components in terms of multi-directional frequency variance and information entropy. Extensive experiments on existing MMIF datasets, as well as the object detection and depth estimation tasks, consistently demonstrate that the proposed algorithm can surpass the state-of-the-art methods in visual perception and quantitative evaluation. The code is available at https://github.com/ixilai/MFIF-MMIF.
Abstract（参考訳）: マルチモーダル画像融合(mmif)は、異なるモダリティ画像からの貴重な情報を融合画像に統合する。しかし、異なる焦点領域と赤外線画像を持つ複数の可視画像の融合は、実際のMMIFアプリケーションでは前例のない課題である。これは、可視光学レンズの焦点の深さが限られており、同じシーン内で焦点情報の同時捕捉を阻害しているためである。この問題に対処するため,本稿では,統合統合とモダリティ情報抽出のためのmmifフレームワークを提案する。具体的には、半スパーシティーに基づく平滑化フィルタを導入し、画像を構造とテクスチャコンポーネントに分解する。その後,様々な画像から画素焦点属性と関連データを考慮し,重要な情報を検出することのできる,テクスチャ成分を融合する新しいマルチスケール演算子を提案する。また,シーンの輝度と適度なコントラスト維持を効果的に捉えるために,多方向周波数分散と情報エントロピーの観点から,構造成分内のエネルギー情報の分布を考察する。既存のMMIFデータセットおよびオブジェクト検出および深度推定タスクに関する広範な実験は、提案アルゴリズムが視覚知覚および定量的評価における最先端の手法を超えることができることを一貫して証明している。コードはhttps://github.com/ixilai/MFIF-MMIFで公開されている。

関連論文リスト

Interactive Spatial-Frequency Fusion Mamba for Multi-Modal Image Fusion [69.13852939945433]
MMIF(Multi-Modal Image Fusion)は、異なるモダリティの画像を組み合わせて融合画像を作成することを目的としている。 MMIFのための対話型空間周波数フュージョン・マンバフレームワークを提案する。私たちのISFMは、他の最先端手法よりも優れたパフォーマンスを実現できます。
論文参考訳（メタデータ） (2026-02-04T10:35:55Z)
FS-Diff: Semantic guidance and clarity-aware simultaneous multimodal image fusion and super-resolution [19.183004285219184]
軍事偵察や長距離検知といった現実世界の応用では、マルチモーダル画像のターゲット構造と背景構造が容易に破損する。 FS-Diff, 意味指導, 明快な関節画像融合および超解像法を提案する。
論文参考訳（メタデータ） (2025-09-11T13:10:22Z)
DM-FNet: Unified multimodal medical image fusion via diffusion process-trained encoder-decoder [13.87371547830489]
マルチモーダル医用画像融合(MMIF)は複数のソース画像から最も有意義な情報を抽出する。既存のMMIF法は、従来の訓練中に詳細な特徴を捉える能力に制限がある。本研究では,2段階拡散モデルに基づく融合ネットワーク(DM-FNet)を提案する。
論文参考訳（メタデータ） (2025-06-18T07:55:06Z)
MATCNN: Infrared and Visible Image Fusion Method Based on Multi-scale CNN with Attention Transformer [21.603763071331667]
本稿では,アテンショントランスフォーマを用いたマルチスケール畳み込みニューラルネットワーク(MATCNN)に基づく,新しいクロスモーダル画像融合手法を提案する。 MATCNNは、MSFM(Multi-scale fusion Module)を用いて異なるスケールで局所的特徴を抽出し、グローバル特徴抽出モジュール(GFEM)を用いてグローバル特徴を抽出する。情報マスクを用いて画像内の関連する詳細をラベル付けし、融合画像中の可視画像における赤外線画像および背景テクスチャにおける重要な情報保存の比率を高める。
論文参考訳（メタデータ） (2025-02-04T03:09:54Z)
Rethinking Normalization Strategies and Convolutional Kernels for Multimodal Image Fusion [25.140475569677758]
マルチモーダル画像融合は、様々なモーダルからの情報を総合的な画像を得るために統合することを目的としている。既存の手法では、自然画像の融合を優先し、情報補完とネットワークトレーニング戦略に重点を置く傾向にある。本稿では,融合目標,統計特性,およびデータ分布に関する2つの課題の有意な差異を論じる。
論文参考訳（メタデータ） (2024-11-15T08:36:24Z)
A Global Depth-Range-Free Multi-View Stereo Transformer Network with Pose Embedding [76.44979557843367]
本稿では,事前の深度範囲を排除した新しい多視点ステレオ(MVS)フレームワークを提案する。長距離コンテキスト情報を集約するMDA(Multi-view Disparity Attention)モジュールを導入する。ソース画像のエピポーラ線上のサンプリング点に対応する電流画素の品質を明示的に推定する。
論文参考訳（メタデータ） (2024-11-04T08:50:16Z)
Fusion from Decomposition: A Self-Supervised Approach for Image Fusion and Beyond [74.96466744512992]
画像融合の本質は、ソース画像からの相補的な情報を統合することである。 DeFusion++は、画像融合の品質を高め、下流の高レベル視覚タスクの有効性を高める、汎用的な融合表現を生成する。
論文参考訳（メタデータ） (2024-10-16T06:28:49Z)
MMA-UNet: A Multi-Modal Asymmetric UNet Architecture for Infrared and Visible Image Fusion [4.788349093716269]
MMIF(Multi-modal Image fusion)は、様々なモダリティから有用な情報を同じ表現空間にマッピングする。既存の融合アルゴリズムは、対称的にマルチモーダル画像を融合する傾向があり、浅い情報や偏りが単一モーダルに対して失われる。本研究では,異なるモードにおける情報の空間分布の差異を解析し,同一ネットワーク内の符号化特徴が同時に深層特徴空間アライメントを実現するには困難であることを証明した。
論文参考訳（メタデータ） (2024-04-27T01:35:21Z)
A Dual Domain Multi-exposure Image Fusion Network based on the Spatial-Frequency Integration [57.14745782076976]
マルチ露光画像融合は、異なる露光で画像を統合することにより、単一の高ダイナミック画像を生成することを目的としている。本稿では,MEF-SFI と呼ばれる空間周波数統合フレームワークによるマルチ露光画像融合の新たな視点を提案する。提案手法は,最先端のマルチ露光画像融合手法に対する視覚的近似核融合結果を実現する。
論文参考訳（メタデータ） (2023-12-17T04:45:15Z)
Fusion of Infrared and Visible Images based on Spatial-Channel Attentional Mechanism [3.388001684915793]
Infrared and visible image fusion (IVIF) の革新的アプローチであるAMFusionNetを提案する。可視光源からのテクスチャ特徴と赤外線画像からの熱的詳細を同化することにより,包括的情報に富んだ画像を生成する。提案手法は, 品質と量の観点から, 最先端のアルゴリズムより優れている。
論文参考訳（メタデータ） (2023-08-25T21:05:11Z)
Equivariant Multi-Modality Image Fusion [124.11300001864579]
エンドツーエンドの自己教師型学習のための同変多モードImAge融合パラダイムを提案する。我々のアプローチは、自然画像応答が特定の変換に等しくなるという以前の知識に根ざしている。実験により、EMMAは赤外線可視画像と医用画像に高品質な融合結果をもたらすことが確認された。
論文参考訳（メタデータ） (2023-05-19T05:50:24Z)
An Interactively Reinforced Paradigm for Joint Infrared-Visible Image Fusion and Saliency Object Detection [59.02821429555375]
この研究は、野生の隠れた物体の発見と位置決めに焦点をあて、無人のシステムに役立てる。経験的分析により、赤外線と可視画像融合(IVIF)は、難しい物体の発見を可能にする。マルチモーダル・サリエント・オブジェクト検出(SOD)は、画像内の物体の正確な空間的位置を正確に記述する。
論文参考訳（メタデータ） (2023-05-17T06:48:35Z)
Multi-modal Gated Mixture of Local-to-Global Experts for Dynamic Image Fusion [59.19469551774703]
赤外線と可視画像の融合は,複数の情報源からの包括的情報を統合して,様々な作業において優れた性能を実現することを目的としている。局所-言語の専門家によるマルチモーダルゲート混合を用いた動的画像融合フレームワークを提案する。本モデルは,Mixture of Local Experts (MoLE) とMixture of Global Experts (MoGE) から構成される。
論文参考訳（メタデータ） (2023-02-02T20:06:58Z)
MFIF-GAN: A New Generative Adversarial Network for Multi-Focus Image Fusion [29.405149234582623]
マルチフォーカス画像融合(MFIF)は、オールインフォーカス画像を得るための有望な技術である。 MFIFの研究動向の1つは、フォーカス/デフォーカス境界(FDB)周辺のデフォーカス拡散効果(DSE)を回避することである。我々は,MFIF-GANと呼ばれるネットワークを用いて,前景領域が対応する対象よりも正確に大きいフォーカスマップを生成する。
論文参考訳（メタデータ） (2020-09-21T09:36:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。