論文の概要: Multi-modal Gated Mixture of Local-to-Global Experts for Dynamic Image
Fusion
- arxiv url: http://arxiv.org/abs/2302.01392v2
- Date: Thu, 23 Mar 2023 07:15:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-24 17:23:23.881234
- Title: Multi-modal Gated Mixture of Local-to-Global Experts for Dynamic Image
Fusion
- Title(参考訳): 動的画像融合のための局所-グローバルエキスパートのマルチモーダルGated Mixture
- Authors: Yiming Sun, Bing Cao, Pengfei Zhu, Qinghua Hu
- Abstract要約: 赤外線と可視画像の融合は,複数の情報源からの包括的情報を統合して,様々な作業において優れた性能を実現することを目的としている。
局所-言語の専門家によるマルチモーダルゲート混合を用いた動的画像融合フレームワークを提案する。
本モデルは,Mixture of Local Experts (MoLE) とMixture of Global Experts (MoGE) から構成される。
- 参考スコア(独自算出の注目度): 59.19469551774703
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Infrared and visible image fusion aims to integrate comprehensive information
from multiple sources to achieve superior performances on various practical
tasks, such as detection, over that of a single modality. However, most
existing methods directly combined the texture details and object contrast of
different modalities, ignoring the dynamic changes in reality, which diminishes
the visible texture in good lighting conditions and the infrared contrast in
low lighting conditions. To fill this gap, we propose a dynamic image fusion
framework with a multi-modal gated mixture of local-to-global experts, termed
MoE-Fusion, to dynamically extract effective and comprehensive information from
the respective modalities. Our model consists of a Mixture of Local Experts
(MoLE) and a Mixture of Global Experts (MoGE) guided by a multi-modal gate. The
MoLE performs specialized learning of multi-modal local features, prompting the
fused images to retain the local information in a sample-adaptive manner, while
the MoGE focuses on the global information that complements the fused image
with overall texture detail and contrast. Extensive experiments show that our
MoE-Fusion outperforms state-of-the-art methods in preserving multi-modal image
texture and contrast through the local-to-global dynamic learning paradigm, and
also achieves superior performance on detection tasks. Our code will be
available: https://github.com/SunYM2020/MoE-Fusion.
- Abstract(参考訳): 赤外線および可視画像融合は、複数のソースからの包括的な情報を統合し、検出などの様々な実用的なタスクにおいて単一のモダリティよりも優れたパフォーマンスを達成することを目的としている。
しかし、既存のほとんどの手法は、テクスチャの詳細と異なるモードのオブジェクトコントラストを直接組み合わせ、現実の動的変化を無視し、良質な照明条件における可視テクスチャと低照度における赤外線コントラストを減少させる。
このギャップを埋めるために,MoE-Fusionと呼ばれるマルチモーダルゲートを用いた動的画像融合フレームワークを提案し,各モーダルから効果的かつ包括的な情報を動的に抽出する。
本モデルでは,地域の専門家 (mole) とグローバル専門家 (moge) を混合し,マルチモーダルゲートを導いた。
MoLEはマルチモーダルな局所特徴の専門的な学習を行い、融合した画像が局所情報をサンプル適応的に保持するように促す一方、MoGEは融合した画像を総合的なテクスチャの詳細とコントラストで補完するグローバルな情報に焦点を当てる。
広汎な実験により,MoE-Fusionはマルチモーダル画像テクスチャとコントラストを局所的・グローバル的動的学習パラダイムで保存する上で,最先端の手法よりも優れており,検出タスクにおいて優れた性能を発揮することが示された。
私たちのコードは、https://github.com/SunYM2020/MoE-Fusion.comで利用可能です。
関連論文リスト
- Fusion from Decomposition: A Self-Supervised Approach for Image Fusion and Beyond [74.96466744512992]
画像融合の本質は、ソース画像からの相補的な情報を統合することである。
DeFusion++は、画像融合の品質を高め、下流の高レベル視覚タスクの有効性を高める、汎用的な融合表現を生成する。
論文 参考訳(メタデータ) (2024-10-16T06:28:49Z) - Unifying Visual and Semantic Feature Spaces with Diffusion Models for Enhanced Cross-Modal Alignment [20.902935570581207]
本稿では,マルチモーダルアライメント・アンド・リコンストラクション・ネットワーク(MARNet)を導入し,視覚ノイズに対するモデルの耐性を高める。
MARNetは、異なるドメイン間で情報をスムーズかつ安定的にブレンドする、クロスモーダル拡散再構成モジュールを含んでいる。
2つのベンチマークデータセットであるVireo-Food172とIngredient-101で実施された実験は、MARNetがモデルによって抽出された画像情報の品質を効果的に改善することを示した。
論文 参考訳(メタデータ) (2024-07-26T16:30:18Z) - MMA-UNet: A Multi-Modal Asymmetric UNet Architecture for Infrared and Visible Image Fusion [4.788349093716269]
MMIF(Multi-modal Image fusion)は、様々なモダリティから有用な情報を同じ表現空間にマッピングする。
既存の融合アルゴリズムは、対称的にマルチモーダル画像を融合する傾向があり、浅い情報や偏りが単一モーダルに対して失われる。
本研究では,異なるモードにおける情報の空間分布の差異を解析し,同一ネットワーク内の符号化特徴が同時に深層特徴空間アライメントを実現するには困難であることを証明した。
論文 参考訳(メタデータ) (2024-04-27T01:35:21Z) - FusionMamba: Dynamic Feature Enhancement for Multimodal Image Fusion with Mamba [17.75933946414591]
マルチモーダル画像融合は、異なるモードからの情報を組み合わせて、1つの画像と詳細なテクスチャを作成することを目的としている。
トランスフォーマーベースのモデルは、グローバルな特徴モデリングに優れているが、その2次複雑さに起因する計算上の課題に直面している。
マルチモーダル画像融合のための動的特徴強調手法FusionMambaを提案する。
論文 参考訳(メタデータ) (2024-04-15T06:37:21Z) - Task-Customized Mixture of Adapters for General Image Fusion [51.8742437521891]
一般画像融合は、マルチソース画像から重要な情報を統合することを目的としている。
本稿では, 汎用画像融合用アダプタ(TC-MoA)を新たに提案し, 統一モデルにおける様々な融合タスクを適応的に促進する。
論文 参考訳(メタデータ) (2024-03-19T07:02:08Z) - From Text to Pixels: A Context-Aware Semantic Synergy Solution for
Infrared and Visible Image Fusion [66.33467192279514]
我々は、テキスト記述から高レベルなセマンティクスを活用し、赤外線と可視画像のセマンティクスを統合するテキスト誘導多モード画像融合法を提案する。
本手法は,視覚的に優れた融合結果を生成するだけでなく,既存の手法よりも高い検出mAPを達成し,最先端の結果を得る。
論文 参考訳(メタデータ) (2023-12-31T08:13:47Z) - A Dual Domain Multi-exposure Image Fusion Network based on the
Spatial-Frequency Integration [57.14745782076976]
マルチ露光画像融合は、異なる露光で画像を統合することにより、単一の高ダイナミック画像を生成することを目的としている。
本稿では,MEF-SFI と呼ばれる空間周波数統合フレームワークによるマルチ露光画像融合の新たな視点を提案する。
提案手法は,最先端のマルチ露光画像融合手法に対する視覚的近似核融合結果を実現する。
論文 参考訳(メタデータ) (2023-12-17T04:45:15Z) - Bridging the Gap between Multi-focus and Multi-modal: A Focused
Integration Framework for Multi-modal Image Fusion [5.417493475406649]
MMIF(Multi-Modal Image fusion)は、異なるモダリティ画像からの貴重な情報を融合画像に統合する。
本稿では,協調型統合とモダリティ情報抽出のためのMMIFフレームワークを提案する。
提案アルゴリズムは、視覚知覚と定量的評価において最先端の手法を超越することができる。
論文 参考訳(メタデータ) (2023-11-03T12:58:39Z) - Equivariant Multi-Modality Image Fusion [124.11300001864579]
エンドツーエンドの自己教師型学習のための同変多モードImAge融合パラダイムを提案する。
我々のアプローチは、自然画像応答が特定の変換に等しくなるという以前の知識に根ざしている。
実験により、EMMAは赤外線可視画像と医用画像に高品質な融合結果をもたらすことが確認された。
論文 参考訳(メタデータ) (2023-05-19T05:50:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。