論文の概要: MoE-Fusion: Instance Embedded Mixture-of-Experts for Infrared and
Visible Image Fusion
- arxiv url: http://arxiv.org/abs/2302.01392v1
- Date: Thu, 2 Feb 2023 20:06:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-06 18:26:46.662015
- Title: MoE-Fusion: Instance Embedded Mixture-of-Experts for Infrared and
Visible Image Fusion
- Title(参考訳): MoE-Fusion:赤外線と可視画像融合のための試験片の埋め込み
- Authors: Yiming Sun, Bing Cao, Pengfei Zhu, Qinghua Hu
- Abstract要約: 赤外線と可視画像の融合は、単モードイメージングの不完全性を補うことができる。
本稿では,赤外線と可視光の融合のためのMixture-of-Expertsを組み込んだ新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 59.19469551774703
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Infrared and visible image fusion can compensate for the incompleteness of
single-modality imaging and provide a more comprehensive scene description
based on cross-modal complementarity. Most works focus on learning the overall
cross-modal features by high- and low-frequency constraints at the image level
alone, ignoring the fact that cross-modal instance-level features often contain
more valuable information. To fill this gap, we model cross-modal
instance-level features by embedding instance information into a set of
Mixture-of-Experts (MoEs) for the first time, prompting image fusion networks
to specifically learn instance-level information. We propose a novel framework
with instance embedded Mixture-of-Experts for infrared and visible image
fusion, termed MoE-Fusion, which contains an instance embedded MoE group
(IE-MoE), an MoE-Decoder, two encoders, and two auxiliary detection networks.
By embedding the instance-level information learned in the auxiliary network,
IE-MoE achieves specialized learning of cross-modal foreground and background
features. MoE-Decoder can adaptively select suitable experts for cross-modal
feature decoding and obtain fusion results dynamically. Extensive experiments
show that our MoE-Fusion outperforms state-of-the-art methods in preserving
contrast and texture details by learning instance-level information in
cross-modal images.
- Abstract(参考訳): 赤外および可視画像融合は、単モードイメージングの不完全性を補うことができ、クロスモーダル補完性に基づくより包括的なシーン記述を提供する。
ほとんどの研究は、画像レベルでの高頻度および低周波制約による全体的なクロスモーダル特徴の学習に重点を置いており、クロスモーダルのインスタンスレベルの特徴がより価値のある情報を含んでいるという事実を無視している。
このギャップを埋めるために、インスタンス情報を初めて複数のエキスパート(moes)のセットに組み込むことで、クロスモーダルなインスタンスレベルの機能をモデル化し、イメージ融合ネットワークにインスタンスレベルの情報を具体的に学習させる。
赤外線と可視光の融合のための組込みMixture-of-Expertsを例として,組込みMoEグループ(IE-MoE),MoEデコーダ,2つのエンコーダ,および2つの補助検出ネットワークを含む,MoE-Fusionと呼ぶ新しいフレームワークを提案する。
補助ネットワークに学習したインスタンスレベルの情報を埋め込むことで、IE-MoEは、クロスモーダルフォアグラウンドとバックグラウンドの特徴を専門的に学習する。
MoE-Decoderは、クロスモーダルな特徴デコーディングに適した専門家を適応的に選択し、動的に融合結果を得る。
我々のMoE-Fusionはコントラストやテクスチャの保存において、クロスモーダル画像のインスタンスレベルの情報を学習することで、最先端の手法よりも優れていることを示す。
関連論文リスト
- Fusion from Decomposition: A Self-Supervised Approach for Image Fusion and Beyond [74.96466744512992]
画像融合の本質は、ソース画像からの相補的な情報を統合することである。
DeFusion++は、画像融合の品質を高め、下流の高レベル視覚タスクの有効性を高める、汎用的な融合表現を生成する。
論文 参考訳(メタデータ) (2024-10-16T06:28:49Z) - Unifying Visual and Semantic Feature Spaces with Diffusion Models for Enhanced Cross-Modal Alignment [20.902935570581207]
本稿では,マルチモーダルアライメント・アンド・リコンストラクション・ネットワーク(MARNet)を導入し,視覚ノイズに対するモデルの耐性を高める。
MARNetは、異なるドメイン間で情報をスムーズかつ安定的にブレンドする、クロスモーダル拡散再構成モジュールを含んでいる。
2つのベンチマークデータセットであるVireo-Food172とIngredient-101で実施された実験は、MARNetがモデルによって抽出された画像情報の品質を効果的に改善することを示した。
論文 参考訳(メタデータ) (2024-07-26T16:30:18Z) - MMA-UNet: A Multi-Modal Asymmetric UNet Architecture for Infrared and Visible Image Fusion [4.788349093716269]
MMIF(Multi-modal Image fusion)は、様々なモダリティから有用な情報を同じ表現空間にマッピングする。
既存の融合アルゴリズムは、対称的にマルチモーダル画像を融合する傾向があり、浅い情報や偏りが単一モーダルに対して失われる。
本研究では,異なるモードにおける情報の空間分布の差異を解析し,同一ネットワーク内の符号化特徴が同時に深層特徴空間アライメントを実現するには困難であることを証明した。
論文 参考訳(メタデータ) (2024-04-27T01:35:21Z) - FusionMamba: Dynamic Feature Enhancement for Multimodal Image Fusion with Mamba [17.75933946414591]
マルチモーダル画像融合は、異なるモードからの情報を組み合わせて、1つの画像と詳細なテクスチャを作成することを目的としている。
トランスフォーマーベースのモデルは、グローバルな特徴モデリングに優れているが、その2次複雑さに起因する計算上の課題に直面している。
マルチモーダル画像融合のための動的特徴強調手法FusionMambaを提案する。
論文 参考訳(メタデータ) (2024-04-15T06:37:21Z) - Task-Customized Mixture of Adapters for General Image Fusion [51.8742437521891]
一般画像融合は、マルチソース画像から重要な情報を統合することを目的としている。
本稿では, 汎用画像融合用アダプタ(TC-MoA)を新たに提案し, 統一モデルにおける様々な融合タスクを適応的に促進する。
論文 参考訳(メタデータ) (2024-03-19T07:02:08Z) - From Text to Pixels: A Context-Aware Semantic Synergy Solution for
Infrared and Visible Image Fusion [66.33467192279514]
我々は、テキスト記述から高レベルなセマンティクスを活用し、赤外線と可視画像のセマンティクスを統合するテキスト誘導多モード画像融合法を提案する。
本手法は,視覚的に優れた融合結果を生成するだけでなく,既存の手法よりも高い検出mAPを達成し,最先端の結果を得る。
論文 参考訳(メタデータ) (2023-12-31T08:13:47Z) - A Dual Domain Multi-exposure Image Fusion Network based on the
Spatial-Frequency Integration [57.14745782076976]
マルチ露光画像融合は、異なる露光で画像を統合することにより、単一の高ダイナミック画像を生成することを目的としている。
本稿では,MEF-SFI と呼ばれる空間周波数統合フレームワークによるマルチ露光画像融合の新たな視点を提案する。
提案手法は,最先端のマルチ露光画像融合手法に対する視覚的近似核融合結果を実現する。
論文 参考訳(メタデータ) (2023-12-17T04:45:15Z) - Bridging the Gap between Multi-focus and Multi-modal: A Focused
Integration Framework for Multi-modal Image Fusion [5.417493475406649]
MMIF(Multi-Modal Image fusion)は、異なるモダリティ画像からの貴重な情報を融合画像に統合する。
本稿では,協調型統合とモダリティ情報抽出のためのMMIFフレームワークを提案する。
提案アルゴリズムは、視覚知覚と定量的評価において最先端の手法を超越することができる。
論文 参考訳(メタデータ) (2023-11-03T12:58:39Z) - Equivariant Multi-Modality Image Fusion [124.11300001864579]
エンドツーエンドの自己教師型学習のための同変多モードImAge融合パラダイムを提案する。
我々のアプローチは、自然画像応答が特定の変換に等しくなるという以前の知識に根ざしている。
実験により、EMMAは赤外線可視画像と医用画像に高品質な融合結果をもたらすことが確認された。
論文 参考訳(メタデータ) (2023-05-19T05:50:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。