論文の概要: MoE-Fusion: Instance Embedded Mixture-of-Experts for Infrared and
Visible Image Fusion
- arxiv url: http://arxiv.org/abs/2302.01392v1
- Date: Thu, 2 Feb 2023 20:06:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-06 18:26:46.662015
- Title: MoE-Fusion: Instance Embedded Mixture-of-Experts for Infrared and
Visible Image Fusion
- Title(参考訳): MoE-Fusion:赤外線と可視画像融合のための試験片の埋め込み
- Authors: Yiming Sun, Bing Cao, Pengfei Zhu, Qinghua Hu
- Abstract要約: 赤外線と可視画像の融合は、単モードイメージングの不完全性を補うことができる。
本稿では,赤外線と可視光の融合のためのMixture-of-Expertsを組み込んだ新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 59.19469551774703
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Infrared and visible image fusion can compensate for the incompleteness of
single-modality imaging and provide a more comprehensive scene description
based on cross-modal complementarity. Most works focus on learning the overall
cross-modal features by high- and low-frequency constraints at the image level
alone, ignoring the fact that cross-modal instance-level features often contain
more valuable information. To fill this gap, we model cross-modal
instance-level features by embedding instance information into a set of
Mixture-of-Experts (MoEs) for the first time, prompting image fusion networks
to specifically learn instance-level information. We propose a novel framework
with instance embedded Mixture-of-Experts for infrared and visible image
fusion, termed MoE-Fusion, which contains an instance embedded MoE group
(IE-MoE), an MoE-Decoder, two encoders, and two auxiliary detection networks.
By embedding the instance-level information learned in the auxiliary network,
IE-MoE achieves specialized learning of cross-modal foreground and background
features. MoE-Decoder can adaptively select suitable experts for cross-modal
feature decoding and obtain fusion results dynamically. Extensive experiments
show that our MoE-Fusion outperforms state-of-the-art methods in preserving
contrast and texture details by learning instance-level information in
cross-modal images.
- Abstract(参考訳): 赤外および可視画像融合は、単モードイメージングの不完全性を補うことができ、クロスモーダル補完性に基づくより包括的なシーン記述を提供する。
ほとんどの研究は、画像レベルでの高頻度および低周波制約による全体的なクロスモーダル特徴の学習に重点を置いており、クロスモーダルのインスタンスレベルの特徴がより価値のある情報を含んでいるという事実を無視している。
このギャップを埋めるために、インスタンス情報を初めて複数のエキスパート(moes)のセットに組み込むことで、クロスモーダルなインスタンスレベルの機能をモデル化し、イメージ融合ネットワークにインスタンスレベルの情報を具体的に学習させる。
赤外線と可視光の融合のための組込みMixture-of-Expertsを例として,組込みMoEグループ(IE-MoE),MoEデコーダ,2つのエンコーダ,および2つの補助検出ネットワークを含む,MoE-Fusionと呼ぶ新しいフレームワークを提案する。
補助ネットワークに学習したインスタンスレベルの情報を埋め込むことで、IE-MoEは、クロスモーダルフォアグラウンドとバックグラウンドの特徴を専門的に学習する。
MoE-Decoderは、クロスモーダルな特徴デコーディングに適した専門家を適応的に選択し、動的に融合結果を得る。
我々のMoE-Fusionはコントラストやテクスチャの保存において、クロスモーダル画像のインスタンスレベルの情報を学習することで、最先端の手法よりも優れていることを示す。
関連論文リスト
- From Text to Pixels: A Context-Aware Semantic Synergy Solution for
Infrared and Visible Image Fusion [66.33467192279514]
我々は、テキスト記述から高レベルなセマンティクスを活用し、赤外線と可視画像のセマンティクスを統合するテキスト誘導多モード画像融合法を提案する。
本手法は,視覚的に優れた融合結果を生成するだけでなく,既存の手法よりも高い検出mAPを達成し,最先端の結果を得る。
論文 参考訳(メタデータ) (2023-12-31T08:13:47Z) - A Dual Domain Multi-exposure Image Fusion Network based on the
Spatial-Frequency Integration [57.14745782076976]
マルチ露光画像融合は、異なる露光で画像を統合することにより、単一の高ダイナミック画像を生成することを目的としている。
本稿では,MEF-SFI と呼ばれる空間周波数統合フレームワークによるマルチ露光画像融合の新たな視点を提案する。
提案手法は,最先端のマルチ露光画像融合手法に対する視覚的近似核融合結果を実現する。
論文 参考訳(メタデータ) (2023-12-17T04:45:15Z) - Bridging the Gap between Multi-focus and Multi-modal: A Focused
Integration Framework for Multi-modal Image Fusion [5.417493475406649]
MMIF(Multi-Modal Image fusion)は、異なるモダリティ画像からの貴重な情報を融合画像に統合する。
本稿では,協調型統合とモダリティ情報抽出のためのMMIFフレームワークを提案する。
提案アルゴリズムは、視覚知覚と定量的評価において最先端の手法を超越することができる。
論文 参考訳(メタデータ) (2023-11-03T12:58:39Z) - MLF-DET: Multi-Level Fusion for Cross-Modal 3D Object Detection [54.52102265418295]
MLF-DETと呼ばれる,高性能なクロスモーダル3DオブジェクトDrectionのための,新規かつ効果的なマルチレベルフュージョンネットワークを提案する。
特徴レベルの融合では、マルチスケールのボクセル特徴と画像の特徴を密集したマルチスケールのボクセル画像融合(MVI)モジュールを提示する。
本稿では,画像のセマンティクスを利用して検出候補の信頼度を補正するFCR(Feature-cued Confidence Rectification)モジュールを提案する。
論文 参考訳(メタデータ) (2023-07-18T11:26:02Z) - Equivariant Multi-Modality Image Fusion [142.84362457655516]
エンドツーエンドの自己教師型学習のための同変多モードImAge融合パラダイムを提案する。
我々のアプローチは、自然像が特定の変換に等しくなるという以前の知識に基づいている。
実験により,赤外可視画像と医用画像の両方に対して高品質な融合結果が得られた。
論文 参考訳(メタデータ) (2023-05-19T05:50:24Z) - TransFuse: A Unified Transformer-based Image Fusion Framework using
Self-supervised Learning [5.849513679510834]
画像融合(英: Image fusion)とは、複数のソース画像からの情報を補完情報と統合し、単一の画像の豊かさを改善する技術である。
2段階の手法では、大規模な自然言語データセット上でエンコーダ・デコーダネットワークをトレーニングすることで、タスク固有の大量のトレーニングデータの必要性を回避する。
本稿では, ネットワークがタスク固有の特徴を学習することを奨励する, 破壊再構成に基づく自己指導型学習手法を提案する。
論文 参考訳(メタデータ) (2022-01-19T07:30:44Z) - End-to-end Multi-modal Video Temporal Grounding [105.36814858748285]
ビデオから補完情報を抽出するマルチモーダルフレームワークを提案する。
我々は、外見にRGB画像、運動に光学フロー、画像構造に深度マップを採用する。
本稿では、Charades-STAおよびActivityNet Captionsデータセットの実験を行い、提案手法が最先端のアプローチに対して好適に動作することを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:10Z) - DF^2AM: Dual-level Feature Fusion and Affinity Modeling for RGB-Infrared
Cross-modality Person Re-identification [18.152310122348393]
RGB-赤外線による人物再識別は、クラス内変異とモダリティの相違が原因で難しい課題である。
我々は,局所的・グローバル的特徴融合(df2)モジュールを,局所的特徴とグローバル的特徴の区別に着目して提案する。
人物画像からグローバルな特徴間の関係をさらに掘り下げるために,親和性モデリング(AM)モジュールを提案する。
論文 参考訳(メタデータ) (2021-04-01T03:12:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。