論文の概要: Multi-modal Gated Mixture of Local-to-Global Experts for Dynamic Image
Fusion
- arxiv url: http://arxiv.org/abs/2302.01392v2
- Date: Thu, 23 Mar 2023 07:15:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-24 17:23:23.881234
- Title: Multi-modal Gated Mixture of Local-to-Global Experts for Dynamic Image
Fusion
- Title(参考訳): 動的画像融合のための局所-グローバルエキスパートのマルチモーダルGated Mixture
- Authors: Yiming Sun, Bing Cao, Pengfei Zhu, Qinghua Hu
- Abstract要約: 赤外線と可視画像の融合は,複数の情報源からの包括的情報を統合して,様々な作業において優れた性能を実現することを目的としている。
局所-言語の専門家によるマルチモーダルゲート混合を用いた動的画像融合フレームワークを提案する。
本モデルは,Mixture of Local Experts (MoLE) とMixture of Global Experts (MoGE) から構成される。
- 参考スコア(独自算出の注目度): 59.19469551774703
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Infrared and visible image fusion aims to integrate comprehensive information
from multiple sources to achieve superior performances on various practical
tasks, such as detection, over that of a single modality. However, most
existing methods directly combined the texture details and object contrast of
different modalities, ignoring the dynamic changes in reality, which diminishes
the visible texture in good lighting conditions and the infrared contrast in
low lighting conditions. To fill this gap, we propose a dynamic image fusion
framework with a multi-modal gated mixture of local-to-global experts, termed
MoE-Fusion, to dynamically extract effective and comprehensive information from
the respective modalities. Our model consists of a Mixture of Local Experts
(MoLE) and a Mixture of Global Experts (MoGE) guided by a multi-modal gate. The
MoLE performs specialized learning of multi-modal local features, prompting the
fused images to retain the local information in a sample-adaptive manner, while
the MoGE focuses on the global information that complements the fused image
with overall texture detail and contrast. Extensive experiments show that our
MoE-Fusion outperforms state-of-the-art methods in preserving multi-modal image
texture and contrast through the local-to-global dynamic learning paradigm, and
also achieves superior performance on detection tasks. Our code will be
available: https://github.com/SunYM2020/MoE-Fusion.
- Abstract(参考訳): 赤外線および可視画像融合は、複数のソースからの包括的な情報を統合し、検出などの様々な実用的なタスクにおいて単一のモダリティよりも優れたパフォーマンスを達成することを目的としている。
しかし、既存のほとんどの手法は、テクスチャの詳細と異なるモードのオブジェクトコントラストを直接組み合わせ、現実の動的変化を無視し、良質な照明条件における可視テクスチャと低照度における赤外線コントラストを減少させる。
このギャップを埋めるために,MoE-Fusionと呼ばれるマルチモーダルゲートを用いた動的画像融合フレームワークを提案し,各モーダルから効果的かつ包括的な情報を動的に抽出する。
本モデルでは,地域の専門家 (mole) とグローバル専門家 (moge) を混合し,マルチモーダルゲートを導いた。
MoLEはマルチモーダルな局所特徴の専門的な学習を行い、融合した画像が局所情報をサンプル適応的に保持するように促す一方、MoGEは融合した画像を総合的なテクスチャの詳細とコントラストで補完するグローバルな情報に焦点を当てる。
広汎な実験により,MoE-Fusionはマルチモーダル画像テクスチャとコントラストを局所的・グローバル的動的学習パラダイムで保存する上で,最先端の手法よりも優れており,検出タスクにおいて優れた性能を発揮することが示された。
私たちのコードは、https://github.com/SunYM2020/MoE-Fusion.comで利用可能です。
関連論文リスト
- From Text to Pixels: A Context-Aware Semantic Synergy Solution for
Infrared and Visible Image Fusion [66.33467192279514]
我々は、テキスト記述から高レベルなセマンティクスを活用し、赤外線と可視画像のセマンティクスを統合するテキスト誘導多モード画像融合法を提案する。
本手法は,視覚的に優れた融合結果を生成するだけでなく,既存の手法よりも高い検出mAPを達成し,最先端の結果を得る。
論文 参考訳(メタデータ) (2023-12-31T08:13:47Z) - A Dual Domain Multi-exposure Image Fusion Network based on the
Spatial-Frequency Integration [57.14745782076976]
マルチ露光画像融合は、異なる露光で画像を統合することにより、単一の高ダイナミック画像を生成することを目的としている。
本稿では,MEF-SFI と呼ばれる空間周波数統合フレームワークによるマルチ露光画像融合の新たな視点を提案する。
提案手法は,最先端のマルチ露光画像融合手法に対する視覚的近似核融合結果を実現する。
論文 参考訳(メタデータ) (2023-12-17T04:45:15Z) - Bridging the Gap between Multi-focus and Multi-modal: A Focused
Integration Framework for Multi-modal Image Fusion [5.417493475406649]
MMIF(Multi-Modal Image fusion)は、異なるモダリティ画像からの貴重な情報を融合画像に統合する。
本稿では,協調型統合とモダリティ情報抽出のためのMMIFフレームワークを提案する。
提案アルゴリズムは、視覚知覚と定量的評価において最先端の手法を超越することができる。
論文 参考訳(メタデータ) (2023-11-03T12:58:39Z) - MLF-DET: Multi-Level Fusion for Cross-Modal 3D Object Detection [54.52102265418295]
MLF-DETと呼ばれる,高性能なクロスモーダル3DオブジェクトDrectionのための,新規かつ効果的なマルチレベルフュージョンネットワークを提案する。
特徴レベルの融合では、マルチスケールのボクセル特徴と画像の特徴を密集したマルチスケールのボクセル画像融合(MVI)モジュールを提示する。
本稿では,画像のセマンティクスを利用して検出候補の信頼度を補正するFCR(Feature-cued Confidence Rectification)モジュールを提案する。
論文 参考訳(メタデータ) (2023-07-18T11:26:02Z) - Equivariant Multi-Modality Image Fusion [142.84362457655516]
エンドツーエンドの自己教師型学習のための同変多モードImAge融合パラダイムを提案する。
我々のアプローチは、自然像が特定の変換に等しくなるという以前の知識に基づいている。
実験により,赤外可視画像と医用画像の両方に対して高品質な融合結果が得られた。
論文 参考訳(メタデータ) (2023-05-19T05:50:24Z) - TransFuse: A Unified Transformer-based Image Fusion Framework using
Self-supervised Learning [5.849513679510834]
画像融合(英: Image fusion)とは、複数のソース画像からの情報を補完情報と統合し、単一の画像の豊かさを改善する技術である。
2段階の手法では、大規模な自然言語データセット上でエンコーダ・デコーダネットワークをトレーニングすることで、タスク固有の大量のトレーニングデータの必要性を回避する。
本稿では, ネットワークがタスク固有の特徴を学習することを奨励する, 破壊再構成に基づく自己指導型学習手法を提案する。
論文 参考訳(メタデータ) (2022-01-19T07:30:44Z) - End-to-end Multi-modal Video Temporal Grounding [105.36814858748285]
ビデオから補完情報を抽出するマルチモーダルフレームワークを提案する。
我々は、外見にRGB画像、運動に光学フロー、画像構造に深度マップを採用する。
本稿では、Charades-STAおよびActivityNet Captionsデータセットの実験を行い、提案手法が最先端のアプローチに対して好適に動作することを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:10Z) - DF^2AM: Dual-level Feature Fusion and Affinity Modeling for RGB-Infrared
Cross-modality Person Re-identification [18.152310122348393]
RGB-赤外線による人物再識別は、クラス内変異とモダリティの相違が原因で難しい課題である。
我々は,局所的・グローバル的特徴融合(df2)モジュールを,局所的特徴とグローバル的特徴の区別に着目して提案する。
人物画像からグローバルな特徴間の関係をさらに掘り下げるために,親和性モデリング(AM)モジュールを提案する。
論文 参考訳(メタデータ) (2021-04-01T03:12:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。