論文の概要: MaeFuse: Transferring Omni Features with Pretrained Masked Autoencoders for Infrared and Visible Image Fusion via Guided Training
- arxiv url: http://arxiv.org/abs/2404.11016v1
- Date: Wed, 17 Apr 2024 02:47:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-18 15:34:07.493818
- Title: MaeFuse: Transferring Omni Features with Pretrained Masked Autoencoders for Infrared and Visible Image Fusion via Guided Training
- Title(参考訳): MaeFuse: ガイドトレーニングによる赤外線および可視画像融合のための事前訓練されたマスク付きオートエンコーダを用いたOmni機能転送
- Authors: Jiayang Li, Junjun Jiang, Pengwei Liang, Jiayi Ma,
- Abstract要約: MaeFuseは、赤外線および可視画像融合(IVIF)用に設計された新しいオートエンコーダモデルである
提案モデルでは,MAE(Masked Autoencoders)の事前訓練エンコーダを用いて,低レベル再構成と高レベル視覚タスクのためのオムニ特徴抽出機能を備えている。
MaeFuseは、融合技術という領域で新しい視点を導入するだけでなく、様々な公開データセットで顕著なパフォーマンスで際立っている。
- 参考スコア(独自算出の注目度): 57.18758272617101
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this research, we introduce MaeFuse, a novel autoencoder model designed for infrared and visible image fusion (IVIF). The existing approaches for image fusion often rely on training combined with downstream tasks to obtain high-level visual information, which is effective in emphasizing target objects and delivering impressive results in visual quality and task-specific applications. MaeFuse, however, deviates from the norm. Instead of being driven by downstream tasks, our model utilizes a pretrained encoder from Masked Autoencoders (MAE), which facilities the omni features extraction for low-level reconstruction and high-level vision tasks, to obtain perception friendly features with a low cost. In order to eliminate the domain gap of different modal features and the block effect caused by the MAE encoder, we further develop a guided training strategy. This strategy is meticulously crafted to ensure that the fusion layer seamlessly adjusts to the feature space of the encoder, gradually enhancing the fusion effect. It facilitates the comprehensive integration of feature vectors from both infrared and visible modalities, preserving the rich details inherent in each. MaeFuse not only introduces a novel perspective in the realm of fusion techniques but also stands out with impressive performance across various public datasets.
- Abstract(参考訳): 本研究では,赤外線・可視画像融合(IVIF)のための新しいオートエンコーダモデルであるMaeFuseを紹介する。
既存の画像融合のアプローチは、高レベルな視覚情報を得るために、下流タスクと組み合わせたトレーニングに依存しており、ターゲットオブジェクトを強調し、視覚的品質やタスク固有のアプリケーションに印象的な結果をもたらすのに有効である。
しかし、MaeFuseは標準から逸脱している。
ダウンストリームタスクによって駆動される代わりに、我々はMasked Autoencoders (MAE) の事前訓練エンコーダを用いて、低レベル再構成および高レベル視覚タスクのためのオムニ特徴抽出機能を導入し、低コストで知覚親しみやすい特徴を得る。
異なるモーダル特徴の領域ギャップとMAEエンコーダによるブロック効果を解消するために,さらに指導的トレーニング戦略を開発する。
この戦略は、核融合層がエンコーダの特徴空間にシームレスに適応し、徐々に核融合効果を高めるために慎重に構成される。
これは、赤外線と可視光の両方から特徴ベクトルを包括的に統合し、それぞれに固有の豊富な詳細を保存するのに役立つ。
MaeFuseは、融合技術という領域で新しい視点を導入するだけでなく、様々な公開データセットで顕著なパフォーマンスで際立っている。
関連論文リスト
- Fus-MAE: A cross-attention-based data fusion approach for Masked
Autoencoders in remote sensing [5.990692497580643]
Fus-MAEは、マスク付きオートエンコーダに基づく自己教師型学習フレームワークである。
実験により,Fus-MAEは,SAR-光データ融合に適したコントラスト学習戦略と効果的に競合できることが示された。
論文 参考訳(メタデータ) (2024-01-05T11:36:21Z) - Fusion of Infrared and Visible Images based on Spatial-Channel
Attentional Mechanism [3.388001684915793]
Infrared and visible image fusion (IVIF) の革新的アプローチであるAMFusionNetを提案する。
可視光源からのテクスチャ特徴と赤外線画像からの熱的詳細を同化することにより,包括的情報に富んだ画像を生成する。
提案手法は, 品質と量の観点から, 最先端のアルゴリズムより優れている。
論文 参考訳(メタデータ) (2023-08-25T21:05:11Z) - A Task-guided, Implicitly-searched and Meta-initialized Deep Model for
Image Fusion [69.10255211811007]
本稿では,課題の多い現実シナリオにおいて,画像融合問題に対処するためのタスク誘導,インプリシト検索,メタ一般化(TIM)深層モデルを提案する。
具体的には、画像融合の教師なし学習プロセスを導くために、下流タスクからの情報を組み込む制約付き戦略を提案する。
このフレームワーク内に暗黙の探索スキームを設計し、高速な融合モデルのためのコンパクトなアーキテクチャを自動で発見する。
論文 参考訳(メタデータ) (2023-05-25T08:54:08Z) - Equivariant Multi-Modality Image Fusion [124.11300001864579]
エンドツーエンドの自己教師型学習のための同変多モードImAge融合パラダイムを提案する。
我々のアプローチは、自然画像応答が特定の変換に等しくなるという以前の知識に根ざしている。
実験により、EMMAは赤外線可視画像と医用画像に高品質な融合結果をもたらすことが確認された。
論文 参考訳(メタデータ) (2023-05-19T05:50:24Z) - CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition for
Multi-Modality Image Fusion [138.40422469153145]
本稿では,CDDFuse(Relationed-Driven Feature Decomposition Fusion)ネットワークを提案する。
近赤外可視画像融合や医用画像融合など,複数の融合タスクにおいてCDDFuseが有望な結果をもたらすことを示す。
論文 参考訳(メタデータ) (2022-11-26T02:40:28Z) - Breaking Free from Fusion Rule: A Fully Semantic-driven Infrared and
Visible Image Fusion [51.22863068854784]
赤外線と可視画像の融合はコンピュータビジョンの分野において重要な役割を果たす。
従来のアプローチでは、損失関数の様々な融合ルールを設計する努力が続けられていた。
セマンティックガイダンスを十分に活用する意味レベル融合ネットワークを開発した。
論文 参考訳(メタデータ) (2022-11-22T13:59:59Z) - CoCoNet: Coupled Contrastive Learning Network with Multi-level Feature
Ensemble for Multi-modality Image Fusion [72.8898811120795]
我々は、赤外線と可視画像の融合を実現するために、CoCoNetと呼ばれるコントラスト学習ネットワークを提案する。
本手法は,主観的評価と客観的評価の両面において,最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2022-11-20T12:02:07Z) - Unsupervised Image Fusion Method based on Feature Mutual Mapping [16.64607158983448]
上記の問題に対処するために,教師なし適応画像融合法を提案する。
入力元画像間の画素の接続を計測するグローバルマップを構築した。
本手法は視覚的知覚と客観的評価の両方において優れた性能を実現する。
論文 参考訳(メタデータ) (2022-01-25T07:50:14Z) - TransFuse: A Unified Transformer-based Image Fusion Framework using
Self-supervised Learning [5.849513679510834]
画像融合(英: Image fusion)とは、複数のソース画像からの情報を補完情報と統合し、単一の画像の豊かさを改善する技術である。
2段階の手法では、大規模な自然言語データセット上でエンコーダ・デコーダネットワークをトレーニングすることで、タスク固有の大量のトレーニングデータの必要性を回避する。
本稿では, ネットワークがタスク固有の特徴を学習することを奨励する, 破壊再構成に基づく自己指導型学習手法を提案する。
論文 参考訳(メタデータ) (2022-01-19T07:30:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。