論文の概要: TransFuse: A Unified Transformer-based Image Fusion Framework using
Self-supervised Learning
- arxiv url: http://arxiv.org/abs/2201.07451v1
- Date: Wed, 19 Jan 2022 07:30:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-20 14:48:18.247451
- Title: TransFuse: A Unified Transformer-based Image Fusion Framework using
Self-supervised Learning
- Title(参考訳): TransFuse: 自己教師型学習を用いた統一型トランスフォーマーベース画像融合フレームワーク
- Authors: Linhao Qu, Shaolei Liu, Manning Wang, Shiman Li, Siqi Yin, Qin Qiao,
Zhijian Song
- Abstract要約: 画像融合(英: Image fusion)とは、複数のソース画像からの情報を補完情報と統合し、単一の画像の豊かさを改善する技術である。
2段階の手法では、大規模な自然言語データセット上でエンコーダ・デコーダネットワークをトレーニングすることで、タスク固有の大量のトレーニングデータの必要性を回避する。
本稿では, ネットワークがタスク固有の特徴を学習することを奨励する, 破壊再構成に基づく自己指導型学習手法を提案する。
- 参考スコア(独自算出の注目度): 5.849513679510834
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image fusion is a technique to integrate information from multiple source
images with complementary information to improve the richness of a single
image. Due to insufficient task-specific training data and corresponding ground
truth, most existing end-to-end image fusion methods easily fall into
overfitting or tedious parameter optimization processes. Two-stage methods
avoid the need of large amount of task-specific training data by training
encoder-decoder network on large natural image datasets and utilizing the
extracted features for fusion, but the domain gap between natural images and
different fusion tasks results in limited performance. In this study, we design
a novel encoder-decoder based image fusion framework and propose a
destruction-reconstruction based self-supervised training scheme to encourage
the network to learn task-specific features. Specifically, we propose three
destruction-reconstruction self-supervised auxiliary tasks for multi-modal
image fusion, multi-exposure image fusion and multi-focus image fusion based on
pixel intensity non-linear transformation, brightness transformation and noise
transformation, respectively. In order to encourage different fusion tasks to
promote each other and increase the generalizability of the trained network, we
integrate the three self-supervised auxiliary tasks by randomly choosing one of
them to destroy a natural image in model training. In addition, we design a new
encoder that combines CNN and Transformer for feature extraction, so that the
trained model can exploit both local and global information. Extensive
experiments on multi-modal image fusion, multi-exposure image fusion and
multi-focus image fusion tasks demonstrate that our proposed method achieves
the state-of-the-art performance in both subjective and objective evaluations.
The code will be publicly available soon.
- Abstract(参考訳): image fusionは、複数のソースイメージからの情報と補完的な情報を統合する技術であり、単一の画像の豊かさを向上させる。
タスク固有のトレーニングデータ不足とそれに対応する基礎的事実のため、既存の画像融合手法のほとんどは、過度に適合したり、面倒なパラメータ最適化プロセスに陥りやすい。
2段階の手法では,大規模な自然画像データセット上でエンコーダ・デコーダネットワークをトレーニングし,抽出した特徴を融合に利用することにより,タスク固有の大量のトレーニングデータの必要性を回避することができる。
本研究では,新しいエンコーダ・デコーダに基づく画像融合フレームワークを設計し,タスク固有の特徴を学習するための破壊再構成に基づく自己教師型トレーニングスキームを提案する。
具体的には、画素強度非直線変換、輝度変換、雑音変換に基づくマルチモーダル画像融合、マルチ露光画像融合、マルチフォーカス画像融合の3つの破壊再構成支援タスクを提案する。
異なる融合タスクが互いに促進し、訓練されたネットワークの一般化可能性を高めるために、モデルトレーニングにおいて自然像をランダムに選択して3つの自己教師付き補助タスクを統合する。
さらに,cnnとtransformerを組み合わせた特徴抽出のための新しいエンコーダの設計を行った。
マルチモーダル画像融合,マルチ露光画像融合,マルチフォーカス画像融合タスクの広範な実験により,提案手法が主観的,客観的両評価において最先端の性能を達成することを示す。
コードは近々公開される予定だ。
関連論文リスト
- Fusion from Decomposition: A Self-Supervised Approach for Image Fusion and Beyond [74.96466744512992]
画像融合の本質は、ソース画像からの相補的な情報を統合することである。
DeFusion++は、画像融合の品質を高め、下流の高レベル視覚タスクの有効性を高める、汎用的な融合表現を生成する。
論文 参考訳(メタデータ) (2024-10-16T06:28:49Z) - MMDRFuse: Distilled Mini-Model with Dynamic Refresh for Multi-Modality Image Fusion [32.38584862347954]
この目的を達成するために,動的リフレッシュ戦略(MMDRFuse)を用いた軽量蒸留ミニモデルを提案する。
モデルパシモニーを追求するために、合計で113のトレーニング可能なパラメータ(0.44KB)を持つ非常に小さな畳み込みネットワークを得る。
いくつかの公開データセットの実験により,本手法はモデル効率と複雑性の点で有望な優位性を示すことが示された。
論文 参考訳(メタデータ) (2024-08-28T08:52:33Z) - MaeFuse: Transferring Omni Features with Pretrained Masked Autoencoders for Infrared and Visible Image Fusion via Guided Training [95.24751989263117]
MaeFuseは、赤外線および可視画像融合(IVIF)用に設計された新しいオートエンコーダモデルである。
提案モデルでは,MAE(Masked Autoencoders)の事前訓練エンコーダを用いて,低レベル再構成と高レベル視覚タスクのためのオムニ特徴抽出機能を備えている。
MaeFuseは、融合技術という領域で新しい視点を導入するだけでなく、様々な公開データセットで顕著なパフォーマンスで際立っている。
論文 参考訳(メタデータ) (2024-04-17T02:47:39Z) - A Task-guided, Implicitly-searched and Meta-initialized Deep Model for
Image Fusion [69.10255211811007]
本稿では,課題の多い現実シナリオにおいて,画像融合問題に対処するためのタスク誘導,インプリシト検索,メタ一般化(TIM)深層モデルを提案する。
具体的には、画像融合の教師なし学習プロセスを導くために、下流タスクからの情報を組み込む制約付き戦略を提案する。
このフレームワーク内に暗黙の探索スキームを設計し、高速な融合モデルのためのコンパクトなアーキテクチャを自動で発見する。
論文 参考訳(メタデータ) (2023-05-25T08:54:08Z) - Equivariant Multi-Modality Image Fusion [124.11300001864579]
エンドツーエンドの自己教師型学習のための同変多モードImAge融合パラダイムを提案する。
我々のアプローチは、自然画像応答が特定の変換に等しくなるという以前の知識に根ざしている。
実験により、EMMAは赤外線可視画像と医用画像に高品質な融合結果をもたらすことが確認された。
論文 参考訳(メタデータ) (2023-05-19T05:50:24Z) - LRRNet: A Novel Representation Learning Guided Fusion Network for
Infrared and Visible Images [98.36300655482196]
我々は,融合タスクを数学的に定式化し,その最適解とそれを実装可能なネットワークアーキテクチャとの接続を確立する。
特に、融合タスクに学習可能な表現アプローチを採用し、融合ネットワークアーキテクチャの構築は学習可能なモデルを生成する最適化アルゴリズムによって導かれる。
この新しいネットワークアーキテクチャに基づいて、赤外線および可視光画像を融合するために、エンドツーエンドの軽量核融合ネットワークを構築する。
論文 参考訳(メタデータ) (2023-04-11T12:11:23Z) - CoCoNet: Coupled Contrastive Learning Network with Multi-level Feature Ensemble for Multi-modality Image Fusion [68.78897015832113]
我々は、赤外線と可視画像の融合を実現するために、CoCoNetと呼ばれるコントラスト学習ネットワークを提案する。
本手法は,主観的評価と客観的評価の両面において,最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2022-11-20T12:02:07Z) - Unsupervised Image Fusion Method based on Feature Mutual Mapping [16.64607158983448]
上記の問題に対処するために,教師なし適応画像融合法を提案する。
入力元画像間の画素の接続を計測するグローバルマップを構築した。
本手法は視覚的知覚と客観的評価の両方において優れた性能を実現する。
論文 参考訳(メタデータ) (2022-01-25T07:50:14Z) - TransMEF: A Transformer-Based Multi-Exposure Image Fusion Framework
using Self-Supervised Multi-Task Learning [5.926203312586108]
変換器を用いたマルチ露光画像融合フレームワークであるTransMEFを提案する。
このフレームワークはエンコーダ-デコーダネットワークに基づいており、大きな自然言語データセットでトレーニングすることができる。
論文 参考訳(メタデータ) (2021-12-02T07:43:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。