論文の概要: SwinFuse: A Residual Swin Transformer Fusion Network for Infrared and
Visible Images
- arxiv url: http://arxiv.org/abs/2204.11436v1
- Date: Mon, 25 Apr 2022 05:04:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-26 14:16:16.463823
- Title: SwinFuse: A Residual Swin Transformer Fusion Network for Infrared and
Visible Images
- Title(参考訳): swinfuse:赤外線および可視画像のための残留スウィントランス融合ネットワーク
- Authors: Zhishe Wang, Yanlin Chen, Wenyu Shao, Hui Li, Lei Zhang
- Abstract要約: 我々は、赤外線と可視画像、すなわちtextit Residual Swin Transformer Fusion Networkのためのシンプルで強力な核融合ベースラインをSwinFuseと呼ぶ。
SwinFuseには,グローバルな機能抽出,融合レイヤ,機能再構築という,3つの部分が含まれています。
特に、我々は、純粋なトランスフォーマーネットワークである長距離依存をモデル化するために、バックボーンを符号化する完全な注意機能を構築し、畳み込みニューラルネットワークと比較して、より強力な表現能力を有する。
- 参考スコア(独自算出の注目度): 10.152435404645772
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The existing deep learning fusion methods mainly concentrate on the
convolutional neural networks, and few attempts are made with transformer.
Meanwhile, the convolutional operation is a content-independent interaction
between the image and convolution kernel, which may lose some important
contexts and further limit fusion performance. Towards this end, we present a
simple and strong fusion baseline for infrared and visible images,
namely\textit{ Residual Swin Transformer Fusion Network}, termed as SwinFuse.
Our SwinFuse includes three parts: the global feature extraction, fusion layer
and feature reconstruction. In particular, we build a fully attentional feature
encoding backbone to model the long-range dependency, which is a pure
transformer network and has a stronger representation ability compared with the
convolutional neural networks. Moreover, we design a novel feature fusion
strategy based on $L_{1}$-norm for sequence matrices, and measure the
corresponding activity levels from row and column vector dimensions, which can
well retain competitive infrared brightness and distinct visible details.
Finally, we testify our SwinFuse with nine state-of-the-art traditional and
deep learning methods on three different datasets through subjective
observations and objective comparisons, and the experimental results manifest
that the proposed SwinFuse obtains surprising fusion performance with strong
generalization ability and competitive computational efficiency. The code will
be available at https://github.com/Zhishe-Wang/SwinFuse.
- Abstract(参考訳): 既存のディープラーニング融合法は主に畳み込みニューラルネットワークに集中しており、変圧器による試みはほとんどない。
一方、畳み込み操作は、画像と畳み込みカーネル間のコンテンツ非依存の相互作用であり、重要なコンテキストが失われ、融合性能がさらに制限される可能性がある。
この目的に向けて,赤外線画像と可視画像の簡易かつ強力な融合ベースライン,すなわちswainfuseと呼ばれる\textit{ residual swin transformer fusion network}を提案する。
SwinFuseにはグローバルな特徴抽出、融合層、特徴再構成という3つの部分が含まれています。
特に,純粋なトランスフォーマーネットワークであり,畳み込みニューラルネットワークに比べて表現能力が強い長距離依存をモデル化するために,バックボーンを符号化する完全に注意深い特徴を構築する。
さらに,数列行列に対する$l_{1}$-normに基づく新しい特徴融合戦略をデザインし,それに対応する動きレベルを列と列のベクトル次元から測定した。
最後に,本提案手法を主観的観測と客観的比較により3つの異なるデータセット上で9つの最先端・深層学習法で検証し,提案手法が強力な一般化能力と競合計算効率で驚くべき融合性能を得ることを示す。
コードはhttps://github.com/Zhishe-Wang/SwinFuse.comから入手できる。
関連論文リスト
- CTRL-F: Pairing Convolution with Transformer for Image Classification via Multi-Level Feature Cross-Attention and Representation Learning Fusion [0.0]
コンボリューションとトランスフォーマーを組み合わせた,軽量なハイブリッドネットワークを提案する。
畳み込み経路から取得した局所応答とMFCAモジュールから取得したグローバル応答とを融合する。
実験により、我々の変種は、大規模データや低データレギュレーションでスクラッチからトレーニングしたとしても、最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-07-09T08:47:13Z) - Retain, Blend, and Exchange: A Quality-aware Spatial-Stereo Fusion Approach for Event Stream Recognition [57.74076383449153]
本稿では,差分融合によるイベントストリームに基づくパターン認識のための新しいデュアルストリームフレームワークEFV++を提案する。
イベントイメージとイベントボクセルという2つの共通のイベント表現を同時にモデル化する。
Bullying10kデータセットで新しい最先端のパフォーマンス、すなわち90.51%$を達成し、2位を+2.21%$で上回る。
論文 参考訳(メタデータ) (2024-06-27T02:32:46Z) - Transformer Fusion with Optimal Transport [25.022849817421964]
Fusionは、独立に訓練された複数のニューラルネットワークをマージして、それらの能力を組み合わせる技術である。
本稿では, トランスポートを利用した2つ以上のトランスフォーマーネットワークを (ソフト) に融合させる手法を提案する。
論文 参考訳(メタデータ) (2023-10-09T13:40:31Z) - Cross-receptive Focused Inference Network for Lightweight Image
Super-Resolution [64.25751738088015]
トランスフォーマーに基づく手法は、単一画像超解像(SISR)タスクにおいて顕著な性能を示した。
動的に特徴を抽出するために文脈情報を組み込む必要がある変換器は無視される。
我々は,CNNとTransformerを混合したCTブロックのカスケードで構成される,軽量なクロスレセプティブ・フォーカスド・推論・ネットワーク(CFIN)を提案する。
論文 参考訳(メタデータ) (2022-07-06T16:32:29Z) - Multimodal Token Fusion for Vision Transformers [54.81107795090239]
変換器を用いた視覚タスクのためのマルチモーダルトークン融合法(TokenFusion)を提案する。
複数のモダリティを効果的に融合させるために、TokenFusionは動的に非形式的トークンを検出し、これらのトークンを投影および集約されたモジュール間特徴に置き換える。
TokenFusionの設計により、トランスフォーマーはマルチモーダル特徴間の相関を学習できるが、シングルモーダルトランスアーキテクチャはほとんど無傷である。
論文 参考訳(メタデータ) (2022-04-19T07:47:50Z) - Infrared and Visible Image Fusion via Interactive Compensatory Attention
Adversarial Learning [7.995162257955025]
本稿では, 融合バランスを改善するために, 生成的対角訓練に基づく新しいエンド・ツー・エンド・モードを提案する。
特にジェネレータでは、トリプルパスを持つマルチレベルエンコーダデコーダネットワークを構築し、赤外線および可視経路を採用し、さらなる強度と情報勾配を提供する。
さらに、二重判別器は、融合した結果とソース画像の類似した分布を特定するように設計されており、生成器はよりバランスの取れた結果を生成するように最適化されている。
論文 参考訳(メタデータ) (2022-03-29T08:28:14Z) - TGFuse: An Infrared and Visible Image Fusion Approach Based on
Transformer and Generative Adversarial Network [15.541268697843037]
本稿では,軽量トランスモジュールと対向学習に基づく赤外可視画像融合アルゴリズムを提案する。
大域的相互作用力にインスパイアされた我々は、トランスフォーマー技術を用いて、効果的な大域的核融合関係を学習する。
実験により提案したモジュールの有効性が実証された。
論文 参考訳(メタデータ) (2022-01-25T07:43:30Z) - Image Fusion Transformer [75.71025138448287]
画像融合では、異なるセンサから得られた画像を融合して、情報強化された単一の画像を生成する。
近年,画像融合のための有意義な特徴を符号化するために,最先端の手法で畳み込みニューラルネットワーク(CNN)が採用されている。
我々は,画像融合変換器 (IFT) を提案する。
論文 参考訳(メタデータ) (2021-07-19T16:42:49Z) - Swin-Unet: Unet-like Pure Transformer for Medical Image Segmentation [63.46694853953092]
Swin-Unetは、医用画像セグメンテーション用のUnetライクなトランスフォーマーである。
トークン化されたイメージパッチは、TransformerベースのU字型デコーダデコーダアーキテクチャに供給される。
論文 参考訳(メタデータ) (2021-05-12T09:30:26Z) - Visual Saliency Transformer [127.33678448761599]
RGBとRGB-Dの液状物体検出(SOD)のための、純粋な変圧器であるVST(Visual Saliency Transformer)に基づく新しい統一モデルを開発しました。
イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。
実験結果から,RGBとRGB-D SODのベンチマークデータセットにおいて,本モデルが既存の最新結果を上回っていることが示された。
論文 参考訳(メタデータ) (2021-04-25T08:24:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。