論文の概要: TransMEF: A Transformer-Based Multi-Exposure Image Fusion Framework
using Self-Supervised Multi-Task Learning
- arxiv url: http://arxiv.org/abs/2112.01030v1
- Date: Thu, 2 Dec 2021 07:43:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-03 15:32:23.947379
- Title: TransMEF: A Transformer-Based Multi-Exposure Image Fusion Framework
using Self-Supervised Multi-Task Learning
- Title(参考訳): TransMEF: 自己監督型マルチタスク学習を用いたトランスフォーマーに基づくマルチ露光画像融合フレームワーク
- Authors: Linhao Qu, Shaolei Liu, Manning Wang, Zhijian Song
- Abstract要約: 変換器を用いたマルチ露光画像融合フレームワークであるTransMEFを提案する。
このフレームワークはエンコーダ-デコーダネットワークに基づいており、大きな自然言語データセットでトレーニングすることができる。
- 参考スコア(独自算出の注目度): 5.926203312586108
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose TransMEF, a transformer-based multi-exposure image
fusion framework that uses self-supervised multi-task learning. The framework
is based on an encoder-decoder network, which can be trained on large natural
image datasets and does not require ground truth fusion images. We design three
self-supervised reconstruction tasks according to the characteristics of
multi-exposure images and conduct these tasks simultaneously using multi-task
learning; through this process, the network can learn the characteristics of
multi-exposure images and extract more generalized features. In addition, to
compensate for the defect in establishing long-range dependencies in CNN-based
architectures, we design an encoder that combines a CNN module with a
transformer module. This combination enables the network to focus on both local
and global information. We evaluated our method and compared it to 11
competitive traditional and deep learning-based methods on the latest released
multi-exposure image fusion benchmark dataset, and our method achieved the best
performance in both subjective and objective evaluations.
- Abstract(参考訳): 本稿では,自己教師付きマルチタスク学習を用いたトランスフォーマティブベースのマルチエクスポージャー画像融合フレームワークであるtransmefを提案する。
このフレームワークはエンコーダ・デコーダネットワークに基づいており、大きな自然画像データセットでトレーニングでき、地上の真理融合画像を必要としない。
本研究では,マルチタスク学習を用いて,マルチエクスプロイア画像の特性に応じた3つの自己教師あり再構築タスクを設計,同時に実行し,ネットワークがマルチエクスプロイア画像の特性を学習し,より汎用的な特徴を抽出する。
さらに、CNNアーキテクチャにおける長距離依存性の確立の欠陥を補うために、CNNモジュールとトランスフォーマーモジュールを組み合わせたエンコーダを設計する。
この組み合わせにより、ネットワークはローカル情報とグローバル情報の両方に集中することができる。
提案手法を,最新のマルチ露画像融合ベンチマークデータセットを用いて評価し,従来型およびディープラーニングベースの11種類の手法と比較し,主観評価と客観的評価の両面で最高の性能を得た。
関連論文リスト
- Fusion from Decomposition: A Self-Supervised Approach for Image Fusion and Beyond [74.96466744512992]
画像融合の本質は、ソース画像からの相補的な情報を統合することである。
DeFusion++は、画像融合の品質を高め、下流の高レベル視覚タスクの有効性を高める、汎用的な融合表現を生成する。
論文 参考訳(メタデータ) (2024-10-16T06:28:49Z) - Enhance Image Classification via Inter-Class Image Mixup with Diffusion Model [80.61157097223058]
画像分類性能を高めるための一般的な戦略は、T2Iモデルによって生成された合成画像でトレーニングセットを増強することである。
本研究では,既存のデータ拡張技術の欠点について検討する。
Diff-Mixと呼ばれる革新的なクラス間データ拡張手法を導入する。
論文 参考訳(メタデータ) (2024-03-28T17:23:45Z) - PROMPT-IML: Image Manipulation Localization with Pre-trained Foundation
Models Through Prompt Tuning [35.39822183728463]
本稿では,改ざん画像を検出するための新しいPrompt-IMLフレームワークを提案する。
人間は、意味情報と高周波情報に基づいて、画像の真偽を識別する傾向がある。
我々のモデルは8つの典型的なフェイク画像データセットでより良い性能を得ることができる。
論文 参考訳(メタデータ) (2024-01-01T03:45:07Z) - CtxMIM: Context-Enhanced Masked Image Modeling for Remote Sensing Image Understanding [38.53988682814626]
リモートセンシング画像理解のためのコンテキスト強化マスク画像モデリング手法(CtxMIM)を提案する。
CtxMIMは、オリジナルのイメージパッチを再構成テンプレートとして定式化し、2セットのイメージパッチを操作するために、Siameseフレームワークを使用している。
シンプルでエレガントな設計により、CtxMIMは、大規模データセットでオブジェクトレベルまたはピクセルレベルの機能を学ぶための事前トレーニングモデルを奨励する。
論文 参考訳(メタデータ) (2023-09-28T18:04:43Z) - Equivariant Multi-Modality Image Fusion [124.11300001864579]
エンドツーエンドの自己教師型学習のための同変多モードImAge融合パラダイムを提案する。
我々のアプローチは、自然画像応答が特定の変換に等しくなるという以前の知識に根ざしている。
実験により、EMMAは赤外線可視画像と医用画像に高品質な融合結果をもたらすことが確認された。
論文 参考訳(メタデータ) (2023-05-19T05:50:24Z) - Multimodal Image Fusion based on Hybrid CNN-Transformer and Non-local
Cross-modal Attention [12.167049432063132]
本稿では,畳み込みエンコーダとトランスフォーマーベースのデコーダを組み合わせたハイブリッドモデルを提案する。
分岐融合モジュールは、2つの枝の特徴を適応的に融合させるように設計されている。
論文 参考訳(メタデータ) (2022-10-18T13:30:52Z) - Cross-receptive Focused Inference Network for Lightweight Image
Super-Resolution [64.25751738088015]
トランスフォーマーに基づく手法は、単一画像超解像(SISR)タスクにおいて顕著な性能を示した。
動的に特徴を抽出するために文脈情報を組み込む必要がある変換器は無視される。
我々は,CNNとTransformerを混合したCTブロックのカスケードで構成される,軽量なクロスレセプティブ・フォーカスド・推論・ネットワーク(CFIN)を提案する。
論文 参考訳(メタデータ) (2022-07-06T16:32:29Z) - Learning Enriched Features for Fast Image Restoration and Enhancement [166.17296369600774]
本稿では,ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とする。
我々は、高解像度の空間的詳細を同時に保存しながら、複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
提案手法は,デフォーカス・デブロアリング,画像デノイング,超解像,画像強調など,さまざまな画像処理タスクに対して,最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2022-04-19T17:59:45Z) - TransFuse: A Unified Transformer-based Image Fusion Framework using
Self-supervised Learning [5.849513679510834]
画像融合(英: Image fusion)とは、複数のソース画像からの情報を補完情報と統合し、単一の画像の豊かさを改善する技術である。
2段階の手法では、大規模な自然言語データセット上でエンコーダ・デコーダネットワークをトレーニングすることで、タスク固有の大量のトレーニングデータの必要性を回避する。
本稿では, ネットワークがタスク固有の特徴を学習することを奨励する, 破壊再構成に基づく自己指導型学習手法を提案する。
論文 参考訳(メタデータ) (2022-01-19T07:30:44Z) - Learning Enriched Features for Real Image Restoration and Enhancement [166.17296369600774]
畳み込みニューラルネットワーク(CNN)は、画像復元作業における従来のアプローチよりも劇的に改善されている。
ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とした,新しいアーキテクチャを提案する。
提案手法は,高解像度の空間的詳細を同時に保存しながら,複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
論文 参考訳(メタデータ) (2020-03-15T11:04:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。