Fugu-MT 論文翻訳(概要): Image Fusion Transformer

論文の概要: Image Fusion Transformer

arxiv url: http://arxiv.org/abs/2107.09011v1
Date: Mon, 19 Jul 2021 16:42:49 GMT
ステータス: 翻訳完了
システム内更新日: 2021-07-20 14:53:24.060615
Title: Image Fusion Transformer
Title（参考訳）: 画像融合変換器
Authors: Vibashan VS, Jeya Maria Jose Valanarasu, Poojan Oza and Vishal M. Patel
Abstract要約: 画像融合では、異なるセンサから得られた画像を融合して、情報強化された単一の画像を生成する。近年,画像融合のための有意義な特徴を符号化するために,最先端の手法で畳み込みニューラルネットワーク(CNN)が採用されている。我々は,画像融合変換器 (IFT) を提案する。
参考スコア（独自算出の注目度）: 75.71025138448287
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In image fusion, images obtained from different sensors are fused to generate a single image with enhanced information. In recent years, state-of-the-art methods have adopted Convolution Neural Networks (CNNs) to encode meaningful features for image fusion. Specifically, CNN-based methods perform image fusion by fusing local features. However, they do not consider long-range dependencies that are present in the image. Transformer-based models are designed to overcome this by modeling the long-range dependencies with the help of self-attention mechanism. This motivates us to propose a novel Image Fusion Transformer (IFT) where we develop a transformer-based multi-scale fusion strategy that attends to both local and long-range information (or global context). The proposed method follows a two-stage training approach. In the first stage, we train an auto-encoder to extract deep features at multiple scales. In the second stage, multi-scale features are fused using a Spatio-Transformer (ST) fusion strategy. The ST fusion blocks are comprised of a CNN and a transformer branch which capture local and long-range features, respectively. Extensive experiments on multiple benchmark datasets show that the proposed method performs better than many competitive fusion algorithms. Furthermore, we show the effectiveness of the proposed ST fusion strategy with an ablation analysis. The source code is available at: https://github.com/Vibashan/Image-Fusion-Transformer}{https://github.com/Vibashan/Image-Fusion-Transformer.
Abstract（参考訳）: 画像融合では、異なるセンサから得られた画像が融合され、情報強化された単一の画像を生成する。近年,画像融合に有効な特徴を符号化するために,最先端の手法で畳み込みニューラルネットワーク(CNN)を採用している。具体的には,局所的な特徴を融合させて画像融合を行う。しかし、画像に存在する長距離依存関係は考慮していない。トランスフォーマーベースのモデルは、セルフアテンションメカニズムの助けを借りて、長距離依存をモデル化することで、これを克服するように設計されている。そこで我々は,局所的・長期的情報(あるいはグローバルな文脈)に対応する,トランスフォーマーベースのマルチスケールフュージョン戦略を開発する新しいイメージフュージョントランスフォーマー (IFT) を提案する。提案手法は2段階の訓練手法に従う。最初の段階では、複数のスケールで深い特徴を抽出するオートエンコーダを訓練する。第2段階では、スペーシ・トランスフォーマー(ST)融合戦略を用いてマルチスケール機能を融合する。 ST融合ブロックは、それぞれ局所特徴と長距離特徴をキャプチャするCNNと変圧器分岐から構成される。複数のベンチマークデータセットに対する大規模な実験により,提案手法は多くの競合融合アルゴリズムよりも優れた性能を示した。さらに,提案するst核融合戦略のアブレーション解析による有効性を示す。ソースコードは、https://github.com/Vibashan/Image-Fusion-Transformer}{https://github.com/Vibashan/Image-Fusion-Transformerで入手できる。

関連論文リスト

MAFS: Masked Autoencoder for Infrared-Visible Image Fusion and Semantic Segmentation [43.62940654606311]
画像融合とセマンティックセグメンテーションのための統合ネットワークを提案する。画像融合のセマンティック・アウェア機能を高めるための異種機能融合戦略を考案する。フレームワーク内では,マルチステージトランスフォーマーデコーダを設計し,より微細なマルチスケールフューズされた特徴を効率的に集約する。
論文参考訳（メタデータ） (2025-09-15T11:55:55Z)
Unity is Strength: Unifying Convolutional and Transformeral Features for Better Person Re-Identification [60.9670254833103]
人物再識別(ReID)は、重複しないカメラを通して特定の人物を回収することを目的としている。画像に基づく人物ReIDのためのCNNとトランスフォーマーの強みを統合するために,FusionReIDと呼ばれる新しい融合フレームワークを提案する。
論文参考訳（メタデータ） (2024-12-23T03:19:19Z)
Why mamba is effective? Exploit Linear Transformer-Mamba Network for Multi-Modality Image Fusion [15.79138560700532]
我々はTmambaと呼ばれる2分岐画像融合ネットワークを提案する。線形トランスフォーマーとMambaで構成されており、線形複雑性を維持しながらグローバルなモデリング機能を備えている。実験の結果、我々のTmambaは赤外線可視画像融合や医用画像融合など、複数の融合タスクにおいて有望な結果が得られることがわかった。
論文参考訳（メタデータ） (2024-09-05T03:42:11Z)
FlatFusion: Delving into Details of Sparse Transformer-based Camera-LiDAR Fusion for Autonomous Driving [63.96049803915402]
多様なセンサーのモダリティからのデータの統合は、自律運転のシナリオにおいて一般的な方法論となっている。効率的な点雲変換器の最近の進歩は、スパースフォーマットにおける情報統合の有効性を裏付けている。本稿では,Transformer を用いた sparse cameraLiDAR 融合における設計選択を包括的に検討する。
論文参考訳（メタデータ） (2024-08-13T11:46:32Z)
Fusion Transformer with Object Mask Guidance for Image Forgery Analysis [9.468075384561947]
OMG-Fuserは、様々な法医学的信号から情報を取り出すために設計された融合トランスフォーマーベースのネットワークである。本手法は任意の数の法定信号で動作可能であり,解析に対象情報を利用する。我々のモデルは、伝統的で斬新な偽造攻撃に対して堅牢であり、スクラッチからトレーニングを受けることなく、新しい信号で拡張することができる。
論文参考訳（メタデータ） (2024-03-18T20:20:13Z)
FuseFormer: A Transformer for Visual and Thermal Image Fusion [3.6064695344878093]
本稿では,従来の評価指標を損失関数として用いた場合の限界を緩和する画像融合問題に対する新しい手法を提案する。提案手法は,局所的およびグローバルなコンテキスト情報に順応的に対処するトランスフォーマーベースのマルチスケール融合戦略を統合する。提案手法は,新たな損失関数の定義とともに,他の競合融合アルゴリズムよりも優れた性能を示す。
論文参考訳（メタデータ） (2024-02-01T19:40:39Z)
Transformer Fusion with Optimal Transport [25.022849817421964]
Fusionは、独立に訓練された複数のニューラルネットワークをマージして、それらの能力を組み合わせる技術である。本稿では, トランスポートを利用した2つ以上のトランスフォーマーネットワークを (ソフト) に融合させる手法を提案する。
論文参考訳（メタデータ） (2023-10-09T13:40:31Z)
Mutual-Guided Dynamic Network for Image Fusion [51.615598671899335]
画像融合のための新しい相互誘導動的ネットワーク(MGDN)を提案する。 5つのベンチマークデータセットによる実験結果から,提案手法は4つの画像融合タスクにおいて既存手法よりも優れていることが示された。
論文参考訳（メタデータ） (2023-08-24T03:50:37Z)
Isomer: Isomerous Transformer for Zero-shot Video Object Segmentation [59.91357714415056]
コンテクスト共有変換器(CST)とセマンティックガザリング散乱変換器(SGST)の2つの変種を提案する。 CSTは、軽量な計算により、画像フレーム内のグローバル共有コンテキスト情報を学習し、SGSTは、前景と背景のセマンティック相関を別々にモデル化する。多段核融合にバニラ変換器を使用するベースラインと比較して,我々は13倍の速度向上を実現し,新しい最先端ZVOS性能を実現する。
論文参考訳（メタデータ） (2023-08-13T06:12:00Z)
A Task-guided, Implicitly-searched and Meta-initialized Deep Model for Image Fusion [69.10255211811007]
本稿では,課題の多い現実シナリオにおいて,画像融合問題に対処するためのタスク誘導,インプリシト検索,メタ一般化(TIM)深層モデルを提案する。具体的には、画像融合の教師なし学習プロセスを導くために、下流タスクからの情報を組み込む制約付き戦略を提案する。このフレームワーク内に暗黙の探索スキームを設計し、高速な融合モデルのためのコンパクトなアーキテクチャを自動で発見する。
論文参考訳（メタデータ） (2023-05-25T08:54:08Z)
CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition for Multi-Modality Image Fusion [138.40422469153145]
本稿では,CDDFuse(Relationed-Driven Feature Decomposition Fusion)ネットワークを提案する。近赤外可視画像融合や医用画像融合など,複数の融合タスクにおいてCDDFuseが有望な結果をもたらすことを示す。
論文参考訳（メタデータ） (2022-11-26T02:40:28Z)
Multimodal Image Fusion based on Hybrid CNN-Transformer and Non-local Cross-modal Attention [12.167049432063132]
本稿では,畳み込みエンコーダとトランスフォーマーベースのデコーダを組み合わせたハイブリッドモデルを提案する。分岐融合モジュールは、2つの枝の特徴を適応的に融合させるように設計されている。
論文参考訳（メタデータ） (2022-10-18T13:30:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。