論文の概要: A Hybrid Transformer-Mamba Network for Single Image Deraining
- arxiv url: http://arxiv.org/abs/2409.00410v1
- Date: Sat, 31 Aug 2024 10:03:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 14:49:38.695544
- Title: A Hybrid Transformer-Mamba Network for Single Image Deraining
- Title(参考訳): 単一画像レイニングのためのハイブリッドトランス-マンバネットワーク
- Authors: Shangquan Sun, Wenqi Ren, Juxiang Zhou, Jianhou Gan, Rui Wang, Xiaochun Cao,
- Abstract要約: 既存のデラリング変換器では、固定レンジウィンドウやチャネル次元に沿って自己アテンション機構を採用している。
本稿では,多分岐型トランスフォーマー・マンバネットワーク(Transformer-Mamba Network,TransMamba Network,Transformer-Mamba Network)を提案する。
- 参考スコア(独自算出の注目度): 70.64069487982916
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing deraining Transformers employ self-attention mechanisms with fixed-range windows or along channel dimensions, limiting the exploitation of non-local receptive fields. In response to this issue, we introduce a novel dual-branch hybrid Transformer-Mamba network, denoted as TransMamba, aimed at effectively capturing long-range rain-related dependencies. Based on the prior of distinct spectral-domain features of rain degradation and background, we design a spectral-banded Transformer blocks on the first branch. Self-attention is executed within the combination of the spectral-domain channel dimension to improve the ability of modeling long-range dependencies. To enhance frequency-specific information, we present a spectral enhanced feed-forward module that aggregates features in the spectral domain. In the second branch, Mamba layers are equipped with cascaded bidirectional state space model modules to additionally capture the modeling of both local and global information. At each stage of both the encoder and decoder, we perform channel-wise concatenation of dual-branch features and achieve feature fusion through channel reduction, enabling more effective integration of the multi-scale information from the Transformer and Mamba branches. To better reconstruct innate signal-level relations within clean images, we also develop a spectral coherence loss. Extensive experiments on diverse datasets and real-world images demonstrate the superiority of our method compared against the state-of-the-art approaches.
- Abstract(参考訳): 既存のデラリング変換器では、固定範囲の窓やチャネル次元に沿った自己認識機構を採用しており、非局所受容場の利用を制限している。
そこで本研究では,多分岐型トランスフォーマー・マンバネットワーク(Transformer-Mamba Network, TransMamba Network, TransMamba Network, Transformer-Mamba Network, TransMamba Network)を導入する。
雨害と背景の異なるスペクトル領域の特徴に基づいて,第1枝にスペクトル帯域を有する変圧器ブロックを設計する。
自己注意はスペクトル領域チャネル次元の組み合わせ内で実行され、長距離依存性をモデル化する能力を改善する。
周波数固有情報を強化するため,スペクトル領域の特徴を集約するスペクトル拡張フィードフォワードモジュールを提案する。
第2のブランチでは、Mamba層は、ローカル情報とグローバル情報の両方をモデリングするために、カスケードされた双方向状態空間モデルモジュールを備えている。
エンコーダとデコーダのいずれの段階でも、デュアルブランチ機能のチャネルワイド結合を行い、チャネル還元により特徴融合を実現し、トランスフォーマーとマンバのブランチからのマルチスケール情報のより効率的な統合を可能にする。
クリーンな画像内の信号レベル関係をよりよく再構築するために、スペクトルコヒーレンス損失も生み出す。
多様なデータセットと実世界の画像に対する大規模な実験は、最先端のアプローチと比較して、我々の手法の優位性を示している。
関連論文リスト
- TransY-Net:Learning Fully Transformer Networks for Change Detection of
Remote Sensing Images [64.63004710817239]
リモートセンシング画像CDのためのトランスフォーマーベース学習フレームワークTransY-Netを提案する。
グローバルな視点からの特徴抽出を改善し、ピラミッド方式で多段階の視覚的特徴を組み合わせる。
提案手法は,4つの光学式および2つのSAR画像CDベンチマーク上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-10-22T07:42:19Z) - Unified Frequency-Assisted Transformer Framework for Detecting and
Grounding Multi-Modal Manipulation [109.1912721224697]
本稿では、DGM4問題に対処するため、UFAFormerという名前のUnified Frequency-Assisted TransFormerフレームワークを提案する。
離散ウェーブレット変換を利用して、画像を複数の周波数サブバンドに分解し、リッチな顔偽造品をキャプチャする。
提案する周波数エンコーダは、帯域内およびバンド間自己アテンションを組み込んだもので、多種多様なサブバンド内および多種多様なフォージェリー特徴を明示的に集約する。
論文 参考訳(メタデータ) (2023-09-18T11:06:42Z) - Mutual Information-driven Triple Interaction Network for Efficient Image
Dehazing [54.168567276280505]
画像デハージングのための相互情報駆動型トリプルインタラクションネットワーク(MITNet)を提案する。
振幅誘導ヘイズ除去と呼ばれる第1段階は、ヘイズ除去のためのヘイズ画像の振幅スペクトルを復元することを目的としている。
第2段階は位相誘導構造が洗練され、位相スペクトルの変換と微細化を学ぶことに尽力した。
論文 参考訳(メタデータ) (2023-08-14T08:23:58Z) - Dual Aggregation Transformer for Image Super-Resolution [92.41781921611646]
画像SRのための新しいトランスモデルDual Aggregation Transformerを提案する。
DATは、ブロック間およびブロック内二重方式で、空間次元とチャネル次元にまたがる特徴を集約する。
我々のDATは現在の手法を超越している。
論文 参考訳(メタデータ) (2023-08-07T07:39:39Z) - Enhancing Medical Image Segmentation with TransCeption: A Multi-Scale
Feature Fusion Approach [3.9548535445908928]
CNNベースの手法は、その有望な性能と堅牢性のために、医用画像セグメンテーションの基盤となっている。
グローバルな文脈相関をモデル化するために受信フィールドを拡大するため,トランスフォーマーベースのアプローチが普及している。
本稿では,トランスセグメンテーション(TransCeption for Medical Image segmentation)を提案する。
論文 参考訳(メタデータ) (2023-01-25T22:09:07Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。