論文の概要: Joint multi-dimensional dynamic attention and transformer for general image restoration
- arxiv url: http://arxiv.org/abs/2411.07893v1
- Date: Tue, 12 Nov 2024 15:58:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-13 13:21:11.542137
- Title: Joint multi-dimensional dynamic attention and transformer for general image restoration
- Title(参考訳): 一般画像復元のための複合多次元ダイナミックアテンションと変圧器
- Authors: Huan Zhang, Xu Zhang, Nian Cai, Jianglei Di, Yun Zhang,
- Abstract要約: 屋外のイメージは 雨や迷路、騒音などによって 深刻な劣化に苦しむことが多い
現在の画像復元法は、効率を保ちながら複雑な劣化を扱うのに苦労している。
本稿では,多次元動的注意と自己注意を組み合わせた新しい画像復元アーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 14.987034136856463
- License:
- Abstract: Outdoor images often suffer from severe degradation due to rain, haze, and noise, impairing image quality and challenging high-level tasks. Current image restoration methods struggle to handle complex degradation while maintaining efficiency. This paper introduces a novel image restoration architecture that combines multi-dimensional dynamic attention and self-attention within a U-Net framework. To leverage the global modeling capabilities of transformers and the local modeling capabilities of convolutions, we integrate sole CNNs in the encoder-decoder and sole transformers in the latent layer. Additionally, we design convolutional kernels with selected multi-dimensional dynamic attention to capture diverse degraded inputs efficiently. A transformer block with transposed self-attention further enhances global feature extraction while maintaining efficiency. Extensive experiments demonstrate that our method achieves a better balance between performance and computational complexity across five image restoration tasks: deraining, deblurring, denoising, dehazing, and enhancement, as well as superior performance for high-level vision tasks. The source code will be available at https://github.com/House-yuyu/MDDA-former.
- Abstract(参考訳): 屋外画像は、雨やヘイズ、騒音による深刻な劣化に悩まされ、画質が損なわれ、高いレベルの課題に挑戦する。
現在の画像復元法は、効率を保ちながら複雑な劣化を扱うのに苦労している。
本稿では,U-Netフレームワーク内での多次元動的注意と自己注意を組み合わせた新しい画像復元アーキテクチャを提案する。
変換器のグローバルなモデリング機能と畳み込みの局所的なモデリング機能を活用するために,エンコーダデコーダに単独のCNNを,潜在層に単独の変換器を統合する。
さらに,多次元動的注意を選別した畳み込みカーネルを設計し,多様な劣化した入力を効率的に捕捉する。
自己注意が変換された変圧器ブロックは、効率を保ちながら、グローバルな特徴抽出をさらに強化する。
広汎な実験により,提案手法は画像復元タスクのデライン化,デブロアリング,デノイング,デハジング,エンハンスメントの5つにまたがる性能と計算複雑性のバランスを向上し,高次視覚タスクの優れた性能を実現する。
ソースコードはhttps://github.com/House-yuyu/MDDA-formerで入手できる。
関連論文リスト
- Multi-Scale Representation Learning for Image Restoration with State-Space Model [13.622411683295686]
効率的な画像復元のためのマルチスケール状態空間モデル(MS-Mamba)を提案する。
提案手法は,計算複雑性を低く保ちながら,新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2024-08-19T16:42:58Z) - VmambaIR: Visual State Space Model for Image Restoration [36.11385876754612]
VmambaIRは、画像復元タスクに線形に複雑な状態空間モデル(SSM)を導入する。
VmambaIRは、より少ない計算資源とパラメータで最先端(SOTA)性能を達成する。
論文 参考訳(メタデータ) (2024-03-18T02:38:55Z) - Segmentation Guided Sparse Transformer for Under-Display Camera Image
Restoration [91.65248635837145]
Under-Display Camera(UDC)は、ディスプレイパネルの下にカメラを隠してフルスクリーン表示を実現する新興技術である。
本稿では,UDC 画像復元に Vision Transformer を用いることで,大量の冗長情報やノイズを大域的注目度で検出する。
UDC劣化画像から高品質な画像を復元するためのガイドスパース変換器(SGSFormer)を提案する。
論文 参考訳(メタデータ) (2024-03-09T13:11:59Z) - CascadedGaze: Efficiency in Global Context Extraction for Image Restoration [12.967835674413596]
我々はGCE(Global Context Extractor)を利用したエンコーダデコーダアーキテクチャであるCascadedGaze Network(CGNet)を提案する。
GCEモジュールは、畳み込み層にまたがる小さなカーネルを活用して、自己注意を必要とせず、グローバルな依存関係を学習する。
論文 参考訳(メタデータ) (2024-01-26T22:59:51Z) - HAT: Hybrid Attention Transformer for Image Restoration [61.74223315807691]
トランスフォーマーに基づく手法は、画像の超解像や復調といった画像復元タスクにおいて顕著な性能を示している。
本稿では,新たなHAT(Hybrid Attention Transformer)を提案する。
我々のHATは,定量的かつ定性的に,最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-09-11T05:17:55Z) - Efficient Image Super-Resolution with Feature Interaction Weighted Hybrid Network [101.53907377000445]
軽量画像超解像は、低解像度画像から低計算コストで高解像度画像を再構成することを目的としている。
既存の方法では、活性化関数による中間層の特徴が失われる。
本稿では,中間的特徴損失が再構成品質に与える影響を最小限に抑えるために,特徴相互作用重み付きハイブリッドネットワーク(FIWHN)を提案する。
論文 参考訳(メタデータ) (2022-12-29T05:57:29Z) - DynaST: Dynamic Sparse Transformer for Exemplar-Guided Image Generation [56.514462874501675]
本稿では,動的スパースアテンションに基づくトランスフォーマーモデルを提案する。
このアプローチの核心は、ある位置がフォーカスすべき最適なトークン数の変化をカバーすることに特化した、新しいダイナミックアテンションユニットです。
3つの応用、ポーズ誘導型人物画像生成、エッジベース顔合成、歪みのない画像スタイル転送の実験により、DynaSTは局所的な詳細において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2022-07-13T11:12:03Z) - MAT: Mask-Aware Transformer for Large Hole Image Inpainting [79.67039090195527]
本稿では, 変圧器と畳み込みの利点を統一する, 大穴塗装の新しいモデルを提案する。
実験では、複数のベンチマークデータセット上で、新しいモデルの最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-29T06:36:17Z) - Restormer: Efficient Transformer for High-Resolution Image Restoration [118.9617735769827]
畳み込みニューラルネットワーク(CNN)は、大規模データから一般化可能な画像の事前学習をうまく行う。
トランスフォーマーは、自然言語とハイレベルな視覚タスクにおいて、顕著なパフォーマンス向上を示している。
我々のモデルであるRecovery Transformer (Restormer) は、いくつかの画像復元タスクにおいて最先端の結果を得る。
論文 参考訳(メタデータ) (2021-11-18T18:59:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。