論文の概要: DeblurDiNAT: A Lightweight and Effective Transformer for Image Deblurring
- arxiv url: http://arxiv.org/abs/2403.13163v1
- Date: Tue, 19 Mar 2024 21:31:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-21 18:37:24.142695
- Title: DeblurDiNAT: A Lightweight and Effective Transformer for Image Deblurring
- Title(参考訳): DeblurDiNAT: 軽量で効果的な画像デブロア変換器
- Authors: Hanzhou Liu, Binghan Li, Chengkai Liu, Mi Lu,
- Abstract要約: 実世界のぼやけた画像からクリーンな画像を効率よく復元する小型エンコーダデコーダトランスであるDeblurDiNATを提案する。
我々は,グローバルな特徴学習を目的とした交互拡張因子構造を採用する。
我々の空間効率と時間節約法は、パラメータが3%-68%少ないより強力な一般化能力を示す。
- 参考スコア(独自算出の注目度): 1.5124439914522694
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Blurry images may contain local and global non-uniform artifacts, which complicate the deblurring process and make it more challenging to achieve satisfactory results. Recently, Transformers generate improved deblurring outcomes than existing CNN architectures. However, the large model size and long inference time are still two bothersome issues which have not been fully explored. To this end, we propose DeblurDiNAT, a compact encoder-decoder Transformer which efficiently restores clean images from real-world blurry ones. We adopt an alternating dilation factor structure with the aim of global-local feature learning. Also, we observe that simply using self-attention layers in networks does not always produce good deblurred results. To solve this problem, we propose a channel modulation self-attention (CMSA) block, where a cross-channel learner (CCL) is utilized to capture channel relationships. In addition, we present a divide and multiply feed-forward network (DMFN) allowing fast feature propagation. Moreover, we design a lightweight gated feature fusion (LGFF) module, which performs controlled feature merging. Comprehensive experimental results show that the proposed model, named DeblurDiNAT, provides a favorable performance boost without introducing noticeable computational costs over the baseline, and achieves state-of-the-art (SOTA) performance on several image deblurring datasets. Compared to nearest competitors, our space-efficient and time-saving method demonstrates a stronger generalization ability with 3%-68% fewer parameters and produces deblurred images that are visually closer to the ground truth.
- Abstract(参考訳): ブラーリ画像には局所的およびグローバルな非一様人工物が含まれており、これは難解な過程を複雑にし、満足のいく結果を達成するのがより困難になる。
近年、トランスフォーマーは既存のCNNアーキテクチャよりも改善された遅延結果を生成する。
しかし、大きなモデルサイズと長い推測時間は、まだ十分に検討されていない2つの厄介な問題である。
そこで本研究では,現実のぼやけた画像からクリーンな画像を効率よく復元する小型エンコーダデコーダトランスであるDeblurDiNATを提案する。
我々は,グローバルな特徴学習を目的とした交互拡張因子構造を採用する。
また,ネットワーク上での自己注意層の利用は,必ずしもよい判断結果をもたらすとは限らないことも観察した。
この問題を解決するために、チャネル変調自己注意ブロック(CMSA)を提案し、チャンネル間の学習者(CCL)を用いてチャネル関係をキャプチャする。
さらに,高速な特徴伝達が可能な分割・乗算フィードフォワードネットワーク(DMFN)を提案する。
さらに,制御機能マージを行う軽量ゲート機能融合(LGFF)モジュールを設計する。
総合的な実験結果から,提案モデルであるDeblurDiNATは,ベースラインに顕著な計算コストを伴わずに良好な性能向上を実現し,複数の画像劣化データセット上でSOTA(State-of-the-art)性能を実現することを示す。
最寄りの競合と比べて、空間効率と時間節約の手法は、パラメーターが3%から68%減ってより強力な一般化能力を示し、地上の真実に近づいた可視画像を生成する。
関連論文リスト
- Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - Spatially-Adaptive Feature Modulation for Efficient Image
Super-Resolution [90.16462805389943]
視覚変換器(ViT)のようなブロック上に,空間適応型特徴変調(SAFM)機構を開発する。
提案法は最先端のSR法よりも3倍程度小さい。
論文 参考訳(メタデータ) (2023-02-27T14:19:31Z) - Efficient Context Integration through Factorized Pyramidal Learning for
Ultra-Lightweight Semantic Segmentation [1.0499611180329804]
本稿では,FPL(Facterized Pyramidal Learning)モジュールを提案する。
空間ピラミッドを2つのステージに分解し,モジュール内での簡易かつ効率的な特徴融合により,悪名高いチェッカーボード効果を解決する。
FPLモジュールとFIRユニットをベースとしたFPLNetと呼ばれる超軽量リアルタイムネットワークを提案する。
論文 参考訳(メタデータ) (2023-02-23T05:34:51Z) - Magic ELF: Image Deraining Meets Association Learning and Transformer [63.761812092934576]
本稿では,CNN と Transformer を統合化して,画像デライニングにおける学習のメリットを活用することを目的とする。
降雨除去と背景復旧を関連づける新しいマルチインプット・アテンション・モジュール (MAM) を提案する。
提案手法(ELF)は,最先端手法(MPRNet)を平均0.25dB向上させる。
論文 参考訳(メタデータ) (2022-07-21T12:50:54Z) - Cross-receptive Focused Inference Network for Lightweight Image
Super-Resolution [64.25751738088015]
トランスフォーマーに基づく手法は、単一画像超解像(SISR)タスクにおいて顕著な性能を示した。
動的に特徴を抽出するために文脈情報を組み込む必要がある変換器は無視される。
我々は,CNNとTransformerを混合したCTブロックのカスケードで構成される,軽量なクロスレセプティブ・フォーカスド・推論・ネットワーク(CFIN)を提案する。
論文 参考訳(メタデータ) (2022-07-06T16:32:29Z) - ShuffleMixer: An Efficient ConvNet for Image Super-Resolution [88.86376017828773]
本稿では、大きな畳み込みとチャネル分割シャッフル操作を探索する軽量画像超解像のためのShuffleMixerを提案する。
具体的には,チャネル分割とシャッフルを基本成分とする2つのプロジェクション層を効率よく混合する。
実験結果から,ShuffleMixerはモデルパラメータやFLOPの手法に比べて約6倍小さいことがわかった。
論文 参考訳(メタデータ) (2022-05-30T15:26:52Z) - Lightweight Bimodal Network for Single-Image Super-Resolution via
Symmetric CNN and Recursive Transformer [27.51790638626891]
シングルイメージ・スーパーレゾリューション(SISR)は、ディープラーニングの開発において大きなブレークスルーを達成している。
そこで本研究では,SISRのための軽量バイモーダルネットワーク(LBNet)を提案する。
具体的には,局所特徴抽出と粗い画像再構成に有効なシンメトリCNNを設計する。
論文 参考訳(メタデータ) (2022-04-28T04:43:22Z) - SDWNet: A Straight Dilated Network with Wavelet Transformation for Image
Deblurring [23.86692375792203]
画像劣化は、ぼやけた画像から鋭い画像を復元することを目的としたコンピュータビジョンの問題である。
我々のモデルは拡張畳み込みを用いて空間分解能の高い大きな受容場を得ることができる。
本稿では,ウェーブレット変換を用いた新しいモジュールを提案する。
論文 参考訳(メタデータ) (2021-10-12T07:58:10Z) - Global Filter Networks for Image Classification [90.81352483076323]
本稿では,対数線形複雑度を持つ周波数領域における長期空間依存性を学習する,概念的に単純だが計算効率のよいアーキテクチャを提案する。
この結果から,GFNetはトランスフォーマー型モデルやCNNの効率,一般化能力,堅牢性において,非常に競争力のある代替手段となる可能性が示唆された。
論文 参考訳(メタデータ) (2021-07-01T17:58:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。