論文の概要: DeblurDiNAT: A Lightweight and Effective Transformer for Image Deblurring
- arxiv url: http://arxiv.org/abs/2403.13163v2
- Date: Fri, 21 Jun 2024 18:30:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-26 01:22:15.403513
- Title: DeblurDiNAT: A Lightweight and Effective Transformer for Image Deblurring
- Title(参考訳): DeblurDiNAT: 軽量で効果的な画像デブロア変換器
- Authors: Hanzhou Liu, Binghan Li, Chengkai Liu, Mi Lu,
- Abstract要約: DeDiNATはコンパクトで堅牢なエンコーダトランスであり、ぼやけた画像からクリーンな画像を効率よく復元する。
本稿では,局所的なチャネル間学習者(LCCL)を用いてチャネル関係を捉えるCMSAブロックを提案する。
また,高速な特徴伝達が可能な分割・乗算フィードフォワードネットワーク(DMFN)を提案する。
- 参考スコア(独自算出の注目度): 1.5124439914522694
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While recent Transformer-based architectures generate improved deblurring outcomes than prior convolutional neural networks (CNNs), the large model size and heavy computational cost are still two bothersome issues which have not been fully resolved. Besides, the existing state-of-the-art (SOTA) approach trained on synthetic datasets may not perform well on a broad range of unseen real-world deblurring scenarios. To this end, we propose DeblurDiNAT, a compact and robust encoder-decoder Transformer which efficiently restores clean images from blurred ones. We adopt an alternating dilation factor structure to learn local and global blur patterns. Also, we observe that Transformers with conventional self-attention layers do not always produce good deblurred results. To solve this problem, we propose a channel modulation self-attention (CMSA) block, where a local cross-channel learner (LCCL) is utilized to capture channel relationships. In addition, we present a divide and multiply feed-forward network (DMFN) allowing fast feature propagation. Moreover, we design a lightweight dual-stage feature fusion (LDFF) module to introduce non-linearity. Comprehensive experimental results show that the proposed DeblurDiNAT provides a significant performance boost without a noticeable increase in computational cost over the baseline, and achieves SOTA performance on mainstream image deblurring datasets. Compared to nearest competitors, our space-efficient and time-saving model demonstrates a stronger generalization ability with 3%-68% fewer parameters and produces deblurred images that are visually closer to the ground truth.
- Abstract(参考訳): 近年のTransformerベースのアーキテクチャでは、従来の畳み込みニューラルネットワーク(CNN)よりも劣化が改善しているが、大きなモデルサイズと計算コストは、まだ完全に解決されていない2つの厄介な問題である。
さらに、合成データセットに基づいてトレーニングされた既存の最先端(SOTA)アプローチは、目に見えない現実世界の難解なシナリオでうまく機能しない可能性がある。
そこで本研究では,クリーンな画像をぼやけた画像から効率よく復元する,コンパクトで堅牢なエンコーダ・デコーダ変換器であるDeblurDiNATを提案する。
局所的およびグローバルなぼかしパターンを学習するために、交互に拡張因子構造を採用する。
また,従来の自己アテンション層を持つトランスフォーマーが必ずしも優れた劣化結果をもたらすとは限らないことも観察した。
この問題を解決するために,ローカルなチャンネル間学習者(LCCL)を用いてチャネル関係をキャプチャするCMSAブロックを提案する。
さらに,高速な特徴伝達が可能な分割・乗算フィードフォワードネットワーク(DMFN)を提案する。
さらに、非線形性を導入するために、軽量なデュアルステージ機能融合(LDFF)モジュールを設計する。
総合的な実験結果から,提案したDeblurDiNATは,ベースラインに対する計算コストの顕著な増大を伴わずに大幅な性能向上を実現し,メインストリームの画像劣化データセット上でのSOTA性能を実現することが示された。
最寄りの競合と比較して、我々の空間効率と省時間モデルでは、パラメーターが3%-68%減少し、地上の真実に近づいた可視画像を生成することにより、より強力な一般化能力を示す。
関連論文リスト
- Dual-Stream Attention Transformers for Sewer Defect Classification [2.5499055723658097]
効率的な下水道欠陥分類のためのRGBおよび光フロー入力を処理するデュアルストリーム・ビジョン・トランスフォーマアーキテクチャを提案する。
私たちのキーとなるアイデアは、RGBとモーションストリームの相補的な強みを活用するために、自己注意の正則化を使用することです。
自己注意型レギュレータによる動作キューの活用により、RGBアテンションマップの整列と強化を行い、ネットワークが関連する入力領域に集中できるようにする。
論文 参考訳(メタデータ) (2023-11-07T02:31:51Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - Multi-scale Alternated Attention Transformer for Generalized Stereo
Matching [7.493797166406228]
両視野および単一視野におけるエピポーラ線の影響のバランスをとるために,Alternated Attention U-shaped Transformer (AAUformer) と呼ばれる簡易かつ高効率なネットワークを提案する。
他のモデルと比較して、我々のモデルはいくつかの主要な設計を持っている。
我々はいくつかの主流ステレオマッチングデータセットについて比較研究とアブレーション研究を行った。
論文 参考訳(メタデータ) (2023-08-06T08:22:39Z) - Cross-Spatial Pixel Integration and Cross-Stage Feature Fusion Based
Transformer Network for Remote Sensing Image Super-Resolution [13.894645293832044]
変換器を用いたモデルでは、リモートセンシング画像超解像(RSISR)の競合性能が示されている。
本稿では,RSISRのための新しいトランスアーキテクチャであるCross-Spatial Pixel IntegrationとCross-Stage Feature Fusion Based Transformer Network (SPIFFNet)を提案する。
提案手法は,画像全体のグローバル認知と理解を効果的に促進し,機能統合の効率化を図っている。
論文 参考訳(メタデータ) (2023-07-06T13:19:06Z) - Blur Interpolation Transformer for Real-World Motion from Blur [52.10523711510876]
本稿では, ボケの時間的相関を解き明かすために, 符号化されたブラー変換器(BiT)を提案する。
マルチスケール残留スウィン変圧器ブロックに基づいて、両端の時間的監督と時間対称なアンサンブル戦略を導入する。
さらに,1対1のぼやけたビデオペアの最初の実世界のデータセットを収集するハイブリッドカメラシステムを設計する。
論文 参考訳(メタデータ) (2022-11-21T13:10:10Z) - Effective Invertible Arbitrary Image Rescaling [77.46732646918936]
Invertible Neural Networks (INN)は、ダウンスケーリングとアップスケーリングのサイクルを共同で最適化することにより、アップスケーリングの精度を大幅に向上させることができる。
本研究の1つのモデルのみをトレーニングすることにより、任意の画像再スケーリングを実現するために、単純で効果的な非可逆的再スケーリングネットワーク(IARN)を提案する。
LR出力の知覚品質を損なうことなく、双方向任意再スケーリングにおいて最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2022-09-26T22:22:30Z) - Transformer-Guided Convolutional Neural Network for Cross-View
Geolocalization [20.435023745201878]
本稿ではトランスフォーマー誘導型畳み込みニューラルネットワーク(TransGCNN)アーキテクチャを提案する。
我々のTransGCNNは、入力画像からCNNのバックボーン抽出特徴マップと、グローバルコンテキストをモデル化するTransformerヘッドで構成される。
CVUSAとCVACT_valでそれぞれ94.12%,84.92%の精度を達成した。
論文 参考訳(メタデータ) (2022-04-21T08:46:41Z) - Global Filter Networks for Image Classification [90.81352483076323]
本稿では,対数線形複雑度を持つ周波数領域における長期空間依存性を学習する,概念的に単純だが計算効率のよいアーキテクチャを提案する。
この結果から,GFNetはトランスフォーマー型モデルやCNNの効率,一般化能力,堅牢性において,非常に競争力のある代替手段となる可能性が示唆された。
論文 参考訳(メタデータ) (2021-07-01T17:58:16Z) - TFill: Image Completion via a Transformer-Based Architecture [69.62228639870114]
画像補完を無方向性シーケンス対シーケンス予測タスクとして扱うことを提案する。
トークン表現には,小かつ重複しないRFを持つ制限型CNNを用いる。
第2フェーズでは、可視領域と発生領域の外観整合性を向上させるために、新しい注意認識層(aal)を導入する。
論文 参考訳(メタデータ) (2021-04-02T01:42:01Z) - Thinking Fast and Slow: Efficient Text-to-Visual Retrieval with
Transformers [115.90778814368703]
目的は,大規模画像とビデオデータセットの言語検索である。
このタスクでは、独立してテキストとビジョンを共同埋め込み空間 a.k.a にマッピングする。
デュアルエンコーダは 検索スケールとして魅力的です
視覚テキスト変換器をクロスアテンションで使用する別のアプローチは、関節埋め込みよりも精度が大幅に向上する。
論文 参考訳(メタデータ) (2021-03-30T17:57:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。