論文の概要: DeblurDiNAT: A Lightweight and Effective Transformer for Image Deblurring
- arxiv url: http://arxiv.org/abs/2403.13163v2
- Date: Fri, 21 Jun 2024 18:30:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-26 01:22:15.403513
- Title: DeblurDiNAT: A Lightweight and Effective Transformer for Image Deblurring
- Title(参考訳): DeblurDiNAT: 軽量で効果的な画像デブロア変換器
- Authors: Hanzhou Liu, Binghan Li, Chengkai Liu, Mi Lu,
- Abstract要約: DeDiNATはコンパクトで堅牢なエンコーダトランスであり、ぼやけた画像からクリーンな画像を効率よく復元する。
本稿では,局所的なチャネル間学習者(LCCL)を用いてチャネル関係を捉えるCMSAブロックを提案する。
また,高速な特徴伝達が可能な分割・乗算フィードフォワードネットワーク(DMFN)を提案する。
- 参考スコア(独自算出の注目度): 1.5124439914522694
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While recent Transformer-based architectures generate improved deblurring outcomes than prior convolutional neural networks (CNNs), the large model size and heavy computational cost are still two bothersome issues which have not been fully resolved. Besides, the existing state-of-the-art (SOTA) approach trained on synthetic datasets may not perform well on a broad range of unseen real-world deblurring scenarios. To this end, we propose DeblurDiNAT, a compact and robust encoder-decoder Transformer which efficiently restores clean images from blurred ones. We adopt an alternating dilation factor structure to learn local and global blur patterns. Also, we observe that Transformers with conventional self-attention layers do not always produce good deblurred results. To solve this problem, we propose a channel modulation self-attention (CMSA) block, where a local cross-channel learner (LCCL) is utilized to capture channel relationships. In addition, we present a divide and multiply feed-forward network (DMFN) allowing fast feature propagation. Moreover, we design a lightweight dual-stage feature fusion (LDFF) module to introduce non-linearity. Comprehensive experimental results show that the proposed DeblurDiNAT provides a significant performance boost without a noticeable increase in computational cost over the baseline, and achieves SOTA performance on mainstream image deblurring datasets. Compared to nearest competitors, our space-efficient and time-saving model demonstrates a stronger generalization ability with 3%-68% fewer parameters and produces deblurred images that are visually closer to the ground truth.
- Abstract(参考訳): 近年のTransformerベースのアーキテクチャでは、従来の畳み込みニューラルネットワーク(CNN)よりも劣化が改善しているが、大きなモデルサイズと計算コストは、まだ完全に解決されていない2つの厄介な問題である。
さらに、合成データセットに基づいてトレーニングされた既存の最先端(SOTA)アプローチは、目に見えない現実世界の難解なシナリオでうまく機能しない可能性がある。
そこで本研究では,クリーンな画像をぼやけた画像から効率よく復元する,コンパクトで堅牢なエンコーダ・デコーダ変換器であるDeblurDiNATを提案する。
局所的およびグローバルなぼかしパターンを学習するために、交互に拡張因子構造を採用する。
また,従来の自己アテンション層を持つトランスフォーマーが必ずしも優れた劣化結果をもたらすとは限らないことも観察した。
この問題を解決するために,ローカルなチャンネル間学習者(LCCL)を用いてチャネル関係をキャプチャするCMSAブロックを提案する。
さらに,高速な特徴伝達が可能な分割・乗算フィードフォワードネットワーク(DMFN)を提案する。
さらに、非線形性を導入するために、軽量なデュアルステージ機能融合(LDFF)モジュールを設計する。
総合的な実験結果から,提案したDeblurDiNATは,ベースラインに対する計算コストの顕著な増大を伴わずに大幅な性能向上を実現し,メインストリームの画像劣化データセット上でのSOTA性能を実現することが示された。
最寄りの競合と比較して、我々の空間効率と省時間モデルでは、パラメーターが3%-68%減少し、地上の真実に近づいた可視画像を生成することにより、より強力な一般化能力を示す。
関連論文リスト
- Boosting Cross-Domain Point Classification via Distilling Relational Priors from 2D Transformers [59.0181939916084]
従来の3Dネットワークは主に局所幾何学的詳細に焦点を当て、局所幾何学間の位相構造を無視する。
そこで本稿では,大規模画像上においてよく訓練されたトランスフォーマーから前駆体を抽出する,新しい先駆体蒸留法を提案する。
PointDA-10とSim-to-Realデータセットの実験は、提案手法が点クラウド分類におけるUDAの最先端性能を一貫して達成していることを検証する。
論文 参考訳(メタデータ) (2024-07-26T06:29:09Z) - Affine-based Deformable Attention and Selective Fusion for Semi-dense Matching [30.272791354494373]
モデル断面変形に対するアフィン系局所的注意を導入する。
また、クロスアテンションからローカルメッセージとグローバルメッセージをマージするための選択的融合も提示する。
論文 参考訳(メタデータ) (2024-05-22T17:57:37Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - Multi-scale Alternated Attention Transformer for Generalized Stereo
Matching [7.493797166406228]
両視野および単一視野におけるエピポーラ線の影響のバランスをとるために,Alternated Attention U-shaped Transformer (AAUformer) と呼ばれる簡易かつ高効率なネットワークを提案する。
他のモデルと比較して、我々のモデルはいくつかの主要な設計を持っている。
我々はいくつかの主流ステレオマッチングデータセットについて比較研究とアブレーション研究を行った。
論文 参考訳(メタデータ) (2023-08-06T08:22:39Z) - Cross-Spatial Pixel Integration and Cross-Stage Feature Fusion Based
Transformer Network for Remote Sensing Image Super-Resolution [13.894645293832044]
変換器を用いたモデルでは、リモートセンシング画像超解像(RSISR)の競合性能が示されている。
本稿では,RSISRのための新しいトランスアーキテクチャであるCross-Spatial Pixel IntegrationとCross-Stage Feature Fusion Based Transformer Network (SPIFFNet)を提案する。
提案手法は,画像全体のグローバル認知と理解を効果的に促進し,機能統合の効率化を図っている。
論文 参考訳(メタデータ) (2023-07-06T13:19:06Z) - Local-Global Transformer Enhanced Unfolding Network for Pan-sharpening [13.593522290577512]
パンシャーピングは,低分解能マルチスペクトル (LrMS) 画像の空間分解能を,対応するパンクロマティック (PAN) 画像の誘導により向上することを目的としている。
深層学習(DL)に基づくパンシャーピング法は有望な性能を達成しているが、そのほとんどは2倍の欠損を有する。
論文 参考訳(メタデータ) (2023-04-28T03:34:36Z) - Global-to-Local Modeling for Video-based 3D Human Pose and Shape
Estimation [53.04781510348416]
フレーム内精度とフレーム間スムーズさにより,映像に基づく3次元人間のポーズと形状推定を評価する。
エンドツーエンドフレームワークGLoT(Global-to-Local Transformer)における長期的・短期的相関のモデル化を構造的に分離することを提案する。
我々のGLoTは、一般的なベンチマーク(3DPW、MPI-INF-3DHP、Human3.6M)において、最も低いモデルパラメータを持つ従来の最先端の手法を上回る。
論文 参考訳(メタデータ) (2023-03-26T14:57:49Z) - Hierarchical Cross-modal Transformer for RGB-D Salient Object Detection [6.385624548310884]
本稿では,新しいマルチモーダルトランスである階層型クロスモーダルトランス (HCT) を提案する。
2つのモードから全てのパッチを直接接続する以前のマルチモーダル変圧器とは異なり、クロスモーダル相補性は階層的に検討する。
本稿では,Transformer (FPT) 用のFeature Pyramidモジュールを提案する。
論文 参考訳(メタデータ) (2023-02-16T03:23:23Z) - Interpolation-based Correlation Reduction Network for Semi-Supervised
Graph Learning [49.94816548023729]
補間型相関低減ネットワーク(ICRN)と呼ばれる新しいグラフコントラスト学習手法を提案する。
提案手法では,決定境界のマージンを大きくすることで,潜在特徴の識別能力を向上させる。
この2つの設定を組み合わせることで、豊富なラベル付きノードと稀に価値あるラベル付きノードから豊富な監視情報を抽出し、離散表現学習を行う。
論文 参考訳(メタデータ) (2022-06-06T14:26:34Z) - Activating More Pixels in Image Super-Resolution Transformer [53.87533738125943]
トランスフォーマーベースの手法は、画像超解像のような低レベルの視覚タスクにおいて顕著な性能を示している。
本稿では,新たなHAT(Hybrid Attention Transformer)を提案する。
提案手法は1dB以上で最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2022-05-09T17:36:58Z) - Semantic Correspondence with Transformers [68.37049687360705]
本稿では,変換器を用いたコストアグリゲーション(CAT)を提案し,意味論的に類似した画像間の密接な対応を見出す。
初期相関マップと多レベルアグリゲーションを曖昧にするための外観親和性モデリングを含む。
提案手法の有効性を示す実験を行い,広範囲にわたるアブレーション研究を行った。
論文 参考訳(メタデータ) (2021-06-04T14:39:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。