論文の概要: DeblurDiNAT: A Lightweight and Effective Transformer for Image Deblurring
- arxiv url: http://arxiv.org/abs/2403.13163v1
- Date: Tue, 19 Mar 2024 21:31:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-21 18:37:24.142695
- Title: DeblurDiNAT: A Lightweight and Effective Transformer for Image Deblurring
- Title(参考訳): DeblurDiNAT: 軽量で効果的な画像デブロア変換器
- Authors: Hanzhou Liu, Binghan Li, Chengkai Liu, Mi Lu,
- Abstract要約: 実世界のぼやけた画像からクリーンな画像を効率よく復元する小型エンコーダデコーダトランスであるDeblurDiNATを提案する。
我々は,グローバルな特徴学習を目的とした交互拡張因子構造を採用する。
我々の空間効率と時間節約法は、パラメータが3%-68%少ないより強力な一般化能力を示す。
- 参考スコア(独自算出の注目度): 1.5124439914522694
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Blurry images may contain local and global non-uniform artifacts, which complicate the deblurring process and make it more challenging to achieve satisfactory results. Recently, Transformers generate improved deblurring outcomes than existing CNN architectures. However, the large model size and long inference time are still two bothersome issues which have not been fully explored. To this end, we propose DeblurDiNAT, a compact encoder-decoder Transformer which efficiently restores clean images from real-world blurry ones. We adopt an alternating dilation factor structure with the aim of global-local feature learning. Also, we observe that simply using self-attention layers in networks does not always produce good deblurred results. To solve this problem, we propose a channel modulation self-attention (CMSA) block, where a cross-channel learner (CCL) is utilized to capture channel relationships. In addition, we present a divide and multiply feed-forward network (DMFN) allowing fast feature propagation. Moreover, we design a lightweight gated feature fusion (LGFF) module, which performs controlled feature merging. Comprehensive experimental results show that the proposed model, named DeblurDiNAT, provides a favorable performance boost without introducing noticeable computational costs over the baseline, and achieves state-of-the-art (SOTA) performance on several image deblurring datasets. Compared to nearest competitors, our space-efficient and time-saving method demonstrates a stronger generalization ability with 3%-68% fewer parameters and produces deblurred images that are visually closer to the ground truth.
- Abstract(参考訳): ブラーリ画像には局所的およびグローバルな非一様人工物が含まれており、これは難解な過程を複雑にし、満足のいく結果を達成するのがより困難になる。
近年、トランスフォーマーは既存のCNNアーキテクチャよりも改善された遅延結果を生成する。
しかし、大きなモデルサイズと長い推測時間は、まだ十分に検討されていない2つの厄介な問題である。
そこで本研究では,現実のぼやけた画像からクリーンな画像を効率よく復元する小型エンコーダデコーダトランスであるDeblurDiNATを提案する。
我々は,グローバルな特徴学習を目的とした交互拡張因子構造を採用する。
また,ネットワーク上での自己注意層の利用は,必ずしもよい判断結果をもたらすとは限らないことも観察した。
この問題を解決するために、チャネル変調自己注意ブロック(CMSA)を提案し、チャンネル間の学習者(CCL)を用いてチャネル関係をキャプチャする。
さらに,高速な特徴伝達が可能な分割・乗算フィードフォワードネットワーク(DMFN)を提案する。
さらに,制御機能マージを行う軽量ゲート機能融合(LGFF)モジュールを設計する。
総合的な実験結果から,提案モデルであるDeblurDiNATは,ベースラインに顕著な計算コストを伴わずに良好な性能向上を実現し,複数の画像劣化データセット上でSOTA(State-of-the-art)性能を実現することを示す。
最寄りの競合と比べて、空間効率と時間節約の手法は、パラメーターが3%から68%減ってより強力な一般化能力を示し、地上の真実に近づいた可視画像を生成する。
関連論文リスト
- Boosting Cross-Domain Point Classification via Distilling Relational Priors from 2D Transformers [59.0181939916084]
従来の3Dネットワークは主に局所幾何学的詳細に焦点を当て、局所幾何学間の位相構造を無視する。
そこで本稿では,大規模画像上においてよく訓練されたトランスフォーマーから前駆体を抽出する,新しい先駆体蒸留法を提案する。
PointDA-10とSim-to-Realデータセットの実験は、提案手法が点クラウド分類におけるUDAの最先端性能を一貫して達成していることを検証する。
論文 参考訳(メタデータ) (2024-07-26T06:29:09Z) - Affine-based Deformable Attention and Selective Fusion for Semi-dense Matching [30.272791354494373]
モデル断面変形に対するアフィン系局所的注意を導入する。
また、クロスアテンションからローカルメッセージとグローバルメッセージをマージするための選択的融合も提示する。
論文 参考訳(メタデータ) (2024-05-22T17:57:37Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - Multi-scale Alternated Attention Transformer for Generalized Stereo
Matching [7.493797166406228]
両視野および単一視野におけるエピポーラ線の影響のバランスをとるために,Alternated Attention U-shaped Transformer (AAUformer) と呼ばれる簡易かつ高効率なネットワークを提案する。
他のモデルと比較して、我々のモデルはいくつかの主要な設計を持っている。
我々はいくつかの主流ステレオマッチングデータセットについて比較研究とアブレーション研究を行った。
論文 参考訳(メタデータ) (2023-08-06T08:22:39Z) - Cross-Spatial Pixel Integration and Cross-Stage Feature Fusion Based
Transformer Network for Remote Sensing Image Super-Resolution [13.894645293832044]
変換器を用いたモデルでは、リモートセンシング画像超解像(RSISR)の競合性能が示されている。
本稿では,RSISRのための新しいトランスアーキテクチャであるCross-Spatial Pixel IntegrationとCross-Stage Feature Fusion Based Transformer Network (SPIFFNet)を提案する。
提案手法は,画像全体のグローバル認知と理解を効果的に促進し,機能統合の効率化を図っている。
論文 参考訳(メタデータ) (2023-07-06T13:19:06Z) - Local-Global Transformer Enhanced Unfolding Network for Pan-sharpening [13.593522290577512]
パンシャーピングは,低分解能マルチスペクトル (LrMS) 画像の空間分解能を,対応するパンクロマティック (PAN) 画像の誘導により向上することを目的としている。
深層学習(DL)に基づくパンシャーピング法は有望な性能を達成しているが、そのほとんどは2倍の欠損を有する。
論文 参考訳(メタデータ) (2023-04-28T03:34:36Z) - Global-to-Local Modeling for Video-based 3D Human Pose and Shape
Estimation [53.04781510348416]
フレーム内精度とフレーム間スムーズさにより,映像に基づく3次元人間のポーズと形状推定を評価する。
エンドツーエンドフレームワークGLoT(Global-to-Local Transformer)における長期的・短期的相関のモデル化を構造的に分離することを提案する。
我々のGLoTは、一般的なベンチマーク(3DPW、MPI-INF-3DHP、Human3.6M)において、最も低いモデルパラメータを持つ従来の最先端の手法を上回る。
論文 参考訳(メタデータ) (2023-03-26T14:57:49Z) - Hierarchical Cross-modal Transformer for RGB-D Salient Object Detection [6.385624548310884]
本稿では,新しいマルチモーダルトランスである階層型クロスモーダルトランス (HCT) を提案する。
2つのモードから全てのパッチを直接接続する以前のマルチモーダル変圧器とは異なり、クロスモーダル相補性は階層的に検討する。
本稿では,Transformer (FPT) 用のFeature Pyramidモジュールを提案する。
論文 参考訳(メタデータ) (2023-02-16T03:23:23Z) - Interpolation-based Correlation Reduction Network for Semi-Supervised
Graph Learning [49.94816548023729]
補間型相関低減ネットワーク(ICRN)と呼ばれる新しいグラフコントラスト学習手法を提案する。
提案手法では,決定境界のマージンを大きくすることで,潜在特徴の識別能力を向上させる。
この2つの設定を組み合わせることで、豊富なラベル付きノードと稀に価値あるラベル付きノードから豊富な監視情報を抽出し、離散表現学習を行う。
論文 参考訳(メタデータ) (2022-06-06T14:26:34Z) - Activating More Pixels in Image Super-Resolution Transformer [53.87533738125943]
トランスフォーマーベースの手法は、画像超解像のような低レベルの視覚タスクにおいて顕著な性能を示している。
本稿では,新たなHAT(Hybrid Attention Transformer)を提案する。
提案手法は1dB以上で最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2022-05-09T17:36:58Z) - Semantic Correspondence with Transformers [68.37049687360705]
本稿では,変換器を用いたコストアグリゲーション(CAT)を提案し,意味論的に類似した画像間の密接な対応を見出す。
初期相関マップと多レベルアグリゲーションを曖昧にするための外観親和性モデリングを含む。
提案手法の有効性を示す実験を行い,広範囲にわたるアブレーション研究を行った。
論文 参考訳(メタデータ) (2021-06-04T14:39:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。