論文の概要: Revisiting Image Deblurring with an Efficient ConvNet
- arxiv url: http://arxiv.org/abs/2302.02234v1
- Date: Sat, 4 Feb 2023 20:42:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-07 19:31:11.468946
- Title: Revisiting Image Deblurring with an Efficient ConvNet
- Title(参考訳): 効率的なConvNetによる画像の劣化再考
- Authors: Lingyan Ruan, Mojtaba Bemana, Hans-peter Seidel, Karol Myszkowski, Bin
Chen
- Abstract要約: 本稿では,大規模な有効受容場(ERF)を特徴とする軽量CNNネットワークを提案する。
我々の鍵となる設計はLaKDと呼ばれる効率的なCNNブロックであり、大きなカーネル深さの畳み込みと空間チャネルの混合構造を備えている。
パラメータが32%少なく、MACが39%少ないデフォーカス/モーションデブロアリングベンチマークデータセット上で、最先端のRestormer上で+0.17dB / +0.43dB PSNRを達成する。
- 参考スコア(独自算出の注目度): 24.703240497171503
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image deblurring aims to recover the latent sharp image from its blurry
counterpart and has a wide range of applications in computer vision. The
Convolution Neural Networks (CNNs) have performed well in this domain for many
years, and until recently an alternative network architecture, namely
Transformer, has demonstrated even stronger performance. One can attribute its
superiority to the multi-head self-attention (MHSA) mechanism, which offers a
larger receptive field and better input content adaptability than CNNs.
However, as MHSA demands high computational costs that grow quadratically with
respect to the input resolution, it becomes impractical for high-resolution
image deblurring tasks. In this work, we propose a unified lightweight CNN
network that features a large effective receptive field (ERF) and demonstrates
comparable or even better performance than Transformers while bearing less
computational costs. Our key design is an efficient CNN block dubbed LaKD,
equipped with a large kernel depth-wise convolution and spatial-channel mixing
structure, attaining comparable or larger ERF than Transformers but with a
smaller parameter scale. Specifically, we achieve +0.17dB / +0.43dB PSNR over
the state-of-the-art Restormer on defocus / motion deblurring benchmark
datasets with 32% fewer parameters and 39% fewer MACs. Extensive experiments
demonstrate the superior performance of our network and the effectiveness of
each module. Furthermore, we propose a compact and intuitive ERFMeter metric
that quantitatively characterizes ERF, and shows a high correlation to the
network performance. We hope this work can inspire the research community to
further explore the pros and cons of CNN and Transformer architectures beyond
image deblurring tasks.
- Abstract(参考訳): Image Deblurringは、ぼやけた画像から潜むシャープなイメージを復元することを目的としており、コンピュータビジョンに幅広い応用がある。
畳み込みニューラルネットワーク(cnns)は長年にわたってこの領域でよく機能しており、最近ではトランスフォーマーと呼ばれる別のネットワークアーキテクチャがさらに強力な性能を示している。
mhsa(multi-head self-attention)メカニズムは、cnnよりも大きな受容野と優れた入力コンテンツ適応性を提供する。
しかし、mhsaは入力解像度に対して二次的に増加する高い計算コストを要求するため、高分解能画像デブラリングタスクでは実用的でない。
本研究では,大規模な実効性受容場(ERF)を特徴とする軽量CNNネットワークを提案する。
我々の鍵となる設計はLaKDと呼ばれる効率的なCNNブロックで、大きなカーネル深さの畳み込みと空間チャネルの混合構造を備えており、トランスフォーマーと同等あるいは大きいRFを実現するが、パラメータスケールは小さい。
具体的には,パラメータが32%少なく,MACが39%少ないデフォーカス/モーションデブロアリングベンチマークデータセット上で,最先端のRestormer上で+0.17dB / +0.43dB PSNRを達成する。
大規模な実験は、ネットワークの性能と各モジュールの有効性を実証する。
さらに,ERFを定量的に特徴付け,ネットワーク性能に高い相関性を示すコンパクトで直感的なERFメータ指標を提案する。
この研究によって、CNNとTransformerのアーキテクチャが、イメージの損なうようなタスクを超えて、さらに長所と短所を探求できることを期待しています。
関連論文リスト
- OA-CNNs: Omni-Adaptive Sparse CNNs for 3D Semantic Segmentation [70.17681136234202]
設計上の違いを再検討し、スパースCNNが達成できることの限界をテストする。
本稿では,このギャップを埋めるために,適応受容場(親和性)と適応関係という2つの重要な要素を提案する。
この調査により、軽量モジュールを統合するネットワークのファミリーであるOmni-Adaptive 3D CNN(OA-CNN)が開発された。
論文 参考訳(メタデータ) (2024-03-21T14:06:38Z) - Multiscale Low-Frequency Memory Network for Improved Feature Extraction
in Convolutional Neural Networks [13.815116154370834]
本稿では,Multiscale Low-Frequency Memory (MLFM) Networkを提案する。
MLFMは低周波情報を効率よく保存し、目標とするコンピュータビジョンタスクの性能を向上させる。
我々の研究は、既存のCNN基盤の上に構築され、コンピュータビジョンの今後の進歩の道を開く。
論文 参考訳(メタデータ) (2024-03-13T00:48:41Z) - SCSC: Spatial Cross-scale Convolution Module to Strengthen both CNNs and
Transformers [18.073368359464915]
本稿では,CNNとトランスフォーマーの両方の改善に有効であることを示す,SCSC(Spatial Cross-scale Convolution)というモジュールを提案する。
顔認識タスクでは、FaceResNet with SCSCは2.7%、FLOPは68%、パラメータは79%改善できる。
ImageNetの分類タスクでは、SCSCのSwin TransformerはFLOPを22%減らしてさらにパフォーマンスが向上し、CSCSのResNetも同様の複雑さで5.3%改善できる。
論文 参考訳(メタデータ) (2023-08-14T12:49:39Z) - Cross-receptive Focused Inference Network for Lightweight Image
Super-Resolution [64.25751738088015]
トランスフォーマーに基づく手法は、単一画像超解像(SISR)タスクにおいて顕著な性能を示した。
動的に特徴を抽出するために文脈情報を組み込む必要がある変換器は無視される。
我々は,CNNとTransformerを混合したCTブロックのカスケードで構成される,軽量なクロスレセプティブ・フォーカスド・推論・ネットワーク(CFIN)を提案する。
論文 参考訳(メタデータ) (2022-07-06T16:32:29Z) - Image Super-resolution with An Enhanced Group Convolutional Neural
Network [102.2483249598621]
学習能力の強いCNNは、超解像問題を解くために広く選択されている。
浅層構造を持つ超解像群CNN(ESRGCNN)を提案する。
ESRGCNNは、SISRの性能、複雑さ、実行速度、画質評価およびSISRの視覚効果の観点から、最先端技術を上回っていると報告されている。
論文 参考訳(メタデータ) (2022-05-29T00:34:25Z) - DDCNet: Deep Dilated Convolutional Neural Network for Dense Prediction [0.0]
受容場(ERF)とネットワーク内の空間的特徴の高分解能は、高分解能密度推定を提供することに不可欠である。
空間的特徴の解像度を高く保ちながら、より大きな受容場を提供できるネットワークアーキテクチャを設計するための体系的なアプローチを提案する。
論文 参考訳(メタデータ) (2021-07-09T23:15:34Z) - Asymmetric CNN for image super-resolution [102.96131810686231]
深層畳み込みニューラルネットワーク(CNN)は、過去5年間で低レベルビジョンに広く適用されています。
画像超解像のための非対称ブロック(AB)、mem?ory拡張ブロック(MEB)、高周波数特徴強調ブロック(HFFEB)からなる非対称CNN(ACNet)を提案する。
我々のACNetは、ブラインドノイズの単一画像超解像(SISR)、ブラインドSISR、ブラインドSISRを効果的に処理できる。
論文 参考訳(メタデータ) (2021-03-25T07:10:46Z) - Learning Frequency-aware Dynamic Network for Efficient Super-Resolution [56.98668484450857]
本稿では、離散コサイン変換(dct)領域の係数に応じて入力を複数の部分に分割する新しい周波数認識動的ネットワークについて検討する。
実際、高周波部は高価な操作で処理され、低周波部は計算負荷を軽減するために安価な操作が割り当てられる。
ベンチマークSISRモデルおよびデータセット上での実験は、周波数認識動的ネットワークが様々なSISRニューラルネットワークに使用できることを示している。
論文 参考訳(メタデータ) (2021-03-15T12:54:26Z) - Enhancing sensor resolution improves CNN accuracy given the same number
of parameters or FLOPS [53.10151901863263]
パラメータ数やFLOPSが同じで、高い入力解像度で高い精度が得られるように、ネットワークを変更することは、ほぼ常に可能であることを示す。
MNIST、Fashion MNIST、CIFAR10データセットに関する予備的研究は、提案手法の効率性を実証している。
論文 参考訳(メタデータ) (2021-03-09T06:47:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。