論文の概要: EWT: Efficient Wavelet-Transformer for Single Image Denoising
- arxiv url: http://arxiv.org/abs/2304.06274v1
- Date: Thu, 13 Apr 2023 05:17:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-14 15:43:00.131941
- Title: EWT: Efficient Wavelet-Transformer for Single Image Denoising
- Title(参考訳): EWT:シングルイメージデノーミングのための効率的なウェーブレット変換器
- Authors: Juncheng Li, Bodong Cheng, Ying Chen, Guangwei Gao, Tieyong Zeng
- Abstract要約: トランスフォーマーベースの画像復号化手法は、過去1年間に奨励的な成果を上げてきた。
現在のTransformerベースの画像復号法では,性能改善と資源消費のバランスが取れない。
画像復調のための効率的なウェーブレット変換器(EWT)を提案する。
- 参考スコア(独自算出の注目度): 22.640705765467246
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer-based image denoising methods have achieved encouraging results
in the past year. However, it must uses linear operations to model long-range
dependencies, which greatly increases model inference time and consumes GPU
storage space. Compared with convolutional neural network-based methods,
current Transformer-based image denoising methods cannot achieve a balance
between performance improvement and resource consumption. In this paper, we
propose an Efficient Wavelet Transformer (EWT) for image denoising.
Specifically, we use Discrete Wavelet Transform (DWT) and Inverse Wavelet
Transform (IWT) for downsampling and upsampling, respectively. This method can
fully preserve the image features while reducing the image resolution, thereby
greatly reducing the device resource consumption of the Transformer model.
Furthermore, we propose a novel Dual-stream Feature Extraction Block (DFEB) to
extract image features at different levels, which can further reduce model
inference time and GPU memory usage. Experiments show that our method speeds up
the original Transformer by more than 80%, reduces GPU memory usage by more
than 60%, and achieves excellent denoising results. All code will be public.
- Abstract(参考訳): 変圧器を用いた画像デノイジング手法は,過去1年間で有望な成果を上げている。
しかし、長距離依存関係のモデル化には線形演算を使用する必要があり、モデル推論時間を大幅に増加させ、gpuストレージ空間を消費する。
畳み込みニューラルネットワークに基づく手法と比較すると、現在のトランスフォーマーベースの画像デノージング手法では、パフォーマンス改善とリソース消費のバランスが取れない。
本稿では,画像復調のための効率的なウェーブレット変換器(EWT)を提案する。
具体的には,ダウンサンプリングとアップサンプリングに離散ウェーブレット変換(dwt)と逆ウェーブレット変換(iwt)を用いる。
この方法は、画像解像度を小さくしながら画像特徴を完全に保存し、トランスフォーマーモデルのデバイスリソース消費を大幅に削減する。
さらに、異なるレベルの画像特徴を抽出し、モデル推論時間とGPUメモリ使用量をさらに削減できる新しいデュアルストリーム特徴抽出ブロック(DFEB)を提案する。
実験の結果,元のTransformerを80%以上高速化し,GPUメモリ使用量を60%以上削減し,優れた復調結果が得られることがわかった。
すべてのコードは公開されます。
関連論文リスト
- RobustFormer: Noise-Robust Pre-training for images and videos [16.124879193111482]
本稿では、画像とビデオの両方でノイズロスト事前学習を可能にするRobustFormerを提案する。
提案手法は,ビデオ入力とマスク付き事前学習に適合する最初のDWT方式である。
実験の結果,MAEをベースとした事前学習により,iDWTのステップを回避でき,計算処理を大幅に削減できることがわかった。
論文 参考訳(メタデータ) (2024-11-20T05:10:48Z) - Dynamic Diffusion Transformer [67.13876021157887]
Diffusion Transformer (DiT) は優れた性能を示したが、かなりの計算コストに悩まされている。
本研究では,動的拡散変換器 (DyDiT) を提案する。
3%の微調整により,DiT-XLのFLOPを51%削減し,生成を1.73高速化し,ImageNet上でのFIDスコア2.07を達成する。
論文 参考訳(メタデータ) (2024-10-04T14:14:28Z) - Alleviating Distortion in Image Generation via Multi-Resolution Diffusion Models [26.926712014346432]
本稿では,新しいマルチレゾリューションネットワークと時間依存層正規化を統合することで,拡散モデルの革新的拡張を提案する。
提案手法の有効性は,ImageNet 256 x 256で1.70,ImageNet 512 x 512で2.89の新しい最先端FIDスコアを設定することで,クラス条件のImageNet生成ベンチマークで実証される。
論文 参考訳(メタデータ) (2024-06-13T17:59:58Z) - Flash Diffusion: Accelerating Any Conditional Diffusion Model for Few Steps Image Generation [2.693650249239372]
本稿では,Flash拡散モデルの生成を高速化する,効率的で高速で多用途な蒸留法を提案する。
この手法は、COCO2014とCOCO 2017データセット上の画像生成のために、FIDとCLIP-Scoreの観点から最先端のパフォーマンスに達する。
この手法の汎用性は、テキスト・トゥ・イメージ、インペイント、フェイス・スワッピング、スーパーレゾリューション、UNetベースのデノイザ(SD1.5, SDXL)やDiT(Pixart-$alpha$)などの異なるバックボーンの使用など、いくつかのタスクにまたがる。
論文 参考訳(メタデータ) (2024-06-04T14:23:27Z) - Progressive Learning with Visual Prompt Tuning for Variable-Rate Image
Compression [60.689646881479064]
本稿では,変圧器を用いた可変レート画像圧縮のためのプログレッシブラーニングパラダイムを提案する。
視覚的プロンプトチューニングにインスパイアされた私たちは,エンコーダ側とデコーダ側でそれぞれ入力画像と隠蔽特徴のプロンプトを抽出するためにLPMを使用する。
提案モデルでは, 速度歪み特性の観点から現行の可変画像法よりも優れ, スクラッチから訓練した最先端の固定画像圧縮法にアプローチする。
論文 参考訳(メタデータ) (2023-11-23T08:29:32Z) - WaveMixSR: A Resource-efficient Neural Network for Image
Super-resolution [2.0477182014909205]
本稿では、WaveMixアーキテクチャに基づく画像超解像のための新しいニューラルネットワーク、WaveMixSRを提案する。
WaveMixSRは、すべてのデータセットで競合性能を達成し、複数の超解像度タスクでBSD100データセットで最先端のパフォーマンスに達する。
論文 参考訳(メタデータ) (2023-07-01T21:25:03Z) - WavePaint: Resource-efficient Token-mixer for Self-supervised Inpainting [2.3014300466616078]
本稿では、計算効率の良いWaveMixベースの完全畳み込みアーキテクチャであるWavePaintを用いて、視覚変換器から分岐する。
2次元離散ウェーブレット変換(DWT)を用いて、畳み込み層とともに、空間的および多重解像度のトークン混合を行う。
我々のモデルは、CelebA-HQデータセットの現在のGANアーキテクチャよりも優れている。
論文 参考訳(メタデータ) (2023-07-01T18:41:34Z) - Multi-stage image denoising with the wavelet transform [125.2251438120701]
深部畳み込みニューラルネットワーク(Deep Convolutional Neural Network, CNN)は、正確な構造情報を自動マイニングすることで、画像の復調に使用される。
動的畳み込みブロック(DCB)、2つのカスケードウェーブレット変換および拡張ブロック(WEB)、残留ブロック(RB)の3段階を経由した、MWDCNNによるCNNの多段階化を提案する。
論文 参考訳(メタデータ) (2022-09-26T03:28:23Z) - Restormer: Efficient Transformer for High-Resolution Image Restoration [118.9617735769827]
畳み込みニューラルネットワーク(CNN)は、大規模データから一般化可能な画像の事前学習をうまく行う。
トランスフォーマーは、自然言語とハイレベルな視覚タスクにおいて、顕著なパフォーマンス向上を示している。
我々のモデルであるRecovery Transformer (Restormer) は、いくつかの画像復元タスクにおいて最先端の結果を得る。
論文 参考訳(メタデータ) (2021-11-18T18:59:10Z) - Learning Spatial and Spatio-Temporal Pixel Aggregations for Image and
Video Denoising [104.59305271099967]
ピクセル集計ネットワークを提示し、画像デノイジングのためのピクセルサンプリングと平均戦略を学びます。
時間空間にまたがるサンプル画素をビデオデノナイズするための画素集約ネットワークを開発した。
本手法は,動的シーンにおける大きな動きに起因する誤認問題を解決することができる。
論文 参考訳(メタデータ) (2021-01-26T13:00:46Z) - Progressive Training of Multi-level Wavelet Residual Networks for Image
Denoising [80.10533234415237]
本稿では,マルチレベルウェーブレット残差ネットワーク(MWRN)アーキテクチャと,画像復調性能向上のためのプログレッシブトレーニング手法を提案する。
人工ノイズ画像と実世界のノイズ画像の両方で実験したところ、PT-MWRNは最先端のノイズ評価法に対して良好に機能することがわかった。
論文 参考訳(メタデータ) (2020-10-23T14:14:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。