Fugu-MT 論文翻訳(概要): EWT: Efficient Wavelet-Transformer for Single Image Denoising

論文の概要: EWT: Efficient Wavelet-Transformer for Single Image Denoising

arxiv url: http://arxiv.org/abs/2304.06274v1
Date: Thu, 13 Apr 2023 05:17:54 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-14 15:43:00.131941
Title: EWT: Efficient Wavelet-Transformer for Single Image Denoising
Title（参考訳）: EWT:シングルイメージデノーミングのための効率的なウェーブレット変換器
Authors: Juncheng Li, Bodong Cheng, Ying Chen, Guangwei Gao, Tieyong Zeng
Abstract要約: トランスフォーマーベースの画像復号化手法は、過去1年間に奨励的な成果を上げてきた。現在のTransformerベースの画像復号法では,性能改善と資源消費のバランスが取れない。画像復調のための効率的なウェーブレット変換器(EWT)を提案する。
参考スコア（独自算出の注目度）: 22.640705765467246
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Transformer-based image denoising methods have achieved encouraging results in the past year. However, it must uses linear operations to model long-range dependencies, which greatly increases model inference time and consumes GPU storage space. Compared with convolutional neural network-based methods, current Transformer-based image denoising methods cannot achieve a balance between performance improvement and resource consumption. In this paper, we propose an Efficient Wavelet Transformer (EWT) for image denoising. Specifically, we use Discrete Wavelet Transform (DWT) and Inverse Wavelet Transform (IWT) for downsampling and upsampling, respectively. This method can fully preserve the image features while reducing the image resolution, thereby greatly reducing the device resource consumption of the Transformer model. Furthermore, we propose a novel Dual-stream Feature Extraction Block (DFEB) to extract image features at different levels, which can further reduce model inference time and GPU memory usage. Experiments show that our method speeds up the original Transformer by more than 80%, reduces GPU memory usage by more than 60%, and achieves excellent denoising results. All code will be public.
Abstract（参考訳）: 変圧器を用いた画像デノイジング手法は,過去1年間で有望な成果を上げている。しかし、長距離依存関係のモデル化には線形演算を使用する必要があり、モデル推論時間を大幅に増加させ、gpuストレージ空間を消費する。畳み込みニューラルネットワークに基づく手法と比較すると、現在のトランスフォーマーベースの画像デノージング手法では、パフォーマンス改善とリソース消費のバランスが取れない。本稿では,画像復調のための効率的なウェーブレット変換器(EWT)を提案する。具体的には,ダウンサンプリングとアップサンプリングに離散ウェーブレット変換(dwt)と逆ウェーブレット変換(iwt)を用いる。この方法は、画像解像度を小さくしながら画像特徴を完全に保存し、トランスフォーマーモデルのデバイスリソース消費を大幅に削減する。さらに、異なるレベルの画像特徴を抽出し、モデル推論時間とGPUメモリ使用量をさらに削減できる新しいデュアルストリーム特徴抽出ブロック(DFEB)を提案する。実験の結果,元のTransformerを80%以上高速化し,GPUメモリ使用量を60%以上削減し,優れた復調結果が得られることがわかった。すべてのコードは公開されます。

関連論文リスト

Multi-Scale Invertible Neural Network for Wide-Range Variable-Rate Learned Image Compression [90.59962443790593]
本稿では,制限を克服するために,可逆変換に基づく可変レート画像圧縮モデルを提案する。具体的には、入力画像をマルチスケールの潜在表現にマッピングする、軽量なマルチスケール非可逆ニューラルネットワークを設計する。実験結果から,提案手法は既存の可変レート法と比較して最先端性能を実現することが示された。
論文参考訳（メタデータ） (2025-03-27T09:08:39Z)
RobustFormer: Noise-Robust Pre-training for images and videos [16.124879193111482]
本稿では、画像とビデオの両方でノイズロスト事前学習を可能にするRobustFormerを提案する。提案手法は,ビデオ入力とマスク付き事前学習に適合する最初のDWT方式である。実験の結果,MAEをベースとした事前学習により,iDWTのステップを回避でき,計算処理を大幅に削減できることがわかった。
論文参考訳（メタデータ） (2024-11-20T05:10:48Z)
Dynamic Diffusion Transformer [67.13876021157887]
Diffusion Transformer (DiT) は優れた性能を示したが、かなりの計算コストに悩まされている。本研究では,動的拡散変換器 (DyDiT) を提案する。 3%の微調整により,DiT-XLのFLOPを51%削減し,生成を1.73高速化し,ImageNet上でのFIDスコア2.07を達成する。
論文参考訳（メタデータ） (2024-10-04T14:14:28Z)
Alleviating Distortion in Image Generation via Multi-Resolution Diffusion Models [26.926712014346432]
本稿では,新しいマルチレゾリューションネットワークと時間依存層正規化を統合することで,拡散モデルの革新的拡張を提案する。提案手法の有効性は,ImageNet 256 x 256で1.70,ImageNet 512 x 512で2.89の新しい最先端FIDスコアを設定することで,クラス条件のImageNet生成ベンチマークで実証される。
論文参考訳（メタデータ） (2024-06-13T17:59:58Z)
Flash Diffusion: Accelerating Any Conditional Diffusion Model for Few Steps Image Generation [2.693650249239372]
本稿では,Flash拡散モデルの生成を高速化する,効率的で高速で多用途な蒸留法を提案する。この手法は、COCO2014とCOCO 2017データセット上の画像生成のために、FIDとCLIP-Scoreの観点から最先端のパフォーマンスに達する。この手法の汎用性は、テキスト・トゥ・イメージ、インペイント、フェイス・スワッピング、スーパーレゾリューション、UNetベースのデノイザ(SD1.5, SDXL)やDiT(Pixart-$alpha$)などの異なるバックボーンの使用など、いくつかのタスクにまたがる。
論文参考訳（メタデータ） (2024-06-04T14:23:27Z)
StreamDiffusion: A Pipeline-level Solution for Real-time Interactive Generation [52.56469577812338]
本稿では,インタラクティブな画像生成のためのリアルタイム拡散パイプラインStreamDiffusionを紹介する。既存の拡散モデルは、テキストや画像プロンプトから画像を作成するのに適しているが、リアルタイムのインタラクションでは不足することが多い。本稿では,従来のシーケンシャル・デノナイジングをデノナイジング・プロセスに変換する新しいアプローチを提案する。
論文参考訳（メタデータ） (2023-12-19T18:18:33Z)
Progressive Learning with Visual Prompt Tuning for Variable-Rate Image Compression [60.689646881479064]
本稿では,変圧器を用いた可変レート画像圧縮のためのプログレッシブラーニングパラダイムを提案する。視覚的プロンプトチューニングにインスパイアされた私たちは,エンコーダ側とデコーダ側でそれぞれ入力画像と隠蔽特徴のプロンプトを抽出するためにLPMを使用する。提案モデルでは, 速度歪み特性の観点から現行の可変画像法よりも優れ, スクラッチから訓練した最先端の固定画像圧縮法にアプローチする。
論文参考訳（メタデータ） (2023-11-23T08:29:32Z)
WaveMixSR: A Resource-efficient Neural Network for Image Super-resolution [2.0477182014909205]
本稿では、WaveMixアーキテクチャに基づく画像超解像のための新しいニューラルネットワーク、WaveMixSRを提案する。 WaveMixSRは、すべてのデータセットで競合性能を達成し、複数の超解像度タスクでBSD100データセットで最先端のパフォーマンスに達する。
論文参考訳（メタデータ） (2023-07-01T21:25:03Z)
WavePaint: Resource-efficient Token-mixer for Self-supervised Inpainting [2.3014300466616078]
本稿では、計算効率の良いWaveMixベースの完全畳み込みアーキテクチャであるWavePaintを用いて、視覚変換器から分岐する。 2次元離散ウェーブレット変換(DWT)を用いて、畳み込み層とともに、空間的および多重解像度のトークン混合を行う。我々のモデルは、CelebA-HQデータセットの現在のGANアーキテクチャよりも優れている。
論文参考訳（メタデータ） (2023-07-01T18:41:34Z)
Multi-stage image denoising with the wavelet transform [125.2251438120701]
深部畳み込みニューラルネットワーク(Deep Convolutional Neural Network, CNN)は、正確な構造情報を自動マイニングすることで、画像の復調に使用される。動的畳み込みブロック(DCB)、2つのカスケードウェーブレット変換および拡張ブロック(WEB)、残留ブロック(RB)の3段階を経由した、MWDCNNによるCNNの多段階化を提案する。
論文参考訳（メタデータ） (2022-09-26T03:28:23Z)
Restormer: Efficient Transformer for High-Resolution Image Restoration [118.9617735769827]
畳み込みニューラルネットワーク(CNN)は、大規模データから一般化可能な画像の事前学習をうまく行う。トランスフォーマーは、自然言語とハイレベルな視覚タスクにおいて、顕著なパフォーマンス向上を示している。我々のモデルであるRecovery Transformer (Restormer) は、いくつかの画像復元タスクにおいて最先端の結果を得る。
論文参考訳（メタデータ） (2021-11-18T18:59:10Z)
Learning Spatial and Spatio-Temporal Pixel Aggregations for Image and Video Denoising [104.59305271099967]
ピクセル集計ネットワークを提示し、画像デノイジングのためのピクセルサンプリングと平均戦略を学びます。時間空間にまたがるサンプル画素をビデオデノナイズするための画素集約ネットワークを開発した。本手法は,動的シーンにおける大きな動きに起因する誤認問題を解決することができる。
論文参考訳（メタデータ） (2021-01-26T13:00:46Z)
Progressive Training of Multi-level Wavelet Residual Networks for Image Denoising [80.10533234415237]
本稿では,マルチレベルウェーブレット残差ネットワーク(MWRN)アーキテクチャと,画像復調性能向上のためのプログレッシブトレーニング手法を提案する。人工ノイズ画像と実世界のノイズ画像の両方で実験したところ、PT-MWRNは最先端のノイズ評価法に対して良好に機能することがわかった。
論文参考訳（メタデータ） (2020-10-23T14:14:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。