論文の概要: Complex Image Generation SwinTransformer Network for Audio Denoising
- arxiv url: http://arxiv.org/abs/2310.16109v1
- Date: Tue, 24 Oct 2023 18:21:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-26 18:38:38.244598
- Title: Complex Image Generation SwinTransformer Network for Audio Denoising
- Title(参考訳): 複合画像生成SwinTransformer Network for Audio Denoising
- Authors: Youshan Zhang and Jialu Li
- Abstract要約: 本稿では,音声の雑音化問題を画像生成タスクに変換する。
まず、複雑なフーリエ領域からより多くの情報を取得するための複雑な画像生成SwinTransformerネットワークを開発する。
そこで我々は,高品質な画像を生成するために構造類似性と詳細な損失関数を課し,識別音声とクリーンオーディオの差を最小限に抑えるためにSDR損失を開発する。
- 参考スコア(独自算出の注目度): 20.11487887319951
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Achieving high-performance audio denoising is still a challenging task in
real-world applications. Existing time-frequency methods often ignore the
quality of generated frequency domain images. This paper converts the audio
denoising problem into an image generation task. We first develop a complex
image generation SwinTransformer network to capture more information from the
complex Fourier domain. We then impose structure similarity and detailed loss
functions to generate high-quality images and develop an SDR loss to minimize
the difference between denoised and clean audios. Extensive experiments on two
benchmark datasets demonstrate that our proposed model is better than
state-of-the-art methods.
- Abstract(参考訳): 高性能なオーディオデノーミングを実現することは、現実世界のアプリケーションでは依然として難しい課題である。
既存の時間周波数法は、しばしば生成された周波数領域画像の品質を無視している。
本稿では,音声の雑音化問題を画像生成タスクに変換する。
まず、複雑なフーリエ領域からより多くの情報を取得するための複雑な画像生成SwinTransformerネットワークを開発する。
そこで我々は,高品質な画像を生成するために構造類似性と詳細な損失関数を課し,識別音声とクリーンオーディオの差を最小限に抑えるためにSDR損失を開発する。
2つのベンチマークデータセットに関する広範囲な実験により,提案手法が最先端の手法よりも優れていることを証明した。
関連論文リスト
- A cross Transformer for image denoising [83.68175077524111]
直列ブロック(SB)、並列ブロック(PB)、残留ブロック(RB)を備えたクロストランスフォーマー(CTNet)を提案する。
CTNetは、実画像や合成画像のデノナイジングにおいて、一般的なデノナイジング法よりも優れている。
論文 参考訳(メタデータ) (2023-10-16T13:53:19Z) - Reconstruct-and-Generate Diffusion Model for Detail-Preserving Image
Denoising [16.43285056788183]
再構成・生成拡散モデル(Reconstruct-and-Generate Diffusion Model, RnG)と呼ばれる新しい手法を提案する。
提案手法は, 再構成型復調ネットワークを利用して, 基礎となるクリーン信号の大半を復元する。
拡散アルゴリズムを用いて残留する高周波の詳細を生成し、視覚的品質を向上させる。
論文 参考訳(メタデータ) (2023-09-19T16:01:20Z) - Hierarchical Disentangled Representation for Invertible Image Denoising
and Beyond [14.432771193620702]
画像の高周波部分にノイズが現れる傾向にあるという潜在観測に着想を得て,完全可逆復調法を提案する。
ノイズ画像は、可逆変換により、清浄な低周波およびハイブリッドな高周波部品に分解する。
このように、ノイズのない低周波部品と高周波部品とを逆にマージして、デノナイジングをトラクタブルにする。
論文 参考訳(メタデータ) (2023-01-31T01:24:34Z) - Riesz-Quincunx-UNet Variational Auto-Encoder for Satellite Image
Denoising [0.0]
衛星画像のノイズ低減に使用される画像および時系列分解のためのハイブリッドRQUNet-VAE方式を提案する。
また,本手法をマルチバンド衛星画像に適用し,画像の分解,画像分割,拡散による時系列分解,画像分割などを行う。
論文 参考訳(メタデータ) (2022-08-25T19:51:07Z) - Dense residual Transformer for image denoising [7.232516946005627]
ノイズフリーで高品質な画像をノイズの多い画像から再構成することを目的とした,低レベルのコンピュータビジョンタスクである。
本稿では,DenSformer という名前の Transformer に基づく画像記述型ネットワーク構造を提案する。
論文 参考訳(メタデータ) (2022-05-14T01:59:38Z) - Learning to Generate Realistic Noisy Images via Pixel-level Noise-aware
Adversarial Training [50.018580462619425]
我々は,PNGAN(Pixel-level Noise-aware Generative Adrial Network)という新しいフレームワークを提案する。
PNGANは、トレーニング済みのリアルデノイザーを使用して、フェイク画像とリアルノイズ画像をほぼノイズのないソリューション空間にマッピングする。
より優れたノイズフィッティングを実現するため,ジェネレータとしてSimple Multi-versa-scale Network (SMNet) を提案する。
論文 参考訳(メタデータ) (2022-04-06T14:09:02Z) - Practical Blind Image Denoising via Swin-Conv-UNet and Data Synthesis [148.16279746287452]
本研究では,残差畳み込み層の局所モデリング能力とスウィントランスブロックの非局所モデリング能力を組み込むスウィンコンブブロックを提案する。
トレーニングデータ合成のために,異なる種類のノイズを考慮した実用的なノイズ劣化モデルの設計を行う。
AGWN除去と実画像復号化の実験は、新しいネットワークアーキテクチャ設計が最先端の性能を達成することを実証している。
論文 参考訳(メタデータ) (2022-03-24T18:11:31Z) - Exploring Inter-frequency Guidance of Image for Lightweight Gaussian
Denoising [1.52292571922932]
本稿では,周波数帯域を低域から高域に漸進的に洗練するために,IGNetと呼ばれる新しいネットワークアーキテクチャを提案する。
この設計では、より周波数間先行と情報を利用するため、モデルサイズは軽量化でき、競争結果も維持できる。
論文 参考訳(メタデータ) (2021-12-22T10:35:53Z) - Dual Adversarial Network: Toward Real-world Noise Removal and Noise
Generation [52.75909685172843]
実世界の画像ノイズ除去は、コンピュータビジョンにおける長年の課題である。
本稿では,ノイズ除去およびノイズ発生タスクに対処する新しい統合フレームワークを提案する。
本手法はクリーンノイズ画像対の連成分布を学習する。
論文 参考訳(メタデータ) (2020-07-12T09:16:06Z) - Reconstructing the Noise Manifold for Image Denoising [56.562855317536396]
本稿では,画像ノイズ空間の構造を明示的に活用するcGANを提案する。
画像ノイズの低次元多様体を直接学習することにより、この多様体にまたがる情報のみをノイズ画像から除去する。
我々の実験に基づいて、我々のモデルは既存の最先端アーキテクチャを大幅に上回っている。
論文 参考訳(メタデータ) (2020-02-11T00:31:31Z) - Variational Denoising Network: Toward Blind Noise Modeling and Removal [59.36166491196973]
ブラインド画像のデノイングはコンピュータビジョンにおいて重要な問題であるが、非常に難しい問題である。
本稿では,ノイズ推定と画像デノーミングを併用した新しい変分推論手法を提案する。
論文 参考訳(メタデータ) (2019-08-29T15:54:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。