論文の概要: mdctGAN: Taming transformer-based GAN for speech super-resolution with
Modified DCT spectra
- arxiv url: http://arxiv.org/abs/2305.11104v1
- Date: Thu, 18 May 2023 16:49:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-19 14:00:12.288748
- Title: mdctGAN: Taming transformer-based GAN for speech super-resolution with
Modified DCT spectra
- Title(参考訳): mdctGAN: 修正DCTスペクトルを用いた音声超解像のためのタミングトランスフォーマーベースGAN
- Authors: Chenhao Shuai, Chaohua Shi, Lu Gan and Hongqing Liu
- Abstract要約: 音声超解像(SSR)は、高分解能(HR)音声を対応する低分解能(LR)音声から復元することを目的としている。
近年のSSR法は、位相再構成の重要性を無視して、等級スペクトルの再構成に重点を置いている。
修正離散コサイン変換(MDCT)に基づく新しいSSRフレームワークであるmdctGANを提案する。
- 参考スコア(独自算出の注目度): 4.721572768262729
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech super-resolution (SSR) aims to recover a high resolution (HR) speech
from its corresponding low resolution (LR) counterpart. Recent SSR methods
focus more on the reconstruction of the magnitude spectrogram, ignoring the
importance of phase reconstruction, thereby limiting the recovery quality. To
address this issue, we propose mdctGAN, a novel SSR framework based on modified
discrete cosine transform (MDCT). By adversarial learning in the MDCT domain,
our method reconstructs HR speeches in a phase-aware manner without vocoders or
additional post-processing. Furthermore, by learning frequency consistent
features with self-attentive mechanism, mdctGAN guarantees a high quality
speech reconstruction. For VCTK corpus dataset, the experiment results show
that our model produces natural auditory quality with high MOS and PESQ scores.
It also achieves the state-of-the-art log-spectral-distance (LSD) performance
on 48 kHz target resolution from various input rates. Code is available from
https://github.com/neoncloud/mdctGAN
- Abstract(参考訳): SSRは高分解能(HR)音声を対応する低分解能(LR)音声から復元することを目的としている。
近年のSSR法は, 位相再構成の重要性を無視し, 回復品質を抑えるため, 等級スペクトルの再構成に重点を置いている。
本稿では,修正離散コサイン変換(modified discrete cosine transform:mdct)に基づく新しいssrフレームワークであるmdctganを提案する。
MDCT領域での逆学習により,Vocoderや追加のポストプロセッシングを使わずに,段階的にHR音声を再構成する。
さらに,mdctganは,自己着信機構で周波数整合特徴を学習することにより,高品質な音声再構成を実現する。
vctkコーパスデータセットでは,本モデルがmosおよびpesqスコアの高い自然な聴覚品質を生成することを示す。
また、様々な入力レートから48kHzの目標解像度で、最先端の対数スペクトル距離(LSD)性能を実現する。
コードはhttps://github.com/neoncloud/mdctganから入手できる。
関連論文リスト
- Wave-U-Mamba: An End-To-End Framework For High-Quality And Efficient Speech Super Resolution [4.495657539150699]
SSR(Speech Super-Resolution)は、高周波数成分の欠如を回復させることにより低分解能音声信号を強化するタスクである。
従来の手法では、通常、対数メルの特徴を再構成し、次いで波形領域で高分解能な音声を生成するボコーダが続く。
本稿では,SSRを時間領域で直接実行するWave-U-Mambaという手法を提案する。
論文 参考訳(メタデータ) (2024-09-14T06:52:00Z) - TC-KANRecon: High-Quality and Accelerated MRI Reconstruction via Adaptive KAN Mechanisms and Intelligent Feature Scaling [7.281993256973667]
本研究は,TC-KANReconと命名された,革新的な条件付き拡散モデルを提案する。
Multi-Free U-KAN (MF-UKAN) モジュールと動的クリッピング戦略が組み込まれている。
実験により,提案手法は定性評価と定量的評価の両方において,他のMRI再建法よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-08-11T06:31:56Z) - Speech enhancement with frequency domain auto-regressive modeling [34.55703785405481]
遠距離実環境における音声アプリケーションは、残響によって破損した信号を扱うことが多い。
本稿では,音声品質と自動音声認識(ASR)性能を向上させるために,音声認識の統一的枠組みを提案する。
論文 参考訳(メタデータ) (2023-09-24T03:25:51Z) - Learning Detail-Structure Alternative Optimization for Blind
Super-Resolution [69.11604249813304]
そこで我々は,ブラインドSRに先立ってカーネルを曖昧にすることなく,再帰的な詳細構造代替最適化を実現する,有効かつカーネルフリーなネットワークDSSRを提案する。
DSSRでは、細部構造変調モジュール(DSMM)が構築され、画像の詳細と構造の相互作用と協調を利用する。
本手法は既存の手法に対して最先端の手法を実現する。
論文 参考訳(メタデータ) (2022-12-03T14:44:17Z) - Towards Improved Room Impulse Response Estimation for Speech Recognition [53.04440557465013]
遠距離場自動音声認識(ASR)におけるブラインドルームインパルス応答(RIR)推定システムを提案する。
まず、改良されたRIR推定と改善されたASR性能の関連性について、ニューラルネットワークを用いたRIR推定器の評価を行った。
次に、残響音声からRIR特徴を符号化し、符号化された特徴からRIRを構成するGANベースのアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-11-08T00:40:27Z) - CMGAN: Conformer-based Metric GAN for Speech Enhancement [6.480967714783858]
本稿では,時間周波数領域に対する共振器を用いた距離生成逆ネットワーク(CMGAN)を提案する。
本生成装置では,2段コンバータブロックを用いて,全等級および複雑なスペクトログラム情報を集約する。
デコーダ段階では、大きさと複素スペクトルの推定を分離し、拡張された音声を再構成するために共同で組み込む。
論文 参考訳(メタデータ) (2022-03-28T23:53:34Z) - Neural Vocoder is All You Need for Speech Super-resolution [56.84715616516612]
音声スーパーレゾリューション(SR)は、高周波成分を生成して音声サンプリング率を高めるタスクである。
既存の音声SR法は、固定的なアップサンプリング比のような制約のある実験環境で訓練される。
本稿では,ニューラルボコーダを用いた音声超解法(NVSR)を提案する。
論文 参考訳(メタデータ) (2022-03-28T17:51:00Z) - HDNet: High-resolution Dual-domain Learning for Spectral Compressive
Imaging [138.04956118993934]
HSI再構成のための高分解能デュアルドメイン学習ネットワーク(HDNet)を提案する。
一方、高効率な特徴融合によるHR空間スペクトルアテンションモジュールは、連続的かつ微細な画素レベルの特徴を提供する。
一方、HSI再構成のために周波数領域学習(FDL)を導入し、周波数領域の差を狭める。
論文 参考訳(メタデータ) (2022-03-04T06:37:45Z) - ReconFormer: Accelerated MRI Reconstruction Using Recurrent Transformer [60.27951773998535]
本稿では,MRI再構成のためのリカレントトランスモデルである textbfReconFormer を提案する。
高度にアンダーサンプリングされたk空間データから高純度磁気共鳴像を反復的に再構成することができる。
パラメータ効率が向上し,最先端手法よりも大幅に向上したことを示す。
論文 参考訳(メタデータ) (2022-01-23T21:58:19Z) - Discretization and Re-synthesis: an alternative method to solve the
Cocktail Party Problem [65.25725367771075]
この研究は、初めて合成に基づくアプローチがこの問題にうまく対応できることを示した。
具体的には,離散シンボルの認識に基づく音声分離/強調モデルを提案する。
離散シンボルの入力による合成モデルを利用することで、離散シンボル列の予測後、各ターゲット音声を再合成することができる。
論文 参考訳(メタデータ) (2021-12-17T08:35:40Z) - FreqNet: A Frequency-domain Image Super-Resolution Network with Dicrete
Cosine Transform [16.439669339293747]
単一画像超解像(SISR)は低分解能(LR)入力から高分解能(HR)出力を得ることを目的とした不適切な問題である。
高ピーク信号-雑音比(PSNR)の結果にもかかわらず、モデルが望まれる高周波の詳細を正しく付加するかどうかを判断することは困難である。
本稿では、周波数領域の観点から直感的なパイプラインであるFreqNetを提案し、この問題を解決する。
論文 参考訳(メタデータ) (2021-11-21T11:49:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。