論文の概要: Wave-U-Mamba: An End-To-End Framework For High-Quality And Efficient Speech Super Resolution
- arxiv url: http://arxiv.org/abs/2409.09337v2
- Date: Tue, 17 Sep 2024 17:33:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-18 13:22:58.041011
- Title: Wave-U-Mamba: An End-To-End Framework For High-Quality And Efficient Speech Super Resolution
- Title(参考訳): Wave-U-Mamba: 高品質で効率的な音声超解像のためのエンドツーエンドフレームワーク
- Authors: Yongjoon Lee, Chanwoo Kim,
- Abstract要約: SSR(Speech Super-Resolution)は、高周波数成分の欠如を回復させることにより低分解能音声信号を強化するタスクである。
従来の手法では、通常、対数メルの特徴を再構成し、次いで波形領域で高分解能な音声を生成するボコーダが続く。
本稿では,SSRを時間領域で直接実行するWave-U-Mambaという手法を提案する。
- 参考スコア(独自算出の注目度): 4.495657539150699
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speech Super-Resolution (SSR) is a task of enhancing low-resolution speech signals by restoring missing high-frequency components. Conventional approaches typically reconstruct log-mel features, followed by a vocoder that generates high-resolution speech in the waveform domain. However, as log-mel features lack phase information, this can result in performance degradation during the reconstruction phase. Motivated by recent advances with Selective State Spaces Models (SSMs), we propose a method, referred to as Wave-U-Mamba that directly performs SSR in time domain. In our comparative study, including models such as WSRGlow, NU-Wave 2, and AudioSR, Wave-U-Mamba demonstrates superior performance, achieving the lowest Log-Spectral Distance (LSD) across various low-resolution sampling rates, ranging from 8 kHz to 24 kHz. Additionally, subjective human evaluations, scored using Mean Opinion Score (MOS) reveal that our method produces SSR with natural and human-like quality. Furthermore, Wave-U-Mamba achieves these results while generating high-resolution speech over nine times faster than baseline models on a single A100 GPU, with parameter sizes less than 2% of those in the baseline models.
- Abstract(参考訳): SSR(Speech Super-Resolution)は、高周波数成分の欠如を回復させることにより低分解能音声信号を強化するタスクである。
従来の手法では、通常、対数メルの特徴を再構成し、次いで波形領域で高分解能な音声を生成するボコーダが続く。
しかし、ログメルの特徴は位相情報を欠いているため、このことは再構成フェーズにおける性能劣化をもたらす可能性がある。
SSM(Selective State Spaces Models)の最近の進歩に触発されて、時間領域でSSRを直接実行するWave-U-Mambaと呼ばれる手法を提案する。
WSRGlow、NU-Wave 2、AudioSRなどのモデルを含む比較研究において、Wave-U-Mambaは8kHzから24kHzの低分解能サンプリングレートで最低の対数スペクトル距離(LSD)を達成し、優れた性能を示す。
さらに、平均オピニオンスコア(MOS)を用いて評価した主観評価の結果、本手法が自然および人的品質のSSRを生成することが明らかとなった。
さらに、Wave-U-Mambaは、単一のA100 GPUのベースラインモデルよりも9倍高速な高分解能音声を生成しながら、これらの結果を達成する。
関連論文リスト
- Accelerating High-Fidelity Waveform Generation via Adversarial Flow Matching Optimization [37.35829410807451]
本稿では,逆流マッチング最適化による高忠実かつ高効率な波形生成モデルである PeriodWave-Turbo を提案する。
さまざまな客観的メトリクスで最先端のパフォーマンスを達成するには、1,000ステップの微調整しか必要ありません。
PeriodWave のバックボーンを 29M から 70M のパラメータにスケールアップすることで、一般化を改善することで、 PeriodWave-Turbo は前例のない性能を実現している。
論文 参考訳(メタデータ) (2024-08-15T08:34:00Z) - Frequency-Assisted Mamba for Remote Sensing Image Super-Resolution [49.902047563260496]
我々は、リモートセンシング画像(RSI)の超高解像度化のために、視覚状態空間モデル(Mamba)を統合するための最初の試みを開発した。
より優れたSR再構築を実現するため,FMSRと呼ばれる周波数支援型Mambaフレームワークを考案した。
我々のFMSRは、周波数選択モジュール(FSM)、ビジョン状態空間モジュール(VSSM)、ハイブリッドゲートモジュール(HGM)を備えた多層融合アーキテクチャを備えている。
論文 参考訳(メタデータ) (2024-05-08T11:09:24Z) - RFWave: Multi-band Rectified Flow for Audio Waveform Reconstruction [12.64898580131053]
本稿では,メルスペクトルや離散音響トークンから高忠実度音声波形を再構成する,最先端マルチバンド整流流法RFWaveを紹介する。
RFWaveは複雑なスペクトログラムを独自に生成し、フレームレベルで動作し、全てのサブバンドを同時に処理して効率を向上する。
実験により、RFWaveは優れた再構成品質を提供するだけでなく、計算効率も非常に優れており、GPU上でのオーディオ生成は、リアルタイムよりも最大160倍高速であることがわかった。
論文 参考訳(メタデータ) (2024-03-08T03:16:47Z) - mdctGAN: Taming transformer-based GAN for speech super-resolution with
Modified DCT spectra [4.721572768262729]
音声超解像(SSR)は、高分解能(HR)音声を対応する低分解能(LR)音声から復元することを目的としている。
近年のSSR法は、位相再構成の重要性を無視して、等級スペクトルの再構成に重点を置いている。
修正離散コサイン変換(MDCT)に基づく新しいSSRフレームワークであるmdctGANを提案する。
論文 参考訳(メタデータ) (2023-05-18T16:49:46Z) - Synthetic Wave-Geometric Impulse Responses for Improved Speech
Dereverberation [69.1351513309953]
室内インパルス応答 (RIR) の低周波成分を正確にシミュレートすることが, 良好な脱ヴァーベレーションを実現する上で重要であることを示す。
本研究では, ハイブリッド合成RIRで訓練された音声残響モデルが, 従来の幾何線トレーシング法により学習されたRIRで訓練されたモデルよりも優れていたことを示す。
論文 参考訳(メタデータ) (2022-12-10T20:15:23Z) - Neural Vocoder is All You Need for Speech Super-resolution [56.84715616516612]
音声スーパーレゾリューション(SR)は、高周波成分を生成して音声サンプリング率を高めるタスクである。
既存の音声SR法は、固定的なアップサンプリング比のような制約のある実験環境で訓練される。
本稿では,ニューラルボコーダを用いた音声超解法(NVSR)を提案する。
論文 参考訳(メタデータ) (2022-03-28T17:51:00Z) - A Study on Speech Enhancement Based on Diffusion Probabilistic Model [63.38586161802788]
雑音信号からクリーンな音声信号を復元することを目的とした拡散確率モデルに基づく音声強調モデル(DiffuSE)を提案する。
実験結果から、DiffuSEは、標準化されたVoice Bankコーパスタスクにおいて、関連する音声生成モデルに匹敵する性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-07-25T19:23:18Z) - Raw Waveform Encoder with Multi-Scale Globally Attentive Locally
Recurrent Networks for End-to-End Speech Recognition [45.858039215825656]
本稿では,グローバルな注意的局所再帰(GALR)ネットワークを採用し,生波形を直接入力とする新しいエンコーダを提案する。
ベンチマークデータセットAISHELL-2と,5,000時間21,000時間の大規模マンダリン音声コーパスを用いて実験を行った。
論文 参考訳(メタデータ) (2021-06-08T12:12:33Z) - Real Time Speech Enhancement in the Waveform Domain [99.02180506016721]
本稿では,ラップトップCPU上でリアルタイムに動作する生波形を用いた因果音声強調モデルを提案する。
提案モデルは、スキップ接続を持つエンコーダデコーダアーキテクチャに基づいている。
静止ノイズや非定常ノイズを含む様々な背景ノイズを除去することができる。
論文 参考訳(メタデータ) (2020-06-23T09:19:13Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。