Fugu-MT 論文翻訳(概要): Wave-U-Mamba: An End-To-End Framework For High-Quality And Efficient Speech Super Resolution

論文の概要: Wave-U-Mamba: An End-To-End Framework For High-Quality And Efficient Speech Super Resolution

arxiv url: http://arxiv.org/abs/2409.09337v3
Date: Mon, 03 Feb 2025 12:07:17 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-04 19:55:33.864414
Title: Wave-U-Mamba: An End-To-End Framework For High-Quality And Efficient Speech Super Resolution
Title（参考訳）: Wave-U-Mamba: 高品質で効率的な音声超解像のためのエンドツーエンドフレームワーク
Authors: Yongjoon Lee, Chanwoo Kim,
Abstract要約: SSR(Speech Super-Resolution)は、高周波数成分の欠如を回復させることにより低分解能音声信号を強化するタスクである。従来の手法では、通常、対数メルの特徴を再構成し、次いで波形領域で高分解能な音声を生成するボコーダが続く。本稿では,SSRを時間領域で直接実行するWave-U-Mambaという手法を提案する。
参考スコア（独自算出の注目度）: 4.495657539150699
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Speech Super-Resolution (SSR) is a task of enhancing low-resolution speech signals by restoring missing high-frequency components. Conventional approaches typically reconstruct log-mel features, followed by a vocoder that generates high-resolution speech in the waveform domain. However, as mel features lack phase information, this can result in performance degradation during the reconstruction phase. Motivated by recent advances with Selective State Spaces Models (SSMs), we propose a method, referred to as Wave-U-Mamba that directly performs SSR in time domain. In our comparative study, including models such as WSRGlow, NU-Wave 2, and AudioSR, Wave-U-Mamba demonstrates superior performance, achieving the lowest Log-Spectral Distance (LSD) across various low-resolution sampling rates, ranging from 8 to 24 kHz. Additionally, subjective human evaluations, scored using Mean Opinion Score (MOS) reveal that our method produces SSR with natural and human-like quality. Furthermore, Wave-U-Mamba achieves these results while generating high-resolution speech over nine times faster than baseline models on a single A100 GPU, with parameter sizes less than 2\% of those in the baseline models.
Abstract（参考訳）: SSR(Speech Super-Resolution)は、高周波数成分の欠如を回復させることにより低分解能音声信号を強化するタスクである。従来の手法では、通常、対数メルの特徴を再構成し、次いで波形領域で高分解能な音声を生成するボコーダが続く。しかし, メルの特徴は相情報を欠いているため, 再建段階での性能劣化が生じる可能性がある。 SSM(Selective State Spaces Models)の最近の進歩に触発されて、時間領域でSSRを直接実行するWave-U-Mambaと呼ばれる手法を提案する。 WSRGlow, NU-Wave 2, AudioSR などのモデルとの比較では, Wave-U-Mamba は 8kHz から 24kHz までの低分解能サンプリング速度において, 最低の対数スペクトル距離 (LSD) を達成した。さらに、平均オピニオンスコア(MOS)を用いて評価した主観評価の結果、本手法が自然および人的品質のSSRを生成することが明らかとなった。さらに、Wave-U-Mambaは、単一のA100 GPUのベースラインモデルよりも9倍高速な高分解能音声を生成しながら、これらの結果を達成する。

関連論文リスト

FADPNet: Frequency-Aware Dual-Path Network for Face Super-Resolution [70.61549422952193]
計算コストの制限による顔超解像(FSR)は未解決の問題である。既存のアプローチでは、全ての顔のピクセルを等しく扱い、計算資源を最適以下に割り当てる。本稿では、低周波成分と高周波成分に顔の特徴を分解する周波数対応デュアルパスネットワークであるFADPNetを提案する。
論文参考訳（メタデータ） (2025-06-17T02:33:42Z)
Accelerating High-Fidelity Waveform Generation via Adversarial Flow Matching Optimization [37.35829410807451]
本稿では,逆流マッチング最適化による高忠実かつ高効率な波形生成モデルである PeriodWave-Turbo を提案する。さまざまな客観的メトリクスで最先端のパフォーマンスを達成するには、1,000ステップの微調整しか必要ありません。 PeriodWave のバックボーンを 29M から 70M のパラメータにスケールアップすることで、一般化を改善することで、 PeriodWave-Turbo は前例のない性能を実現している。
論文参考訳（メタデータ） (2024-08-15T08:34:00Z)
Frequency-Assisted Mamba for Remote Sensing Image Super-Resolution [49.902047563260496]
我々は、リモートセンシング画像(RSI)の超高解像度化のために、視覚状態空間モデル(Mamba)を統合するための最初の試みを開発した。より優れたSR再構築を実現するため,FMSRと呼ばれる周波数支援型Mambaフレームワークを考案した。我々のFMSRは、周波数選択モジュール(FSM)、ビジョン状態空間モジュール(VSSM)、ハイブリッドゲートモジュール(HGM)を備えた多層融合アーキテクチャを備えている。
論文参考訳（メタデータ） (2024-05-08T11:09:24Z)
RFWave: Multi-band Rectified Flow for Audio Waveform Reconstruction [12.64898580131053]
本稿では,メルスペクトルや離散音響トークンから高忠実度音声波形を再構成する,最先端マルチバンド整流流法RFWaveを紹介する。 RFWaveは複雑なスペクトログラムを独自に生成し、フレームレベルで動作し、全てのサブバンドを同時に処理して効率を向上する。実験により、RFWaveは優れた再構成品質を提供するだけでなく、計算効率も非常に優れており、GPU上でのオーディオ生成は、リアルタイムよりも最大160倍高速であることがわかった。
論文参考訳（メタデータ） (2024-03-08T03:16:47Z)
Boosting Fast and High-Quality Speech Synthesis with Linear Diffusion [85.54515118077825]
本稿では, 常微分方程式に基づく線形拡散モデル(LinDiff)を提案する。計算複雑性を低減するため、LinDiffでは、入力信号を小さなパッチに分割するパッチベースの処理アプローチを採用している。我々のモデルは、より高速な合成速度で自己回帰モデルに匹敵する品質の音声を合成することができる。
論文参考訳（メタデータ） (2023-06-09T07:02:43Z)
mdctGAN: Taming transformer-based GAN for speech super-resolution with Modified DCT spectra [4.721572768262729]
音声超解像(SSR)は、高分解能(HR)音声を対応する低分解能(LR)音声から復元することを目的としている。近年のSSR法は、位相再構成の重要性を無視して、等級スペクトルの再構成に重点を置いている。修正離散コサイン変換(MDCT)に基づく新しいSSRフレームワークであるmdctGANを提案する。
論文参考訳（メタデータ） (2023-05-18T16:49:46Z)
Synthetic Wave-Geometric Impulse Responses for Improved Speech Dereverberation [69.1351513309953]
室内インパルス応答 (RIR) の低周波成分を正確にシミュレートすることが, 良好な脱ヴァーベレーションを実現する上で重要であることを示す。本研究では, ハイブリッド合成RIRで訓練された音声残響モデルが, 従来の幾何線トレーシング法により学習されたRIRで訓練されたモデルよりも優れていたことを示す。
論文参考訳（メタデータ） (2022-12-10T20:15:23Z)
Neural Vocoder is All You Need for Speech Super-resolution [56.84715616516612]
音声スーパーレゾリューション(SR)は、高周波成分を生成して音声サンプリング率を高めるタスクである。既存の音声SR法は、固定的なアップサンプリング比のような制約のある実験環境で訓練される。本稿では,ニューラルボコーダを用いた音声超解法(NVSR)を提案する。
論文参考訳（メタデータ） (2022-03-28T17:51:00Z)
A Study on Speech Enhancement Based on Diffusion Probabilistic Model [63.38586161802788]
雑音信号からクリーンな音声信号を復元することを目的とした拡散確率モデルに基づく音声強調モデル(DiffuSE)を提案する。実験結果から、DiffuSEは、標準化されたVoice Bankコーパスタスクにおいて、関連する音声生成モデルに匹敵する性能が得られることがわかった。
論文参考訳（メタデータ） (2021-07-25T19:23:18Z)
Raw Waveform Encoder with Multi-Scale Globally Attentive Locally Recurrent Networks for End-to-End Speech Recognition [45.858039215825656]
本稿では,グローバルな注意的局所再帰(GALR)ネットワークを採用し,生波形を直接入力とする新しいエンコーダを提案する。ベンチマークデータセットAISHELL-2と,5,000時間21,000時間の大規模マンダリン音声コーパスを用いて実験を行った。
論文参考訳（メタデータ） (2021-06-08T12:12:33Z)
HiFi-GAN: Generative Adversarial Networks for Efficient and High Fidelity Speech Synthesis [12.934180951771596]
効率と高忠実度音声合成を実現するHiFi-GANを提案する。単一話者データセットの主観的人的評価は,提案手法が人的品質と類似性を示すことを示している。 HiFi-GANの小さなフットプリントバージョンは、CPU上のリアルタイムよりも13.4倍高速なサンプルを生成する。
論文参考訳（メタデータ） (2020-10-12T12:33:43Z)
Real Time Speech Enhancement in the Waveform Domain [99.02180506016721]
本稿では,ラップトップCPU上でリアルタイムに動作する生波形を用いた因果音声強調モデルを提案する。提案モデルは、スキップ接続を持つエンコーダデコーダアーキテクチャに基づいている。静止ノイズや非定常ノイズを含む様々な背景ノイズを除去することができる。
論文参考訳（メタデータ） (2020-06-23T09:19:13Z)
Temporal-Spatial Neural Filter: Direction Informed End-to-End Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。主な課題は、複雑な音響環境とリアルタイム処理の要件である。複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文参考訳（メタデータ） (2020-01-02T11:12:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。