論文の概要: Neural Vocoder is All You Need for Speech Super-resolution
- arxiv url: http://arxiv.org/abs/2203.14941v1
- Date: Mon, 28 Mar 2022 17:51:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-29 14:13:03.466396
- Title: Neural Vocoder is All You Need for Speech Super-resolution
- Title(参考訳): 音声の超高解像度化に必要なのはNeural Vocoderだけ
- Authors: Haohe Liu, Woosung Choi, Xubo Liu, Qiuqiang Kong, Qiao Tian, DeLiang
Wang
- Abstract要約: 音声スーパーレゾリューション(SR)は、高周波成分を生成して音声サンプリング率を高めるタスクである。
既存の音声SR法は、固定的なアップサンプリング比のような制約のある実験環境で訓練される。
本稿では,ニューラルボコーダを用いた音声超解法(NVSR)を提案する。
- 参考スコア(独自算出の注目度): 56.84715616516612
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech super-resolution (SR) is a task to increase speech sampling rate by
generating high-frequency components. Existing speech SR methods are trained in
constrained experimental settings, such as a fixed upsampling ratio. These
strong constraints can potentially lead to poor generalization ability in
mismatched real-world cases. In this paper, we propose a neural vocoder based
speech super-resolution method (NVSR) that can handle a variety of input
resolution and upsampling ratios. NVSR consists of a mel-bandwidth extension
module, a neural vocoder module, and a post-processing module. Our proposed
system achieves state-of-the-art results on the VCTK multi-speaker benchmark.
On 44.1 kHz target resolution, NVSR outperforms WSRGlow and Nu-wave by 8% and
37% respectively on log spectral distance and achieves a significantly better
perceptual quality. We also demonstrate that prior knowledge in the pre-trained
vocoder is crucial for speech SR by performing mel-bandwidth extension with a
simple replication-padding method. Samples can be found in
https://haoheliu.github.io/nvsr.
- Abstract(参考訳): 音声スーパーレゾリューション(SR)は、高周波成分を生成して音声サンプリング率を高めるタスクである。
既存の音声SR法は、固定的なアップサンプリング比のような制約のある実験環境で訓練される。
これらの強い制約は、不一致の実世界での一般化能力の低下につながる可能性がある。
本稿では,様々な入力解像度とアップサンプリング比を処理できるニューラルボコーダを用いた音声超解像法(nvsr)を提案する。
nvsrはメルバンド幅拡張モジュール、ニューラルボコーダモジュール、後処理モジュールで構成されている。
提案方式は,VCTKマルチスピーカベンチマークの最先端化を実現する。
44.1kHzの目標解像度では、NVSRはWSRGlowとNu-waveをそれぞれ8%、Nu-waveは37%、対数スペクトル距離は37%上回る。
また,プリトレーニングされたvocoderにおける事前知識が,単純なレプリケーションパディング法を用いてメルバンド幅拡張を行うことで,音声srにとって重要であることを示す。
サンプルはhttps://haoheliu.github.io/nvsrで見ることができる。
関連論文リスト
- Large Language Models Are Strong Audio-Visual Speech Recognition Learners [53.142635674428874]
マルチモーダル・大規模言語モデル(MLLM)は,近年,多モーダル理解能力の強化により,研究の焦点となっている。
本稿では,Llama-AVSRを提案する。
我々は,最大公的なAVSRベンチマークであるLSS3に対する提案手法の評価を行い,WERが0.81%,0.77%であるASRとAVSRのタスクに対して,新しい最先端の結果を得た。
論文 参考訳(メタデータ) (2024-09-18T21:17:27Z) - VQ-CTAP: Cross-Modal Fine-Grained Sequence Representation Learning for Speech Processing [81.32613443072441]
テキスト音声(TTS)、音声変換(VC)、自動音声認識(ASR)などのタスクでは、クロスモーダルな粒度(フレームレベル)シーケンス表現が望まれる。
本稿では,テキストと音声を共同空間に組み込むために,クロスモーダルシーケンストランスコーダを用いた量子コントラスト・トーケン・音響事前学習(VQ-CTAP)手法を提案する。
論文 参考訳(メタデータ) (2024-08-11T12:24:23Z) - Decoder-only Architecture for Streaming End-to-end Speech Recognition [45.161909551392085]
ブロックワイド自動音声認識(ASR)におけるデコーダのみのアーキテクチャを提案する。
提案手法では,ブロックワイズ音声サブネットワークを用いて,CTC出力とコンテキスト埋め込みを用いて音声特徴を圧縮し,デコーダのプロンプトとして順次提供する。
提案するデコーダのみのストリーミングASRは,ベースラインモデルの2倍の速度で,LibriSpeechテストの他セットの単語誤り率を8%削減する。
論文 参考訳(メタデータ) (2024-06-23T13:50:08Z) - VALL-E R: Robust and Efficient Zero-Shot Text-to-Speech Synthesis via Monotonic Alignment [101.2489492032816]
VALL-E Rは、堅牢で効率的なゼロショットテキスト音声合成システムである。
この研究は、失語症に罹患した人々のためのスピーチの作成を含む有意義なプロジェクトに適用される可能性がある。
論文 参考訳(メタデータ) (2024-06-12T04:09:44Z) - NERV++: An Enhanced Implicit Neural Video Representation [11.25130799452367]
強調された暗黙的ニューラルビデオ表現であるNeRV++のニューラル表現を導入する。
NeRV++は、オリジナルのNeRVデコーダアーキテクチャよりも単純だが効果的な拡張である。
提案手法をUVG,MCL JVC,Bunnyのデータセット上で評価し,INRによる映像圧縮の競合性を実現する。
論文 参考訳(メタデータ) (2024-02-28T13:00:32Z) - mdctGAN: Taming transformer-based GAN for speech super-resolution with
Modified DCT spectra [4.721572768262729]
音声超解像(SSR)は、高分解能(HR)音声を対応する低分解能(LR)音声から復元することを目的としている。
近年のSSR法は、位相再構成の重要性を無視して、等級スペクトルの再構成に重点を置いている。
修正離散コサイン変換(MDCT)に基づく新しいSSRフレームワークであるmdctGANを提案する。
論文 参考訳(メタデータ) (2023-05-18T16:49:46Z) - NeuralDPS: Neural Deterministic Plus Stochastic Model with Multiband
Excitation for Noise-Controllable Waveform Generation [67.96138567288197]
本稿では,高い音声品質を保ち,高い合成効率とノイズ制御性を得ることができるニューラルDPSというニューラルボコーダを提案する。
ウェーブネットのボコーダより少なくとも280倍高速な波形を生成する。
また、単一コア上でのWaveGANの合成効率よりも28%高速である。
論文 参考訳(メタデータ) (2022-03-05T08:15:29Z) - Towards Lightweight Controllable Audio Synthesis with Conditional
Implicit Neural Representations [10.484851004093919]
入射神経表現(英語: Implicit Neural representations、INR)は、低次元関数を近似するニューラルネットワークである。
本研究では、音声合成のための生成フレームワークの軽量バックボーンとして、CINR(Conditional Implicit Neural Representations)の可能性に光を当てた。
論文 参考訳(メタデータ) (2021-11-14T13:36:18Z) - DeepA: A Deep Neural Analyzer For Speech And Singing Vocoding [71.73405116189531]
本稿では,従来のボコーダで定義されている音声をエミュレートする入力音声から,F0と音節/音節/音節のエンコーディングを抽出するニューラルボコーダを提案する。
ディープ・ニューラル・アナライザは学習可能であるため、信号の再構成と操作がより正確であり、音声から歌への一般化が期待できる。
論文 参考訳(メタデータ) (2021-10-13T01:39:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。