論文の概要: VocBench: A Neural Vocoder Benchmark for Speech Synthesis
- arxiv url: http://arxiv.org/abs/2112.03099v1
- Date: Mon, 6 Dec 2021 15:09:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-07 17:31:44.745126
- Title: VocBench: A Neural Vocoder Benchmark for Speech Synthesis
- Title(参考訳): vocbench: 音声合成のためのニューラルネットワークvocoderベンチマーク
- Authors: Ehab A. AlBadawy, Andrew Gibiansky, Qing He, Jilong Wu, Ming-Ching
Chang, Siwei Lyu
- Abstract要約: 本稿では,最先端のニューラルボコーダの性能をベンチマークするフレームワークであるVocBenchを紹介する。
VocBenchは、共有環境で異なる神経ボコーダを評価するために、体系的な研究を使用している。
以上の結果から, このフレームワークは, 各ボコーダに対して, 合成試料の競争効率と品質を示すことができることがわかった。
- 参考スコア(独自算出の注目度): 36.94062576597112
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Neural vocoders, used for converting the spectral representations of an audio
signal to the waveforms, are a commonly used component in speech synthesis
pipelines. It focuses on synthesizing waveforms from low-dimensional
representation, such as Mel-Spectrograms. In recent years, different approaches
have been introduced to develop such vocoders. However, it becomes more
challenging to assess these new vocoders and compare their performance to
previous ones. To address this problem, we present VocBench, a framework that
benchmark the performance of state-of-the art neural vocoders. VocBench uses a
systematic study to evaluate different neural vocoders in a shared environment
that enables a fair comparison between them. In our experiments, we use the
same setup for datasets, training pipeline, and evaluation metrics for all
neural vocoders. We perform a subjective and objective evaluation to compare
the performance of each vocoder along a different axis. Our results demonstrate
that the framework is capable of showing the competitive efficacy and the
quality of the synthesized samples for each vocoder. VocBench framework is
available at https://github.com/facebookresearch/vocoder-benchmark.
- Abstract(参考訳): 音声信号のスペクトル表現を波形に変換するために使用されるニューラルボコーダは、音声合成パイプラインにおいて一般的に用いられるコンポーネントである。
メルスペクトログラムのような低次元表現から波形を合成することに焦点を当てている。
近年,このようなボコーダの開発に様々なアプローチが導入された。
しかし、これらの新しいvocoderを評価し、そのパフォーマンスを以前のものと比較することがより困難になる。
この問題に対処するため,我々は,最先端のニューラルネットワークボコーダのパフォーマンスをベンチマークするフレームワークであるvocbenchを提案する。
VocBenchは、共有環境で異なる神経ボコーダを評価するために、体系的な研究を使用している。
実験では、データセット、トレーニングパイプライン、すべてのニューラルボコーダの評価メトリクスに同じ設定を使用しました。
各vocoderの性能を異なる軸に沿って比較するために主観的・客観的評価を行う。
その結果, このフレームワークは, 各ボコーダの合成試料の競争効率と品質を示すことができることがわかった。
vocbench frameworkはhttps://github.com/facebookresearch/vocoder-benchmarkで入手できる。
関連論文リスト
- A Closer Look at Neural Codec Resynthesis: Bridging the Gap between Codec and Waveform Generation [65.05719674893999]
トークン予測と回帰に基づく2つの戦略について検討し,Schr"odinger Bridgeに基づく新しい手法を提案する。
異なるデザイン選択が機械と人間の知覚にどのように影響するかを検討する。
論文 参考訳(メタデータ) (2024-10-29T18:29:39Z) - Large-scale unsupervised audio pre-training for video-to-speech
synthesis [64.86087257004883]
音声合成は、話者の無声映像から音声信号を再構成する作業である。
本稿では,24kHzで3,500時間以上のオーディオデータをエンコーダ・デコーダモデルでトレーニングすることを提案する。
次に、事前学習したデコーダを用いて、音声合成タスクの音声デコーダを初期化する。
論文 参考訳(メタデータ) (2023-06-27T13:31:33Z) - Disentangled Feature Learning for Real-Time Neural Speech Coding [24.751813940000993]
本稿では,視覚的なエンドツーエンド学習の代わりに,リアルタイムなニューラル音声符号化のための非絡み合った特徴を学習することを提案する。
学習された不整合特徴は、現代の自己教師付き音声表現学習モデルを用いて、任意の音声変換において同等の性能を示す。
論文 参考訳(メタデータ) (2022-11-22T02:50:12Z) - High Fidelity Neural Audio Compression [92.4812002532009]
我々は、ニューラルネットワークを利用した最先端のリアルタイム、高忠実、オーディオを導入する。
ストリーミングエンコーダ-デコーダアーキテクチャと、エンドツーエンドでトレーニングされた量子化潜在空間で構成されている。
単一マルチスケール・スペクトログラム・アドバイザリーを用いて、トレーニングを簡素化し、高速化する。
論文 参考訳(メタデータ) (2022-10-24T17:52:02Z) - Diffsound: Discrete Diffusion Model for Text-to-sound Generation [78.4128796899781]
本稿では,テキストエンコーダ,ベクトル量子化変分自動符号化(VQ-VAE),デコーダ,ボコーダからなる新しいテキスト音声生成フレームワークを提案する。
フレームワークは、まず、デコーダを使用して、テキストエンコーダから抽出したテキスト特徴をVQ-VAEの助けを借りてメルスペクトルに転送し、次いで、ボコーダを使用して生成されたメルスペクトルを波形に変換する。
論文 参考訳(メタデータ) (2022-07-20T15:41:47Z) - Deep Performer: Score-to-Audio Music Performance Synthesis [30.95307878579825]
Deep Performer(ディープ・パーフォーマー)は、音楽の楽譜合成のための新しいシステムである。
音声とは異なり、音楽はポリフォニーや長い音符を含むことが多い。
提案モデルでは, 鮮明なポリフォニーとハーモニック構造で楽曲を合成できることが示されている。
論文 参考訳(メタデータ) (2022-02-12T10:36:52Z) - DeepA: A Deep Neural Analyzer For Speech And Singing Vocoding [71.73405116189531]
本稿では,従来のボコーダで定義されている音声をエミュレートする入力音声から,F0と音節/音節/音節のエンコーディングを抽出するニューラルボコーダを提案する。
ディープ・ニューラル・アナライザは学習可能であるため、信号の再構成と操作がより正確であり、音声から歌への一般化が期待できる。
論文 参考訳(メタデータ) (2021-10-13T01:39:57Z) - Universal Neural Vocoding with Parallel WaveNet [8.6698425961311]
本稿では、Parallel WaveNetをベースとした普遍的なニューラルボコーダと、Audioと呼ばれる追加のコンディショニングネットワークを提案する。
我々のユニバーサルヴォコーダは、幅広いユースケースでリアルタイムな高品質な音声合成を提供する。
論文 参考訳(メタデータ) (2021-02-01T19:03:27Z) - RawNet: Fast End-to-End Neural Vocoder [4.507860128918788]
RawNetは、話者依存および非依存音声合成のための自動エンコーダ構造に基づく、完全なエンドツーエンドのニューラルボコーダである。
入力されたオーディオのより高い表現をキャプチャするコーダネットワークと、サンプルバイサンプル方式でオーディオを復元する自動回帰ボイダネットワークを含む。
論文 参考訳(メタデータ) (2019-04-10T10:25:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。