論文の概要: fairseq S^2: A Scalable and Integrable Speech Synthesis Toolkit
- arxiv url: http://arxiv.org/abs/2109.06912v1
- Date: Tue, 14 Sep 2021 18:20:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-16 14:53:53.491498
- Title: fairseq S^2: A Scalable and Integrable Speech Synthesis Toolkit
- Title(参考訳): fairseq S^2: スケーラブルで統合可能な音声合成ツールキット
- Authors: Changhan Wang, Wei-Ning Hsu, Yossi Adi, Adam Polyak, Ann Lee, Peng-Jen
Chen, Jiatao Gu, Juan Pino
- Abstract要約: fairseq S2は、音声合成のためのfairseq拡張である。
自動回帰(AR)および非AR音声合成モデルとその多話者モデルを実装した。
少ないキュレートデータで音声合成モデルの訓練を可能にするために、多くの前処理ツールが構築されている。
- 参考スコア(独自算出の注目度): 60.74922995613379
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents fairseq S^2, a fairseq extension for speech synthesis. We
implement a number of autoregressive (AR) and non-AR text-to-speech models, and
their multi-speaker variants. To enable training speech synthesis models with
less curated data, a number of preprocessing tools are built and their
importance is shown empirically. To facilitate faster iteration of development
and analysis, a suite of automatic metrics is included. Apart from the features
added specifically for this extension, fairseq S^2 also benefits from the
scalability offered by fairseq and can be easily integrated with other
state-of-the-art systems provided in this framework. The code, documentation,
and pre-trained models are available at
https://github.com/pytorch/fairseq/tree/master/examples/speech_synthesis.
- Abstract(参考訳): 本稿では、音声合成のためのfairseq拡張であるfairseq S^2を提案する。
自動回帰(AR)および非AR音声合成モデルとその多話者モデルを実装した。
キュレーションデータが少ない音声合成モデルの訓練を可能にするために、多くの前処理ツールを構築し、その重要性を実証的に示す。
開発と分析のより早いイテレーションを容易にするために、一連の自動メトリクスが含まれている。
この拡張用に特別に追加された機能とは別に、 Fairseq S^2 は Fairseq が提供するスケーラビリティの恩恵も受けており、このフレームワークで提供される他の最先端システムと簡単に統合できる。
コード、ドキュメント、事前学習されたモデルはhttps://github.com/pytorch/fairseq/tree/master/examples/speech_ synthesisで入手できる。
関連論文リスト
- HierSpeech++: Bridging the Gap between Semantic and Acoustic
Representation of Speech by Hierarchical Variational Inference for Zero-shot
Speech Synthesis [39.892633589217326]
大規模言語モデル(LLM)に基づく音声合成は、ゼロショット音声合成において広く採用されている。
テキスト音声変換(TTS)と音声変換(VC)のための高速で強力なゼロショット音声合成器であるHierSpeech++を提案する。
論文 参考訳(メタデータ) (2023-11-21T09:07:11Z) - EXPRESSO: A Benchmark and Analysis of Discrete Expressive Speech
Resynthesis [49.04496602282718]
テキストなし音声合成のための高品質な表現型音声データセットであるExpressoを紹介する。
このデータセットは、26の自発的表現スタイルで描画された読み上げ音声と即興対話の両方を含む。
自己監督型離散エンコーダの自動計測値を用いて再生品質を評価する。
論文 参考訳(メタデータ) (2023-08-10T17:41:19Z) - Diff-TTSG: Denoising probabilistic integrated speech and gesture
synthesis [19.35266496960533]
本稿では,Diff-TTSGと呼ばれる拡散型確率モデルについて述べる。
本稿では,統合音声とジェスチャー合成システムを評価するための,一様・多様主観的一様・多様主観的テストのセットについて述べる。
論文 参考訳(メタデータ) (2023-06-15T18:02:49Z) - NaturalSpeech 2: Latent Diffusion Models are Natural and Zero-Shot
Speech and Singing Synthesizers [90.83782600932567]
残差ベクトル化器を備えたニューラルオーディオ予測器を応用して量子化潜在ベクトルを得るTSシステムであるNaturalSpeech 2を開発した。
本研究では,NaturalSpeech 2を44K時間の音声・歌唱データを持つ大規模データセットに拡張し,未知話者の音声品質を評価する。
NaturalSpeech 2は、0ショット設定で、韻律/音節の類似性、合成、音声品質の点で、従来のTSシステムよりはるかに優れている。
論文 参考訳(メタデータ) (2023-04-18T16:31:59Z) - A Vector Quantized Approach for Text to Speech Synthesis on Real-World
Spontaneous Speech [94.64927912924087]
我々は、YouTubeやポッドキャストから現実の音声を使ってTSシステムを訓練する。
最近のText-to-Speechアーキテクチャは、複数のコード生成とモノトニックアライメントのために設計されている。
近年のテキスト・トゥ・スペーチ・アーキテクチャは,いくつかの客観的・主観的尺度において,既存のTSシステムより優れていることを示す。
論文 参考訳(メタデータ) (2023-02-08T17:34:32Z) - FastDiff: A Fast Conditional Diffusion Model for High-Quality Speech
Synthesis [90.3069686272524]
本稿では,高品質音声合成のための高速条件拡散モデルであるFastDiffを提案する。
FastDiffは、長期の依存関係を効率的にモデル化するために、さまざまな受容的フィールドパターンの時間認識可能な位置可変の畳み込みを使用する。
我々は、FastDiffに基づいて、高忠実度音声波形を生成するエンドツーエンドのテキスト音声合成器FastDiff-TTSを設計する。
論文 参考訳(メタデータ) (2022-04-21T07:49:09Z) - On the Interplay Between Sparsity, Naturalness, Intelligibility, and
Prosody in Speech Synthesis [102.80458458550999]
スパーティイとその後の合成音声に対する効果のトレードオフについて検討する。
以上の結果から, 終末TTSモデルに限らず, プルーニングされたTTSモデルでも, 自然性や知性に富んだ合成音声を生成できることが示唆された。
論文 参考訳(メタデータ) (2021-10-04T02:03:28Z) - On-device neural speech synthesis [3.716815259884143]
TacotronとWaveRNNは、完全なニューラルネットワークベースのTSシステムの構築を可能にした。
我々は、これらのモデルをGPUサーバやモバイルデバイスにデプロイするための重要なモデリング改善と最適化戦略を示す。
提案システムは,サーバ上のリアルタイムよりも5倍,モバイルデバイス上では3倍の速さで,高品質な24kHz音声を生成することができる。
論文 参考訳(メタデータ) (2021-09-17T18:31:31Z) - Integrated Speech and Gesture Synthesis [26.267738299876314]
テキスト音声合成と共同音声合成は、これまで2つの異なる研究コミュニティによって別々の領域として扱われてきた。
統合音声・ジェスチャー合成(ISG)と呼ばれる新しい問題である,2つのモーダルを1つのモデルで合成することを提案する。
モデルは、パイプラインシステムと比較して、より高速な合成時間とパラメータ数でこれを実現することができる。
論文 参考訳(メタデータ) (2021-08-25T19:04:00Z) - fairseq S2T: Fast Speech-to-Text Modeling with fairseq [36.728277923926875]
Fairseq S2Tは、S2TモデリングタスクのためのFairseq拡張である。
データ前処理からオフライン(オンライン)推論までのエンドツーエンドを提供する。
論文 参考訳(メタデータ) (2020-10-11T05:36:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。