論文の概要: fairseq S^2: A Scalable and Integrable Speech Synthesis Toolkit
- arxiv url: http://arxiv.org/abs/2109.06912v1
- Date: Tue, 14 Sep 2021 18:20:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-16 14:53:53.491498
- Title: fairseq S^2: A Scalable and Integrable Speech Synthesis Toolkit
- Title(参考訳): fairseq S^2: スケーラブルで統合可能な音声合成ツールキット
- Authors: Changhan Wang, Wei-Ning Hsu, Yossi Adi, Adam Polyak, Ann Lee, Peng-Jen
Chen, Jiatao Gu, Juan Pino
- Abstract要約: fairseq S2は、音声合成のためのfairseq拡張である。
自動回帰(AR)および非AR音声合成モデルとその多話者モデルを実装した。
少ないキュレートデータで音声合成モデルの訓練を可能にするために、多くの前処理ツールが構築されている。
- 参考スコア(独自算出の注目度): 60.74922995613379
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents fairseq S^2, a fairseq extension for speech synthesis. We
implement a number of autoregressive (AR) and non-AR text-to-speech models, and
their multi-speaker variants. To enable training speech synthesis models with
less curated data, a number of preprocessing tools are built and their
importance is shown empirically. To facilitate faster iteration of development
and analysis, a suite of automatic metrics is included. Apart from the features
added specifically for this extension, fairseq S^2 also benefits from the
scalability offered by fairseq and can be easily integrated with other
state-of-the-art systems provided in this framework. The code, documentation,
and pre-trained models are available at
https://github.com/pytorch/fairseq/tree/master/examples/speech_synthesis.
- Abstract(参考訳): 本稿では、音声合成のためのfairseq拡張であるfairseq S^2を提案する。
自動回帰(AR)および非AR音声合成モデルとその多話者モデルを実装した。
キュレーションデータが少ない音声合成モデルの訓練を可能にするために、多くの前処理ツールを構築し、その重要性を実証的に示す。
開発と分析のより早いイテレーションを容易にするために、一連の自動メトリクスが含まれている。
この拡張用に特別に追加された機能とは別に、 Fairseq S^2 は Fairseq が提供するスケーラビリティの恩恵も受けており、このフレームワークで提供される他の最先端システムと簡単に統合できる。
コード、ドキュメント、事前学習されたモデルはhttps://github.com/pytorch/fairseq/tree/master/examples/speech_ synthesisで入手できる。
関連論文リスト
- Lina-Speech: Gated Linear Attention is a Fast and Parameter-Efficient Learner for text-to-speech synthesis [7.2129341612013285]
従来の自己注意機構を,Gated Linear Attention (GLA)のような新たな再帰的アーキテクチャに置き換えるモデルであるLina-Speechを紹介する。
このアプローチは高速で、デプロイが容易で、データセットのサイズが3分から15分に及ぶ場合に、微調整されたベースラインに匹敵するパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-10-30T04:50:40Z) - VoiceTextBlender: Augmenting Large Language Models with Speech Capabilities via Single-Stage Joint Speech-Text Supervised Fine-Tuning [64.56272011710735]
大規模言語モデル(LLM)のバックボーンの低ランク適応(LoRA)に対して,新しい単一段階共同音声テキストSFTアプローチを提案する。
従来のSpeechLMの7Bまたは13Bパラメータと比較すると,我々の3Bモデルは様々な音声ベンチマークにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-23T00:36:06Z) - SimpleSpeech 2: Towards Simple and Efficient Text-to-Speech with Flow-based Scalar Latent Transformer Diffusion Models [64.40250409933752]
我々は、SimpleSpeech 2.0と呼ばれるシンプルで効率的な非自己回帰(NAR)TSフレームワークを実装することで、過去の出版物の上に構築した。
SimpleSpeech 2は、自己回帰(AR)法と非自己回帰(NAR)法の両方の長所を効果的に組み合わせている。
我々は,従来の作業と他の大規模TSモデル(SOTA)と比較して,生成性能と生成速度が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2024-08-25T17:07:39Z) - SynthesizRR: Generating Diverse Datasets with Retrieval Augmentation [55.2480439325792]
トピック分類,感情分析,トーン検出,ユーモアの6つのデータセットの合成について検討した。
その結果,SynthesizRRは語彙や意味の多様性,人文との類似性,蒸留性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-16T12:22:41Z) - HierSpeech++: Bridging the Gap between Semantic and Acoustic
Representation of Speech by Hierarchical Variational Inference for Zero-shot
Speech Synthesis [39.892633589217326]
大規模言語モデル(LLM)に基づく音声合成は、ゼロショット音声合成において広く採用されている。
テキスト音声変換(TTS)と音声変換(VC)のための高速で強力なゼロショット音声合成器であるHierSpeech++を提案する。
論文 参考訳(メタデータ) (2023-11-21T09:07:11Z) - NaturalSpeech 2: Latent Diffusion Models are Natural and Zero-Shot
Speech and Singing Synthesizers [90.83782600932567]
残差ベクトル化器を備えたニューラルオーディオ予測器を応用して量子化潜在ベクトルを得るTSシステムであるNaturalSpeech 2を開発した。
本研究では,NaturalSpeech 2を44K時間の音声・歌唱データを持つ大規模データセットに拡張し,未知話者の音声品質を評価する。
NaturalSpeech 2は、0ショット設定で、韻律/音節の類似性、合成、音声品質の点で、従来のTSシステムよりはるかに優れている。
論文 参考訳(メタデータ) (2023-04-18T16:31:59Z) - On the Interplay Between Sparsity, Naturalness, Intelligibility, and
Prosody in Speech Synthesis [102.80458458550999]
スパーティイとその後の合成音声に対する効果のトレードオフについて検討する。
以上の結果から, 終末TTSモデルに限らず, プルーニングされたTTSモデルでも, 自然性や知性に富んだ合成音声を生成できることが示唆された。
論文 参考訳(メタデータ) (2021-10-04T02:03:28Z) - On-device neural speech synthesis [3.716815259884143]
TacotronとWaveRNNは、完全なニューラルネットワークベースのTSシステムの構築を可能にした。
我々は、これらのモデルをGPUサーバやモバイルデバイスにデプロイするための重要なモデリング改善と最適化戦略を示す。
提案システムは,サーバ上のリアルタイムよりも5倍,モバイルデバイス上では3倍の速さで,高品質な24kHz音声を生成することができる。
論文 参考訳(メタデータ) (2021-09-17T18:31:31Z) - Integrated Speech and Gesture Synthesis [26.267738299876314]
テキスト音声合成と共同音声合成は、これまで2つの異なる研究コミュニティによって別々の領域として扱われてきた。
統合音声・ジェスチャー合成(ISG)と呼ばれる新しい問題である,2つのモーダルを1つのモデルで合成することを提案する。
モデルは、パイプラインシステムと比較して、より高速な合成時間とパラメータ数でこれを実現することができる。
論文 参考訳(メタデータ) (2021-08-25T19:04:00Z) - fairseq S2T: Fast Speech-to-Text Modeling with fairseq [36.728277923926875]
Fairseq S2Tは、S2TモデリングタスクのためのFairseq拡張である。
データ前処理からオフライン(オンライン)推論までのエンドツーエンドを提供する。
論文 参考訳(メタデータ) (2020-10-11T05:36:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。