論文の概要: EfficientSpeech: An On-Device Text to Speech Model
- arxiv url: http://arxiv.org/abs/2305.13905v1
- Date: Tue, 23 May 2023 10:28:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 17:09:08.148579
- Title: EfficientSpeech: An On-Device Text to Speech Model
- Title(参考訳): EfficientSpeech: 音声モデルのためのオンデバイステキスト
- Authors: Rowel Atienza
- Abstract要約: State of the Art (SOTA) Neural Text to Speech (TTS)モデルでは、自然な音声合成音声を生成することができる。
本研究では,ARM CPU上で音声をリアルタイムに合成するEfficientSpeechという,効率的なニューラルネットワークを提案する。
- 参考スコア(独自算出の注目度): 15.118059441365343
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: State of the art (SOTA) neural text to speech (TTS) models can generate
natural-sounding synthetic voices. These models are characterized by large
memory footprints and substantial number of operations due to the long-standing
focus on speech quality with cloud inference in mind. Neural TTS models are
generally not designed to perform standalone speech syntheses on
resource-constrained and no Internet access edge devices. In this work, an
efficient neural TTS called EfficientSpeech that synthesizes speech on an ARM
CPU in real-time is proposed. EfficientSpeech uses a shallow non-autoregressive
pyramid-structure transformer forming a U-Network. EfficientSpeech has 266k
parameters and consumes 90 MFLOPS only or about 1% of the size and amount of
computation in modern compact models such as Mixer-TTS. EfficientSpeech
achieves an average mel generation real-time factor of 104.3 on an RPi4. Human
evaluation shows only a slight degradation in audio quality as compared to
FastSpeech2.
- Abstract(参考訳): State of the Art (SOTA) Neural Text to Speech (TTS)モデルでは、自然な音声合成音声を生成することができる。
これらのモデルは、クラウド推論を念頭に置いて音声品質に長年注力してきたため、大きなメモリフットプリントとかなりの数の操作によって特徴付けられる。
ニューラルTSモデルは一般に、リソース制約のあるインターネットアクセスエッジデバイス上でスタンドアロンの音声合成を行うように設計されていない。
本稿では,arm cpu上で音声をリアルタイムに合成する効率的なニューラルネットワークtts, efficientspeechを提案する。
efficientspeechはuネットワークを形成する浅い非自己回帰ピラミッド構造トランスを使用する。
EfficientSpeechは266kのパラメータを持ち、MFLOPSはMixer-TTSのような現代のコンパクトモデルでは90のMFLOPSしか消費しない。
efficientspeechはrpi4上の平均メル生成リアルタイム係数104.3を達成する。
人間の評価では、FastSpeech2に比べてオーディオ品質がわずかに低下している。
関連論文リスト
- Lina-Speech: Gated Linear Attention is a Fast and Parameter-Efficient Learner for text-to-speech synthesis [7.2129341612013285]
従来の自己注意機構を,Gated Linear Attention (GLA)のような新たな再帰的アーキテクチャに置き換えるモデルであるLina-Speechを紹介する。
このアプローチは高速で、デプロイが容易で、データセットのサイズが3分から15分に及ぶ場合に、微調整されたベースラインに匹敵するパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-10-30T04:50:40Z) - NaturalSpeech 3: Zero-Shot Speech Synthesis with Factorized Codec and Diffusion Models [127.47252277138708]
ゼロショット方式で自然な音声を生成するために,分解拡散モデルを備えたTSSシステムであるNaturalSpeech 3を提案する。
具体的には、分解ベクトル量子化(FVQ)を用いて、音声波形をコンテンツ、韻律、音色、音響的詳細の部分空間に分解する。
実験により、NaturalSpeech 3は、品質、類似性、韻律、知性において最先端のTSSシステムより優れていることが示された。
論文 参考訳(メタデータ) (2024-03-05T16:35:25Z) - Pheme: Efficient and Conversational Speech Generation [52.34331755341856]
我々は,コンパクトだが高性能な会話型TSモデルを提供するPhemeモデルシリーズを紹介する。
小規模の会話データで効率的にトレーニングでき、データ要求を10倍に削減できるが、自動回帰的TSモデルの品質にマッチする。
論文 参考訳(メタデータ) (2024-01-05T14:47:20Z) - HierSpeech++: Bridging the Gap between Semantic and Acoustic
Representation of Speech by Hierarchical Variational Inference for Zero-shot
Speech Synthesis [39.892633589217326]
大規模言語モデル(LLM)に基づく音声合成は、ゼロショット音声合成において広く採用されている。
テキスト音声変換(TTS)と音声変換(VC)のための高速で強力なゼロショット音声合成器であるHierSpeech++を提案する。
論文 参考訳(メタデータ) (2023-11-21T09:07:11Z) - SpeechX: Neural Codec Language Model as a Versatile Speech Transformer [57.82364057872905]
SpeechX は、ゼロショット TTS と様々な音声変換タスクが可能な汎用音声生成モデルである。
実験結果から, ゼロショットTS, ノイズ抑制, ターゲット話者抽出, 音声除去, 背景雑音の有無による音声編集など, 各種タスクにおけるSpeechXの有効性が示された。
論文 参考訳(メタデータ) (2023-08-14T01:01:19Z) - Mega-TTS: Zero-Shot Text-to-Speech at Scale with Intrinsic Inductive
Bias [71.94109664001952]
Mega-TTSは、大規模な野生データで訓練された新しいゼロショットTSシステムである。
Mega-TTS はゼロショット TTS 音声編集や言語間 TTS タスクにおいて最先端 TTS システムを超えていることを示す。
論文 参考訳(メタデータ) (2023-06-06T08:54:49Z) - NaturalSpeech 2: Latent Diffusion Models are Natural and Zero-Shot
Speech and Singing Synthesizers [90.83782600932567]
残差ベクトル化器を備えたニューラルオーディオ予測器を応用して量子化潜在ベクトルを得るTSシステムであるNaturalSpeech 2を開発した。
本研究では,NaturalSpeech 2を44K時間の音声・歌唱データを持つ大規模データセットに拡張し,未知話者の音声品質を評価する。
NaturalSpeech 2は、0ショット設定で、韻律/音節の類似性、合成、音声品質の点で、従来のTSシステムよりはるかに優れている。
論文 参考訳(メタデータ) (2023-04-18T16:31:59Z) - On-device neural speech synthesis [3.716815259884143]
TacotronとWaveRNNは、完全なニューラルネットワークベースのTSシステムの構築を可能にした。
我々は、これらのモデルをGPUサーバやモバイルデバイスにデプロイするための重要なモデリング改善と最適化戦略を示す。
提案システムは,サーバ上のリアルタイムよりも5倍,モバイルデバイス上では3倍の速さで,高品質な24kHz音声を生成することができる。
論文 参考訳(メタデータ) (2021-09-17T18:31:31Z) - LightSpeech: Lightweight and Fast Text to Speech with Neural
Architecture Search [127.56834100382878]
我々は、FastSpeechに基づくより軽量で効率的なTSモデルを自動的に設計するLightSpeechを提案する。
実験の結果,提案手法により検出されたモデルは,CPU上での15倍のモデル圧縮比と6.5倍の推論高速化を実現していることがわかった。
論文 参考訳(メタデータ) (2021-02-08T07:45:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。