論文の概要: On-device neural speech synthesis
- arxiv url: http://arxiv.org/abs/2109.08710v1
- Date: Fri, 17 Sep 2021 18:31:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-21 16:13:19.672081
- Title: On-device neural speech synthesis
- Title(参考訳): オンデバイスニューラル音声合成
- Authors: Sivanand Achanta, Albert Antony, Ladan Golipour, Jiangchuan Li, Tuomo
Raitio, Ramya Rasipuram, Francesco Rossi, Jennifer Shi, Jaimin Upadhyay,
David Winarsky, Hepeng Zhang
- Abstract要約: TacotronとWaveRNNは、完全なニューラルネットワークベースのTSシステムの構築を可能にした。
我々は、これらのモデルをGPUサーバやモバイルデバイスにデプロイするための重要なモデリング改善と最適化戦略を示す。
提案システムは,サーバ上のリアルタイムよりも5倍,モバイルデバイス上では3倍の速さで,高品質な24kHz音声を生成することができる。
- 参考スコア(独自算出の注目度): 3.716815259884143
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in text-to-speech (TTS) synthesis, such as Tacotron and
WaveRNN, have made it possible to construct a fully neural network based TTS
system, by coupling the two components together. Such a system is conceptually
simple as it only takes grapheme or phoneme input, uses Mel-spectrogram as an
intermediate feature, and directly generates speech samples. The system
achieves quality equal or close to natural speech. However, the high
computational cost of the system and issues with robustness have limited their
usage in real-world speech synthesis applications and products. In this paper,
we present key modeling improvements and optimization strategies that enable
deploying these models, not only on GPU servers, but also on mobile devices.
The proposed system can generate high-quality 24 kHz speech at 5x faster than
real time on server and 3x faster than real time on mobile devices.
- Abstract(参考訳): TacotronやWaveRNNのようなテキスト音声合成(TTS)の最近の進歩により、2つのコンポーネントを結合して完全なニューラルネットワークベースのTSシステムを構築することが可能になった。
このようなシステムは、グラファイムや音素入力のみを取り、Mel-spectrogramを中間機能として使用し、直接音声サンプルを生成するため、概念的には単純である。
このシステムは、自然言語に近い品質を達成する。
しかし、システムの高い計算コストと堅牢性の問題により、実世界の音声合成アプリケーションや製品での使用は制限されている。
本稿では,GPUサーバだけでなく,モバイルデバイス上でもこれらのモデルをデプロイ可能な,重要なモデリング改善と最適化戦略を提案する。
提案システムは,サーバ上のリアルタイムよりも5倍,モバイルデバイス上では3倍の速さで高品質な24kHz音声を生成することができる。
関連論文リスト
- SyncSpeech: Low-Latency and Efficient Dual-Stream Text-to-Speech based on Temporal Masked Transformer [68.78023656892319]
本稿では、ストリーミング音声を同時に生成しながら、上流モデルからストリーミングテキスト入力を受信できる、双方向ストリームテキスト音声(TTS)モデルSyncSpeechを提案する。
SyncSpeechには次のような利点がある: 低レイテンシ、第2のテキストトークンの受信時にストリーミング音声を生成し始めるとき、高効率、そして、受信したテキストトークンに対応するすべての音声トークンを1ステップでデコードするとき、。
論文 参考訳(メタデータ) (2025-02-16T12:14:17Z) - CosyVoice 2: Scalable Streaming Speech Synthesis with Large Language Models [74.80386066714229]
改良されたストリーミング音声合成モデルCosyVoice 2を提案する。
具体的には,音声トークンのコードブック利用を改善するために,有限スカラー量子化を導入する。
我々は,様々な合成シナリオをサポートするために,チャンク対応因果フローマッチングモデルを開発した。
論文 参考訳(メタデータ) (2024-12-13T12:59:39Z) - Lina-Speech: Gated Linear Attention is a Fast and Parameter-Efficient Learner for text-to-speech synthesis [7.2129341612013285]
従来の自己注意機構を,Gated Linear Attention (GLA)のような新たな再帰的アーキテクチャに置き換えるモデルであるLina-Speechを紹介する。
このアプローチは高速で、デプロイが容易で、データセットのサイズが3分から15分に及ぶ場合に、微調整されたベースラインに匹敵するパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-10-30T04:50:40Z) - SimpleSpeech 2: Towards Simple and Efficient Text-to-Speech with Flow-based Scalar Latent Transformer Diffusion Models [64.40250409933752]
我々は、SimpleSpeech 2.0と呼ばれるシンプルで効率的な非自己回帰(NAR)TSフレームワークを実装することで、過去の出版物の上に構築した。
SimpleSpeech 2は、自己回帰(AR)法と非自己回帰(NAR)法の両方の長所を効果的に組み合わせている。
我々は,従来の作業と他の大規模TSモデル(SOTA)と比較して,生成性能と生成速度が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2024-08-25T17:07:39Z) - Pheme: Efficient and Conversational Speech Generation [52.34331755341856]
我々は,コンパクトだが高性能な会話型TSモデルを提供するPhemeモデルシリーズを紹介する。
小規模の会話データで効率的にトレーニングでき、データ要求を10倍に削減できるが、自動回帰的TSモデルの品質にマッチする。
論文 参考訳(メタデータ) (2024-01-05T14:47:20Z) - HierSpeech++: Bridging the Gap between Semantic and Acoustic
Representation of Speech by Hierarchical Variational Inference for Zero-shot
Speech Synthesis [39.892633589217326]
大規模言語モデル(LLM)に基づく音声合成は、ゼロショット音声合成において広く採用されている。
テキスト音声変換(TTS)と音声変換(VC)のための高速で強力なゼロショット音声合成器であるHierSpeech++を提案する。
論文 参考訳(メタデータ) (2023-11-21T09:07:11Z) - EfficientSpeech: An On-Device Text to Speech Model [15.118059441365343]
State of the Art (SOTA) Neural Text to Speech (TTS)モデルでは、自然な音声合成音声を生成することができる。
本研究では,ARM CPU上で音声をリアルタイムに合成するEfficientSpeechという,効率的なニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-05-23T10:28:41Z) - NaturalSpeech 2: Latent Diffusion Models are Natural and Zero-Shot
Speech and Singing Synthesizers [90.83782600932567]
残差ベクトル化器を備えたニューラルオーディオ予測器を応用して量子化潜在ベクトルを得るTSシステムであるNaturalSpeech 2を開発した。
本研究では,NaturalSpeech 2を44K時間の音声・歌唱データを持つ大規模データセットに拡張し,未知話者の音声品質を評価する。
NaturalSpeech 2は、0ショット設定で、韻律/音節の類似性、合成、音声品質の点で、従来のTSシステムよりはるかに優れている。
論文 参考訳(メタデータ) (2023-04-18T16:31:59Z) - Integrated Speech and Gesture Synthesis [26.267738299876314]
テキスト音声合成と共同音声合成は、これまで2つの異なる研究コミュニティによって別々の領域として扱われてきた。
統合音声・ジェスチャー合成(ISG)と呼ばれる新しい問題である,2つのモーダルを1つのモデルで合成することを提案する。
モデルは、パイプラインシステムと比較して、より高速な合成時間とパラメータ数でこれを実現することができる。
論文 参考訳(メタデータ) (2021-08-25T19:04:00Z) - LightSpeech: Lightweight and Fast Text to Speech with Neural
Architecture Search [127.56834100382878]
我々は、FastSpeechに基づくより軽量で効率的なTSモデルを自動的に設計するLightSpeechを提案する。
実験の結果,提案手法により検出されたモデルは,CPU上での15倍のモデル圧縮比と6.5倍の推論高速化を実現していることがわかった。
論文 参考訳(メタデータ) (2021-02-08T07:45:06Z) - End-to-End Learning of Speech 2D Feature-Trajectory for Prosthetic Hands [0.48951183832371004]
本稿では,音声2D特徴を直接義手用軌跡にマッピングするエンドツーエンド畳み込みニューラルネットワーク(CNN)を提案する。
ネットワークはPythonで書かれており、対応するバックエンドを持つKerasライブラリがある。
我々はNVIDIA Jetson TX2開発キット用にCNNを最適化した。
論文 参考訳(メタデータ) (2020-09-22T02:31:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。