論文の概要: SpeedySpeech: Efficient Neural Speech Synthesis
- arxiv url: http://arxiv.org/abs/2008.03802v1
- Date: Sun, 9 Aug 2020 20:00:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-01 04:07:58.537635
- Title: SpeedySpeech: Efficient Neural Speech Synthesis
- Title(参考訳): SpeedySpeech: 効率的なニューラル音声合成
- Authors: Jan Vainer, Ond\v{r}ej Du\v{s}ek
- Abstract要約: 本稿では,高質なリアルタイムスペクトログラム合成が可能な学生-教師ネットワークを提案する。
高品質な音声を生成するには自己注意層は必要ないことを示す。
我々のモデルは1つのGPUで効率的にトレーニングでき、CPUでもリアルタイムで実行できる。
- 参考スコア(独自算出の注目度): 5.558678875187018
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While recent neural sequence-to-sequence models have greatly improved the
quality of speech synthesis, there has not been a system capable of fast
training, fast inference and high-quality audio synthesis at the same time. We
propose a student-teacher network capable of high-quality faster-than-real-time
spectrogram synthesis, with low requirements on computational resources and
fast training time. We show that self-attention layers are not necessary for
generation of high quality audio. We utilize simple convolutional blocks with
residual connections in both student and teacher networks and use only a single
attention layer in the teacher model. Coupled with a MelGAN vocoder, our
model's voice quality was rated significantly higher than Tacotron 2. Our model
can be efficiently trained on a single GPU and can run in real time even on a
CPU. We provide both our source code and audio samples in our GitHub
repository.
- Abstract(参考訳): 最近のニューラルシーケンス・ツー・シーケンスモデルでは音声合成の質が大幅に改善されているが、高速な訓練、高速推論、高品質な音声合成を同時に行うシステムはない。
本稿では,計算資源の要求が低く,学習時間も速い,高品質なリアルタイムスペクトログラム合成が可能な学生-教師ネットワークを提案する。
高品質な音声を生成するには自己注意層は必要ないことを示す。
教師ネットワークと教師ネットワークの両方に残存する単純な畳み込みブロックを活用し,教師モデルにおいて1つの注意層のみを使用する。
MelGANボコーダと組み合わせたモデルでは,声質はTacotron 2より有意に高かった。
我々のモデルは1つのGPUで効率的にトレーニングでき、CPUでもリアルタイムで実行できる。
ソースコードとオーディオサンプルの両方をgithubリポジトリで提供しています。
関連論文リスト
- Low Frame-rate Speech Codec: a Codec Designed for Fast High-quality Speech LLM Training and Inference [10.909997817643905]
提案する低フレームレート音声符号化(LFSC: Low Frame-rate Speech Codec)は, 有限スカラー量子化と大規模言語モデルによる対角訓練を利用して, 1.89kbps, 21.5fpsの高品質音声圧縮を実現するニューラルオーディオである。
本稿では,従来のモデルに匹敵する品質を向上しつつ,テキスト音声モデルの3倍高速な推定が可能であることを実証する。
論文 参考訳(メタデータ) (2024-09-18T16:39:10Z) - Pheme: Efficient and Conversational Speech Generation [52.34331755341856]
我々は,コンパクトだが高性能な会話型TSモデルを提供するPhemeモデルシリーズを紹介する。
小規模の会話データで効率的にトレーニングでき、データ要求を10倍に削減できるが、自動回帰的TSモデルの品質にマッチする。
論文 参考訳(メタデータ) (2024-01-05T14:47:20Z) - Large-scale unsupervised audio pre-training for video-to-speech
synthesis [64.86087257004883]
音声合成は、話者の無声映像から音声信号を再構成する作業である。
本稿では,24kHzで3,500時間以上のオーディオデータをエンコーダ・デコーダモデルでトレーニングすることを提案する。
次に、事前学習したデコーダを用いて、音声合成タスクの音声デコーダを初期化する。
論文 参考訳(メタデータ) (2023-06-27T13:31:33Z) - SoundStorm: Efficient Parallel Audio Generation [27.121920017380273]
本研究では,効率的な非自己回帰音声生成モデルSoundStormを提案する。
SoundStormはAudioLMのセマンティックトークンとして受け取られ、双方向の注意と信頼に基づく並列デコーディングに依存している。
我々は,高品質な自然な対話セグメントを合成することにより,より長いシーケンスに音声生成を拡張できることを実証する。
論文 参考訳(メタデータ) (2023-05-16T17:41:25Z) - FastLTS: Non-Autoregressive End-to-End Unconstrained Lip-to-Speech
Synthesis [77.06890315052563]
我々は、低レイテンシで非拘束音声から高品質な音声を直接合成できる非自己回帰的エンドツーエンドモデルであるFastLTSを提案する。
実験により,本モデルは3秒の入力シーケンスにおける現在の自己回帰モデルと比較して,音声生成の19.76倍の高速化を実現していることがわかった。
論文 参考訳(メタデータ) (2022-07-08T10:10:39Z) - End to End Lip Synchronization with a Temporal AutoEncoder [95.94432031144716]
ビデオ中の唇の動きをオーディオストリームと同期させる問題について検討する。
両領域再帰型ニューラルネットワークを用いて最適アライメントを求める。
アプリケーションとして、既存のビデオストリームとテキストから音声までの音声を強力にアライメントする能力を実証する。
論文 参考訳(メタデータ) (2022-03-30T12:00:18Z) - NeuralDPS: Neural Deterministic Plus Stochastic Model with Multiband
Excitation for Noise-Controllable Waveform Generation [67.96138567288197]
本稿では,高い音声品質を保ち,高い合成効率とノイズ制御性を得ることができるニューラルDPSというニューラルボコーダを提案する。
ウェーブネットのボコーダより少なくとも280倍高速な波形を生成する。
また、単一コア上でのWaveGANの合成効率よりも28%高速である。
論文 参考訳(メタデータ) (2022-03-05T08:15:29Z) - RAVE: A variational autoencoder for fast and high-quality neural audio
synthesis [2.28438857884398]
本稿では,高速かつ高品質な音声波形合成が可能なリアルタイムオーディオ変分自動エンコーダ(RAVE)を提案する。
我々のモデルは48kHzのオーディオ信号を生成できる最初のモデルであり、同時に標準のラップトップCPU上で20倍高速に動作可能であることを示す。
論文 参考訳(メタデータ) (2021-11-09T09:07:30Z) - On-device neural speech synthesis [3.716815259884143]
TacotronとWaveRNNは、完全なニューラルネットワークベースのTSシステムの構築を可能にした。
我々は、これらのモデルをGPUサーバやモバイルデバイスにデプロイするための重要なモデリング改善と最適化戦略を示す。
提案システムは,サーバ上のリアルタイムよりも5倍,モバイルデバイス上では3倍の速さで,高品質な24kHz音声を生成することができる。
論文 参考訳(メタデータ) (2021-09-17T18:31:31Z) - SoundStream: An End-to-End Neural Audio Codec [78.94923131038682]
本稿では,音声,音楽,一般音声を効率よく圧縮できる新しいニューラルオーディオシステムSoundStreamを紹介する。
SoundStreamは完全な畳み込みエンコーダ/デコーダネットワークと残留ベクトル量子化器に頼っている。
エンコーダまたはデコーダ側で、追加のレイテンシなしで、共同圧縮と拡張を行うことができます。
論文 参考訳(メタデータ) (2021-07-07T15:45:42Z) - RawNet: Fast End-to-End Neural Vocoder [4.507860128918788]
RawNetは、話者依存および非依存音声合成のための自動エンコーダ構造に基づく、完全なエンドツーエンドのニューラルボコーダである。
入力されたオーディオのより高い表現をキャプチャするコーダネットワークと、サンプルバイサンプル方式でオーディオを復元する自動回帰ボイダネットワークを含む。
論文 参考訳(メタデータ) (2019-04-10T10:25:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。