論文の概要: TalkNet 2: Non-Autoregressive Depth-Wise Separable Convolutional Model
Stanislav Beliaev, Boris Ginsburgfor Speech Synthesis with Explicit Pitch and
Duration Prediction
- arxiv url: http://arxiv.org/abs/2104.08189v1
- Date: Fri, 16 Apr 2021 15:58:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-19 17:35:22.128382
- Title: TalkNet 2: Non-Autoregressive Depth-Wise Separable Convolutional Model
Stanislav Beliaev, Boris Ginsburgfor Speech Synthesis with Explicit Pitch and
Duration Prediction
- Title(参考訳): TalkNet 2: 非自己回帰深さ幅分割畳み込みモデル Stanislav Beliaev, Boris Ginsburg for Speech Synthesis with Explicit Pitch and Duration Prediction
- Authors: Stanislav Beliaev, Boris Ginsburg
- Abstract要約: TalkNetは、明示的なピッチと持続時間予測を備えた音声合成のための非自己回帰畳み込みニューラルモデルである。
このモデルは13.2Mのパラメータしか持たず、現在の最先端のテキスト音声モデルより約2倍少ない。
- 参考スコア(独自算出の注目度): 11.03351992037606
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose TalkNet, a non-autoregressive convolutional neural model for
speech synthesis with explicit pitch and duration prediction. The model
consists of three feed-forward convolutional networks. The first network
predicts grapheme durations. An input text is expanded by repeating each symbol
according to the predicted duration. The second network predicts pitch value
for every mel frame. The third network generates a mel-spectrogram from the
expanded text conditioned on predicted pitch. All networks are based on 1D
depth-wise separable convolutional architecture. The explicit duration
prediction eliminates word skipping and repeating. The quality of the generated
speech nearly matches the best auto-regressive models - TalkNet trained on the
LJSpeech dataset got MOS4.08. The model has only 13.2M parameters, almost 2x
less than the present state-of-the-art text-to-speech models. The
non-autoregressive architecture allows for fast training and inference - 422x
times faster than real-time. The small model size and fast inference make the
TalkNet an attractive candidate for embedded speech synthesis.
- Abstract(参考訳): 本研究では,音声合成のための非自己回帰畳み込みニューラルモデルであるTalkNetを提案する。
モデルは3つのフィードフォワード畳み込みネットワークで構成される。
第1のネットワークは、グラフ化期間を予測する。
予測期間に応じて各シンボルを繰り返して入力テキストを拡張する。
第2のネットワークは、メルフレーム毎にピッチ値を予測する。
第3のネットワークは、予測ピッチに条件付き拡張テキストからメルスペクトルを生成する。
すべてのネットワークは1次元奥行き分離可能な畳み込み構造に基づいている。
明示的な持続時間予測は、単語のスキップと繰り返しを排除する。
生成された音声の品質は、最も優れた自動回帰モデルとほぼ一致している - LJSpeechデータセットでトレーニングされたTalkNetは、MOS4.08を得た。
このモデルは13.2Mパラメータしか持たず、現在の最先端のテキスト音声モデルより約2倍少ない。
非自己回帰アーキテクチャは、高速なトレーニングと推論を可能にし、リアルタイムよりも422倍高速である。
小型モデルのサイズと高速推論により、TalkNetは組込み音声合成の魅力的な候補となる。
関連論文リスト
- SimpleSpeech 2: Towards Simple and Efficient Text-to-Speech with Flow-based Scalar Latent Transformer Diffusion Models [64.40250409933752]
我々は、SimpleSpeech 2.0と呼ばれるシンプルで効率的な非自己回帰(NAR)TSフレームワークを実装することで、過去の出版物の上に構築した。
SimpleSpeech 2は、自己回帰(AR)法と非自己回帰(NAR)法の両方の長所を効果的に組み合わせている。
我々は,従来の作業と他の大規模TSモデル(SOTA)と比較して,生成性能と生成速度が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2024-08-25T17:07:39Z) - RobustL2S: Speaker-Specific Lip-to-Speech Synthesis exploiting
Self-Supervised Representations [13.995231731152462]
本稿では,Lip-to-Speech合成のためのモジュール化フレームワークRobustL2Sを提案する。
非自己回帰列列列モデルは、自己教師付き視覚特徴を非絡み合った音声内容の表現にマッピングする。
ボコーダは、音声特徴を生波形に変換する。
論文 参考訳(メタデータ) (2023-07-03T09:13:57Z) - FastLTS: Non-Autoregressive End-to-End Unconstrained Lip-to-Speech
Synthesis [77.06890315052563]
我々は、低レイテンシで非拘束音声から高品質な音声を直接合成できる非自己回帰的エンドツーエンドモデルであるFastLTSを提案する。
実験により,本モデルは3秒の入力シーケンスにおける現在の自己回帰モデルと比較して,音声生成の19.76倍の高速化を実現していることがわかった。
論文 参考訳(メタデータ) (2022-07-08T10:10:39Z) - TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。
我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。
TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2022-05-25T06:34:14Z) - WavThruVec: Latent speech representation as intermediate features for
neural speech synthesis [1.1470070927586016]
WavThruVecは、高次元のWav2Vec 2.0埋め込みを中間音声表現として使用することでボトルネックを解決する2段階アーキテクチャである。
提案モデルは,最先端のニューラルモデルの品質に適合するだけでなく,音声変換やゼロショット合成といったタスクを可能にする有用な特性も提示する。
論文 参考訳(メタデータ) (2022-03-31T10:21:08Z) - Speech Summarization using Restricted Self-Attention [79.89680891246827]
音声要約に最適化された単一モデルを提案する。
提案モデルでは,ハウ-2コーパスの音声を直接要約する手法が提案されている。
論文 参考訳(メタデータ) (2021-10-12T18:21:23Z) - On-device neural speech synthesis [3.716815259884143]
TacotronとWaveRNNは、完全なニューラルネットワークベースのTSシステムの構築を可能にした。
我々は、これらのモデルをGPUサーバやモバイルデバイスにデプロイするための重要なモデリング改善と最適化戦略を示す。
提案システムは,サーバ上のリアルタイムよりも5倍,モバイルデバイス上では3倍の速さで,高品質な24kHz音声を生成することができる。
論文 参考訳(メタデータ) (2021-09-17T18:31:31Z) - End-to-End Video-To-Speech Synthesis using Generative Adversarial
Networks [54.43697805589634]
GAN(Generative Adversarial Networks)に基づくエンドツーエンドビデオ音声合成モデルを提案する。
本モデルは,生映像を入力として受信し,音声を生成するエンコーダ・デコーダアーキテクチャで構成されている。
このモデルは,グリッドなどの制約付きデータセットに対して,顕著なリアリズムで音声を再構成できることを示す。
論文 参考訳(メタデータ) (2021-04-27T17:12:30Z) - FastSpeech 2: Fast and High-Quality End-to-End Text to Speech [189.05831125931053]
FastSpeechのような非自己回帰テキスト・トゥ・スピーチ(TTS)モデルは、同等の品質の以前の自己回帰モデルよりもはるかに高速に音声を合成することができる。
FastSpeechには,(1)教師-学生蒸留パイプラインが複雑で時間を要すること,(2)教師モデルから抽出した期間が十分正確でないこと,(2)教師モデルから抽出したターゲットメル-スペクトログラムが情報損失に悩まされていること,など,いくつかの欠点がある。
我々は,教師の簡易な出力ではなく,接地目標でモデルを直接訓練するFastSpeech 2を提案する。
論文 参考訳(メタデータ) (2020-06-08T13:05:40Z) - RawNet: Fast End-to-End Neural Vocoder [4.507860128918788]
RawNetは、話者依存および非依存音声合成のための自動エンコーダ構造に基づく、完全なエンドツーエンドのニューラルボコーダである。
入力されたオーディオのより高い表現をキャプチャするコーダネットワークと、サンプルバイサンプル方式でオーディオを復元する自動回帰ボイダネットワークを含む。
論文 参考訳(メタデータ) (2019-04-10T10:25:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。