論文の概要: WavThruVec: Latent speech representation as intermediate features for
neural speech synthesis
- arxiv url: http://arxiv.org/abs/2203.16930v1
- Date: Thu, 31 Mar 2022 10:21:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-01 14:11:43.494428
- Title: WavThruVec: Latent speech representation as intermediate features for
neural speech synthesis
- Title(参考訳): WavThruVec:ニューラル音声合成の中間機能としての潜在音声表現
- Authors: Hubert Siuzdak, Piotr Dura, Pol van Rijn, Nori Jacoby
- Abstract要約: WavThruVecは、高次元のWav2Vec 2.0埋め込みを中間音声表現として使用することでボトルネックを解決する2段階アーキテクチャである。
提案モデルは,最先端のニューラルモデルの品質に適合するだけでなく,音声変換やゼロショット合成といったタスクを可能にする有用な特性も提示する。
- 参考スコア(独自算出の注目度): 1.1470070927586016
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in neural text-to-speech research have been dominated by
two-stage pipelines utilizing low-level intermediate speech representation such
as mel-spectrograms. However, such predetermined features are fundamentally
limited, because they do not allow to exploit the full potential of a
data-driven approach through learning hidden representations. For this reason,
several end-to-end methods have been proposed. However, such models are harder
to train and require a large number of high-quality recordings with
transcriptions. Here, we propose WavThruVec - a two-stage architecture that
resolves the bottleneck by using high-dimensional Wav2Vec 2.0 embeddings as
intermediate speech representation. Since these hidden activations provide
high-level linguistic features, they are more robust to noise. That allows us
to utilize annotated speech datasets of a lower quality to train the
first-stage module. At the same time, the second-stage component can be trained
on large-scale untranscribed audio corpora, as Wav2Vec 2.0 embeddings are
time-aligned and speaker-independent. This results in an increased
generalization capability to out-of-vocabulary words, as well as to a better
generalization to unseen speakers. We show that the proposed model not only
matches the quality of state-of-the-art neural models, but also presents useful
properties enabling tasks like voice conversion or zero-shot synthesis.
- Abstract(参考訳): ニューラルテキスト音声合成研究の最近の進歩は,メルスペクトルなどの低レベル中間音声表現を利用した2段階パイプラインによって支配されている。
しかし、そのような所定の特徴は、隠れ表現を学習することでデータ駆動アプローチの潜在能力を最大限に活用できないため、基本的に制限されている。
このため、いくつかのエンドツーエンド手法が提案されている。
しかし、そのようなモデルは訓練が困難であり、多くの高品質な録音と書き起こしを必要とする。
本稿では,高次元Wav2Vec 2.0埋め込みを中間音声表現として使用することによりボトルネックを解決する2段階アーキテクチャであるWavThruVecを提案する。
これらの隠れたアクティベーションは高いレベルの言語的特徴を提供するため、ノイズに対してより堅牢である。
これにより、より低い品質の注釈付き音声データセットを使用して、第1ステージモジュールをトレーニングすることができます。
同時に、wav2vec 2.0組み込みは時間整合であり、話者非依存であるため、第2段階のコンポーネントは大規模に書き起こされていないオーディオコーパスでトレーニングすることができる。
その結果,語彙外単語への一般化能力が向上し,未知話者への一般化性が向上した。
提案モデルは,最先端のニューラルモデルの品質に適合するだけでなく,音声変換やゼロショット合成などのタスクを可能にする有用な特性を示す。
関連論文リスト
- SyllableLM: Learning Coarse Semantic Units for Speech Language Models [21.762112843104028]
本稿では,音声表現を粗い音節単位にマージする制御可能な自己教師手法を提案する。
制御可能なセマンティックユニットを5Hz,60bpsで生成し,SotA incセグメンテーションとクラスタリングを行った。
SyllableLMは、トレーニング計算の30倍の削減と4倍のウォールクロック推論高速化によって、大幅な効率向上を実現している。
論文 参考訳(メタデータ) (2024-10-05T04:29:55Z) - Utilizing Neural Transducers for Two-Stage Text-to-Speech via Semantic
Token Prediction [15.72317249204736]
本稿では,ニューラルトランスデューサを中心とした新しいテキスト音声合成(TTS)フレームワークを提案する。
提案手法では,TSパイプライン全体をセマンティックレベルのシーケンス・ツー・シーケンス・モデリング(seq2seq)ときめ細かな音響モデルステージに分割する。
ゼロショット適応型TS実験の結果,音声品質と話者類似度の観点から,モデルがベースラインを超えていることが判明した。
論文 参考訳(メタデータ) (2024-01-03T02:03:36Z) - High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - Representation Learning With Hidden Unit Clustering For Low Resource
Speech Applications [37.89857769906568]
本稿では,隠れ単位クラスタリング(HUC)フレームワークを用いた生音声からの自己教師付き表現学習のアプローチについて述べる。
モデルへの入力は、ウィンドウ化され、1次元畳み込み層で処理されるオーディオサンプルで構成されている。
HUCフレームワークは、表現を少数の音素のような単位に分類することができ、意味的に豊かな表現を学ぶためのモデルを訓練するために使用される。
論文 参考訳(メタデータ) (2023-07-14T13:02:10Z) - NaturalSpeech 2: Latent Diffusion Models are Natural and Zero-Shot
Speech and Singing Synthesizers [90.83782600932567]
残差ベクトル化器を備えたニューラルオーディオ予測器を応用して量子化潜在ベクトルを得るTSシステムであるNaturalSpeech 2を開発した。
本研究では,NaturalSpeech 2を44K時間の音声・歌唱データを持つ大規模データセットに拡張し,未知話者の音声品質を評価する。
NaturalSpeech 2は、0ショット設定で、韻律/音節の類似性、合成、音声品質の点で、従来のTSシステムよりはるかに優れている。
論文 参考訳(メタデータ) (2023-04-18T16:31:59Z) - TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。
我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。
TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2022-05-25T06:34:14Z) - SVTS: Scalable Video-to-Speech Synthesis [105.29009019733803]
本稿では,ビデオ・トゥ・スペクトログラム予測器と事前学習したニューラルボコーダの2つのコンポーネントからなるスケーラブルなビデオ音声合成フレームワークを提案する。
私たちは、挑戦的なLSS3データセットで不可解な結果を示す最初の人です。
論文 参考訳(メタデータ) (2022-05-04T13:34:07Z) - Integrating end-to-end neural and clustering-based diarization: Getting
the best of both worlds [71.36164750147827]
クラスタリングに基づくアプローチでは、xベクトルのような話者埋め込みをクラスタリングすることで、話者ラベルを音声領域に割り当てる。
EEND(End-to-end Neural Diarization)は、ニューラルネットワークを使用してダイアリゼーションラベルを直接予測する。
重なり合う音声と、任意の数の話者を含む長い録音のために、単純だが効果的なハイブリッドダイアリゼーションフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-26T06:33:02Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。