論文の概要: An Experimental Study: Assessing the Combined Framework of WavLM and
BEST-RQ for Text-to-Speech Synthesis
- arxiv url: http://arxiv.org/abs/2312.05415v1
- Date: Fri, 8 Dec 2023 23:59:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 20:57:35.072553
- Title: An Experimental Study: Assessing the Combined Framework of WavLM and
BEST-RQ for Text-to-Speech Synthesis
- Title(参考訳): テキスト音声合成のためのWavLMとBEST-RQを組み合わせたフレームワークの検討
- Authors: Via Nielson, Steven Hillis
- Abstract要約: 本稿では,TTS(text-to-speech)モデルに適した新しいモデルアーキテクチャを提案する。
我々は,事前訓練された自己教師付き学習(SSL)音声モデルであるWavLMと,BEST-RQベクトル量子化フレームワークを組み合わせた。
SUPERBベンチマークによるLibriSpeechデータセットの実験では、提案モデルの性能は著しく低下している。
- 参考スコア(独自算出の注目度): 0.5076419064097734
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a new model architecture specifically suited for text-to-speech
(TTS) models. We combine WavLM, a pre-trained self-supervised learning (SSL)
speech model, and the BEST-RQ vector quantization framework. We assess the
extent to which the more task-agnostic WavLM, coupled with the superior
suitability of the simplistic BEST-RQ framework for a wider array of downstream
tasks, yields favorable outcomes. Experiments on the LibriSpeech dataset with
SUPERB benchmarking assert that the proposed model significantly underperforms.
We speculate the underlying reason for this performance is related to the
difference between featurizing raw audio waveforms and spectrograms with a
quantizer. We discuss the limitations of this approach to better guide future
advancements in TTS.
- Abstract(参考訳): テキスト音声(TTS)モデルに適した新しいモデルアーキテクチャを提案する。
我々は,事前訓練された自己教師付き学習(SSL)音声モデルであるWavLMと,BEST-RQベクトル量子化フレームワークを組み合わせた。
よりタスクに依存しないWavLMと、より広範囲の下流タスクに対する単純化されたBEST-RQフレームワークの適合性が相まって、良好な結果が得られるかを評価する。
SUPERBベンチマークによるLibriSpeechデータセットの実験では、提案モデルの性能は著しく低下している。
この性能の根底にある理由は、生音声波形と量子化器を用いた分光器との相違にあると推測する。
TTSの今後の進歩を導くため,本手法の限界について論じる。
関連論文リスト
- A Large-Scale Evaluation of Speech Foundation Models [110.95827399522204]
音声処理ユニバーサルパフォーマンスベンチマーク(SUPERB)を構築し,基礎モデルパラダイムの有効性について検討する。
凍結基盤モデルを用いてSUPERBにおける音声処理タスクに対処する統合マルチタスクフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-15T00:03:16Z) - GRASS: Unified Generation Model for Speech-to-Semantic Tasks [7.044414457214718]
本稿では,音声データに対するタスク関連プロンプトに条件付きターゲットテキストを生成する統合エンドツーエンド(E2E)フレームワークを提案する。
提案モデルでは, 実体認識, 音声感情分析, 音声質問応答などを含む多くのベンチマークにおいて, 最先端のSOTA(State-of-the-art)結果が得られた。
音声合成タスクの微調整の今後の取り組みを容易にするため,命令データセットとコードをリリースする。
論文 参考訳(メタデータ) (2023-09-06T06:44:26Z) - Bridging Speech and Textual Pre-trained Models with Unsupervised ASR [70.61449720963235]
この研究は、音声とテキストによる事前学習モデルを結ぶ、シンプルで効率的な教師なしのパラダイムを提案する。
教師なし自動音声認識(ASR)は、音声自己教師モデルから表現を改善することができることを示す。
特に、音声による質問応答では、挑戦的なNMSQAベンチマークよりも最先端の結果に到達しています。
論文 参考訳(メタデータ) (2022-11-06T04:50:37Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Streaming Multi-Talker ASR with Token-Level Serialized Output Training [53.11450530896623]
t-SOTはマルチトーカー自動音声認識のための新しいフレームワークである。
t-SOTモデルには、推論コストの低減とよりシンプルなモデルアーキテクチャの利点がある。
重複しない音声の場合、t-SOTモデルは精度と計算コストの両面において単一ストーカーのASRモデルと同等である。
論文 参考訳(メタデータ) (2022-02-02T01:27:21Z) - LDNet: Unified Listener Dependent Modeling in MOS Prediction for
Synthetic Speech [67.88748572167309]
本稿では,平均世論スコア(MOS)予測のための統合フレームワークLDNetを提案する。
より安定した結果と効率的な計算を提供する2つの推論手法を提案する。
論文 参考訳(メタデータ) (2021-10-18T08:52:31Z) - Low-Latency Incremental Text-to-Speech Synthesis with Distilled Context
Prediction Network [41.4599368523939]
軽量モデルを用いて、観測されていない将来の文脈を直接予測するインクリメンタルTS法を提案する。
実験結果から,提案手法は合成音声の質に匹敵する10倍の時間を要することがわかった。
論文 参考訳(メタデータ) (2021-09-22T13:29:10Z) - SUPERB: Speech processing Universal PERformance Benchmark [78.41287216481203]
自然言語処理(NLP)とコンピュータビジョン(CV)の研究を進める上で、SSL(Self-supervised Learning)は不可欠です。
SuperBは、幅広い音声処理タスクで共有モデルのパフォーマンスをベンチマークするためのリーダーボードです。
凍結共有モデル上にタスク特化軽量予測ヘッドを学習することで、SUPERBタスクを解決するためのシンプルなフレームワークを提案する。
論文 参考訳(メタデータ) (2021-05-03T17:51:09Z) - Multimodal Semi-supervised Learning Framework for Punctuation Prediction
in Conversational Speech [17.602098162338137]
句読点予測のためのマルチモーダル半教師付き学習手法について検討する。
我々は大量の音声およびテキストデータから表現を学習する。
1時間分の音声とテキストデータをトレーニングすると、ベースラインモデルよりも9-18%の絶対的な改善が得られた。
論文 参考訳(メタデータ) (2020-08-03T08:13:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。