Fugu-MT 論文翻訳(概要): An Experimental Study: Assessing the Combined Framework of WavLM and BEST-RQ for Text-to-Speech Synthesis

論文の概要: An Experimental Study: Assessing the Combined Framework of WavLM and BEST-RQ for Text-to-Speech Synthesis

arxiv url: http://arxiv.org/abs/2312.05415v1
Date: Fri, 8 Dec 2023 23:59:25 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-12 20:57:35.072553
Title: An Experimental Study: Assessing the Combined Framework of WavLM and BEST-RQ for Text-to-Speech Synthesis
Title（参考訳）: テキスト音声合成のためのWavLMとBEST-RQを組み合わせたフレームワークの検討
Authors: Via Nielson, Steven Hillis
Abstract要約: 本稿では,TTS(text-to-speech)モデルに適した新しいモデルアーキテクチャを提案する。我々は,事前訓練された自己教師付き学習(SSL)音声モデルであるWavLMと,BEST-RQベクトル量子化フレームワークを組み合わせた。 SUPERBベンチマークによるLibriSpeechデータセットの実験では、提案モデルの性能は著しく低下している。
参考スコア（独自算出の注目度）: 0.5076419064097734
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We propose a new model architecture specifically suited for text-to-speech (TTS) models. We combine WavLM, a pre-trained self-supervised learning (SSL) speech model, and the BEST-RQ vector quantization framework. We assess the extent to which the more task-agnostic WavLM, coupled with the superior suitability of the simplistic BEST-RQ framework for a wider array of downstream tasks, yields favorable outcomes. Experiments on the LibriSpeech dataset with SUPERB benchmarking assert that the proposed model significantly underperforms. We speculate the underlying reason for this performance is related to the difference between featurizing raw audio waveforms and spectrograms with a quantizer. We discuss the limitations of this approach to better guide future advancements in TTS.
Abstract（参考訳）: テキスト音声(TTS)モデルに適した新しいモデルアーキテクチャを提案する。我々は,事前訓練された自己教師付き学習(SSL)音声モデルであるWavLMと,BEST-RQベクトル量子化フレームワークを組み合わせた。よりタスクに依存しないWavLMと、より広範囲の下流タスクに対する単純化されたBEST-RQフレームワークの適合性が相まって、良好な結果が得られるかを評価する。 SUPERBベンチマークによるLibriSpeechデータセットの実験では、提案モデルの性能は著しく低下している。この性能の根底にある理由は、生音声波形と量子化器を用いた分光器との相違にあると推測する。 TTSの今後の進歩を導くため,本手法の限界について論じる。

関連論文リスト

Towards Efficient Speech-Text Jointly Decoding within One Speech Language Model [76.06585781346601]
音声言語モデル(Speech LMs)は、単一のモデル内でエンドツーエンドの音声テキストモデリングを可能にする。音声テキストの共同復号パラダイムの選択は、性能、効率、アライメント品質において重要な役割を担っている。
論文参考訳（メタデータ） (2025-06-04T23:53:49Z)
Align-SLM: Textless Spoken Language Models with Reinforcement Learning from AI Feedback [50.84142264245052]
テキストレス音声言語モデル(SLM)のセマンティック理解を強化するためのAlign-SLMフレームワークを導入する。提案手法は、与えられたプロンプトから複数の音声継続を生成し、意味的指標を用いて、直接選好最適化(DPO)のための選好データを生成する。語彙および構文モデリングのためのZeroSpeech 2021ベンチマーク、意味的コヒーレンスのためのStoryClozeデータセットの音声バージョン、GPT4-oスコアや人間評価などの音声生成指標を用いて、フレームワークの評価を行った。
論文参考訳（メタデータ） (2024-11-04T06:07:53Z)
Enhancing Question Answering Precision with Optimized Vector Retrieval and Instructions [1.2425910171551517]
質問応答 (QA) は情報検索 (IR) と言語モデルの重要な応用である。本稿では、最適化されたベクトル検索と命令手法を統合することにより、QAタスク性能を改善するための革新的なアプローチを提案する。
論文参考訳（メタデータ） (2024-11-01T21:14:04Z)
NEST-RQ: Next Token Prediction for Speech Self-Supervised Pre-Training [17.54331997432642]
ランダム投影量化器(NEST-RQ)を用いた次のトークン予測に基づく事前学習手法を提案する。 NEST-RQでは、左コンテキストのみの因果エンコーダを採用し、トレーニングタスクとして次のトークン予測(NTP)を使用している。大規模データセットでは、BEST-RQと比較して、提案したNEST-RQは、非ストリーミング自動音声認識(ASR)における同等のパフォーマンスと、ストリーミングASRにおけるより良いパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-09-13T09:48:11Z)
A Large-Scale Evaluation of Speech Foundation Models [110.95827399522204]
音声処理ユニバーサルパフォーマンスベンチマーク(SUPERB)を構築し,基礎モデルパラダイムの有効性について検討する。凍結基盤モデルを用いてSUPERBにおける音声処理タスクに対処する統合マルチタスクフレームワークを提案する。
論文参考訳（メタデータ） (2024-04-15T00:03:16Z)
Bridging Speech and Textual Pre-trained Models with Unsupervised ASR [70.61449720963235]
この研究は、音声とテキストによる事前学習モデルを結ぶ、シンプルで効率的な教師なしのパラダイムを提案する。教師なし自動音声認識(ASR)は、音声自己教師モデルから表現を改善することができることを示す。特に、音声による質問応答では、挑戦的なNMSQAベンチマークよりも最先端の結果に到達しています。
論文参考訳（メタデータ） (2022-11-06T04:50:37Z)
Streaming Multi-Talker ASR with Token-Level Serialized Output Training [53.11450530896623]
t-SOTはマルチトーカー自動音声認識のための新しいフレームワークである。 t-SOTモデルには、推論コストの低減とよりシンプルなモデルアーキテクチャの利点がある。重複しない音声の場合、t-SOTモデルは精度と計算コストの両面において単一ストーカーのASRモデルと同等である。
論文参考訳（メタデータ） (2022-02-02T01:27:21Z)
LDNet: Unified Listener Dependent Modeling in MOS Prediction for Synthetic Speech [67.88748572167309]
本稿では,平均世論スコア(MOS)予測のための統合フレームワークLDNetを提案する。より安定した結果と効率的な計算を提供する2つの推論手法を提案する。
論文参考訳（メタデータ） (2021-10-18T08:52:31Z)
SUPERB: Speech processing Universal PERformance Benchmark [78.41287216481203]
自然言語処理(NLP)とコンピュータビジョン(CV)の研究を進める上で、SSL(Self-supervised Learning)は不可欠です。 SuperBは、幅広い音声処理タスクで共有モデルのパフォーマンスをベンチマークするためのリーダーボードです。凍結共有モデル上にタスク特化軽量予測ヘッドを学習することで、SUPERBタスクを解決するためのシンプルなフレームワークを提案する。
論文参考訳（メタデータ） (2021-05-03T17:51:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。