論文の概要: A Comparative Analysis of Pretrained Language Models for Text-to-Speech
- arxiv url: http://arxiv.org/abs/2309.01576v1
- Date: Mon, 4 Sep 2023 13:02:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-06 18:42:42.807979
- Title: A Comparative Analysis of Pretrained Language Models for Text-to-Speech
- Title(参考訳): 音声合成のための事前学習言語モデルの比較分析
- Authors: Marcel Granero-Moya, Penny Karanasou, Sri Karlapati, Bastian Schnell,
Nicole Peinelt, Alexis Moinet, Thomas Drugman
- Abstract要約: State-of-the-the-art text-to-speech (TTS) システムは、韻律を高め、より自然な音声を生成するために、事前訓練された言語モデル(PLM)を利用している。
PLMは自然言語理解(NLU)のために広く研究されているが、TSへの影響は見過ごされている。
本研究は、異なるPLMがTSに与える影響を調査する最初の研究である。
- 参考スコア(独自算出の注目度): 13.962029761484022
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: State-of-the-art text-to-speech (TTS) systems have utilized pretrained
language models (PLMs) to enhance prosody and create more natural-sounding
speech. However, while PLMs have been extensively researched for natural
language understanding (NLU), their impact on TTS has been overlooked. In this
study, we aim to address this gap by conducting a comparative analysis of
different PLMs for two TTS tasks: prosody prediction and pause prediction.
Firstly, we trained a prosody prediction model using 15 different PLMs. Our
findings revealed a logarithmic relationship between model size and quality, as
well as significant performance differences between neutral and expressive
prosody. Secondly, we employed PLMs for pause prediction and found that the
task was less sensitive to small models. We also identified a strong
correlation between our empirical results and the GLUE scores obtained for
these language models. To the best of our knowledge, this is the first study of
its kind to investigate the impact of different PLMs on TTS.
- Abstract(参考訳): State-of-the-the-art text-to-speech (TTS)システムでは、プレトレーニング言語モデル(PLM)を使用して韻律を高め、より自然な音声を生成する。
PLMは自然言語理解(NLU)のために広く研究されているが、TSへの影響は見過ごされている。
本研究では,2つのTSタスク(韻律予測と停止予測)に対して異なるPLMの比較分析を行うことにより,このギャップに対処することを目的とする。
まず15種類のPLMを用いて韻律予測モデルを訓練した。
その結果,モデルサイズと品質の対数関係,および中性と表現的韻律の有意な性能差が認められた。
第2に,PLMを停止予測に用いた結果,小モデルにはあまり敏感でないことがわかった。
また,実験結果とこれらの言語モデルで得られたGLUEスコアとの間には強い相関関係が認められた。
我々の知る限りでは、異なるPLMがTSに与える影響を調査するのは、この種の研究としては初めてである。
関連論文リスト
- An Initial Investigation of Language Adaptation for TTS Systems under Low-resource Scenarios [76.11409260727459]
本稿では,最近のSSLベースの多言語TSシステムであるZMM-TTSの言語適応性について検討する。
本研究では,事前学習言語と対象言語との音声学的な類似性が,対象言語の適応性能に影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2024-06-13T08:16:52Z) - Unraveling the Dominance of Large Language Models Over Transformer Models for Bangla Natural Language Inference: A Comprehensive Study [0.0]
自然言語推論(NLI)は自然言語処理(NLP)の基盤である
本研究では,ベンガル語のような低リソース言語におけるLLM(Large Language Models)の評価について検討した。
論文 参考訳(メタデータ) (2024-05-05T13:57:05Z) - Heuristic-enhanced Candidates Selection strategy for GPTs tackle Few-Shot Aspect-Based Sentiment Analysis [1.5020330976600738]
本論文は、ヒューリスティック・エンハンスド・候補選択戦略を設計し、それに基づくオール・イン・ワン(AiO)モデルを提案する。
このモデルは2段階で動作し、PLMの精度と一般化の能力を同時に調節する。
実験の結果,提案手法は複数のサブタスクに適応し,GPTを直接利用する手法よりも優れていた。
論文 参考訳(メタデータ) (2024-04-09T07:02:14Z) - Large GPT-like Models are Bad Babies: A Closer Look at the Relationship
between Linguistic Competence and Psycholinguistic Measures [25.210837736795565]
我々は、BabyLM事前学習コーパスの厳密なバージョンに基づいて、異なるサイズのGPTライクな言語モデルを訓練する。
これら3つの課題に対して,各課題におけるモデルの幅と深さの相違により,LMサイズと性能の正の相関が認められた。
このことは、モデリング処理の努力と言語能力は、発達可能なコーパス上でのGPTライクなLMのトレーニングとは異なるアプローチを必要とすることを示唆している。
論文 参考訳(メタデータ) (2023-11-08T09:26:27Z) - Argumentative Stance Prediction: An Exploratory Study on Multimodality
and Few-Shot Learning [0.0]
ツイートにおける姿勢予測のための画像の必要性を評価する。
私たちの研究は、微調整されたテキストベースの言語モデルの統合を示唆している。
その結果,画像内容が自然言語として要約される場合には,マルチモーダルモデルの性能が向上することが示唆された。
論文 参考訳(メタデータ) (2023-10-11T00:18:29Z) - How Does Pretraining Improve Discourse-Aware Translation? [41.20896077662125]
本稿では,事前学習した言語モデルが会話関係の知識を捉える能力を理解するための探索タスクを提案する。
我々は、エンコーダ-、デコーダ-、およびエンコーダ-デコーダ-ベースモデルの3つの最先端PLMを検証する。
本研究は, PLMにおける言論的知識が下流作業にどのように機能するか, どのように機能するかを理解するための指導的手法である。
論文 参考訳(メタデータ) (2023-05-31T13:36:51Z) - Document-Level Machine Translation with Large Language Models [91.03359121149595]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクに対して、一貫性、凝集性、関連性、流動性のある回答を生成することができる。
本稿では,LLMの談話モデルにおける能力について詳細に評価する。
論文 参考訳(メタデータ) (2023-04-05T03:49:06Z) - LERT: A Linguistically-motivated Pre-trained Language Model [67.65651497173998]
本稿では,3種類の言語特徴を学習する事前学習型言語モデルLERTを提案する。
我々は,中国における10のNLUタスクについて広範な実験を行い,LERTが大きな改善をもたらすことを示す実験結果を得た。
論文 参考訳(メタデータ) (2022-11-10T05:09:16Z) - ElitePLM: An Empirical Study on General Language Ability Evaluation of
Pretrained Language Models [78.08792285698853]
本稿では,事前学習型言語モデル(ElitePLM)の汎用言語能力評価に関する大規模実証的研究について述べる。
実験の結果,(1)訓練対象の異なるPLMは異なる能力試験に適しており,(2)下流タスクの微調整PLMはデータサイズや分布に敏感であり,(3)PLMは類似タスク間の転送性に優れていた。
論文 参考訳(メタデータ) (2022-05-03T14:18:10Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - SPLAT: Speech-Language Joint Pre-Training for Spoken Language
Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。
大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。
音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文 参考訳(メタデータ) (2020-10-05T19:29:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。