論文の概要: BERT, can HE predict contrastive focus? Predicting and controlling
prominence in neural TTS using a language model
- arxiv url: http://arxiv.org/abs/2207.01718v1
- Date: Mon, 4 Jul 2022 20:43:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-07 06:18:23.858304
- Title: BERT, can HE predict contrastive focus? Predicting and controlling
prominence in neural TTS using a language model
- Title(参考訳): BERT, HEはコントラストの焦点を予測できるのか?
言語モデルを用いた神経ttのプロミネンス予測と制御
- Authors: Brooke Stephenson, Laurent Besacier, Laurent Girin, Thomas Hueber
- Abstract要約: コントラスト焦点を含む発話に基づいて,音質特性の定量化を図ったBERTモデルの精度を評価する。
また,音響的特徴に基づくTSモデルにおける代名詞長の制御性についても検討した。
- 参考スコア(独自算出の注目度): 29.188684861193092
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Several recent studies have tested the use of transformer language model
representations to infer prosodic features for text-to-speech synthesis (TTS).
While these studies have explored prosody in general, in this work, we look
specifically at the prediction of contrastive focus on personal pronouns. This
is a particularly challenging task as it often requires semantic, discursive
and/or pragmatic knowledge to predict correctly. We collect a corpus of
utterances containing contrastive focus and we evaluate the accuracy of a BERT
model, finetuned to predict quantized acoustic prominence features, on these
samples. We also investigate how past utterances can provide relevant
information for this prediction. Furthermore, we evaluate the controllability
of pronoun prominence in a TTS model conditioned on acoustic prominence
features.
- Abstract(参考訳): 近年,テキスト音声合成(TTS)の韻律的特徴を推測するためにトランスフォーマー言語モデル表現を用いた研究が行われている。
これらの研究は概して韻律を探求してきたが、本研究では個人代名詞に対する対比的焦点の予測に特に注目する。
これは、しばしば正しく予測するために意味的、非帰的、あるいは実践的な知識を必要とするため、特に難しいタスクである。
コントラスト焦点を含む発話のコーパスを収集し,これらのサンプルを用いてBERTモデルの精度を評価し,音質特性の定量化を図った。
また,過去の発話がこの予測にどのように関連する情報を提供できるかについても検討する。
さらに,音響的特徴に基づくTSモデルにおける代名詞長の制御性の評価を行った。
関連論文リスト
- An investigation of speaker independent phrase break models in
End-to-End TTS systems [0.0]
終末TSシステムにおけるフレーズブレーク予測モデルの有用性と有効性を評価する。
語句分割の場所を予測した後に合成された物語に明確な嗜好があることを知覚的聴取評価を用いて示す。
論文 参考訳(メタデータ) (2023-04-09T04:26:58Z) - Duration-aware pause insertion using pre-trained language model for
multi-speaker text-to-speech [40.65850332919397]
事前訓練された言語モデルに基づいて,より強力な停止挿入フレームワークを提案する。
提案手法では,大規模テキストコーパス上で事前学習した変換器(BERT)の双方向エンコーダ表現を用いる。
また、より自然なマルチスピーカTSに対して、持続時間対応の停止挿入を利用する。
論文 参考訳(メタデータ) (2023-02-27T10:40:41Z) - Revisiting End-to-End Speech-to-Text Translation From Scratch [48.203394370942505]
E2E (End-to-end speech-to-text translation) はしばしば、音声認識やテキスト翻訳タスクを通じて、そのエンコーダおよび/またはデコーダをソース転写を用いて事前訓練することに依存する。
本稿では,音声翻訳対だけで訓練したE2E STの品質をどの程度改善できるかを考察する。
論文 参考訳(メタデータ) (2022-06-09T15:39:19Z) - An Exploration of Prompt Tuning on Generative Spoken Language Model for
Speech Processing Tasks [112.1942546460814]
生成音声言語モデル(GSLM)に基づく音声処理タスクの即時チューニングパラダイムの最初の検討について報告する。
実験結果から, 学習可能なパラメータが少ない音声分類タスクにおいて, 高精度なダウンストリームモデルよりも, 即時チューニング手法が競合性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2022-03-31T03:26:55Z) - ProsoSpeech: Enhancing Prosody With Quantized Vector Pre-training in
Text-to-Speech [96.0009517132463]
音声の低周波帯域を定量化し、潜在韻律ベクトル(LPV)における韻律特性を圧縮する単語レベル韻律エンコーダを提案する。
次に、LPV予測器を導入し、与えられた単語列を予測し、高品質なTSデータセットで微調整する。
実験結果から, ProsoSpeechはベースライン法と比較してよりリッチな韻律で音声を生成することができることがわかった。
論文 参考訳(メタデータ) (2022-02-16T01:42:32Z) - A study on the efficacy of model pre-training in developing neural
text-to-speech system [55.947807261757056]
本研究の目的は,モデル事前学習がTSシステム性能に肯定的に寄与する理由と方法を明らかにすることである。
トレーニング前のデータを元のサイズの1/8に減らすと,TSシステムは同等の性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-10-08T02:09:28Z) - On the Interplay Between Sparsity, Naturalness, Intelligibility, and
Prosody in Speech Synthesis [102.80458458550999]
スパーティイとその後の合成音声に対する効果のトレードオフについて検討する。
以上の結果から, 終末TTSモデルに限らず, プルーニングされたTTSモデルでも, 自然性や知性に富んだ合成音声を生成できることが示唆された。
論文 参考訳(メタデータ) (2021-10-04T02:03:28Z) - Did the Cat Drink the Coffee? Challenging Transformers with Generalized
Event Knowledge [59.22170796793179]
Transformers Language Models (TLMs) を数学的適合のテクトダイナミックな評価のためのベンチマークで検証した。
以上の結果から, TLM は SDM に匹敵する性能が得られることが示された。
しかし、さらなる分析は、TLMがイベント知識の重要な側面を捉えていないことを一貫して示唆している。
論文 参考訳(メタデータ) (2021-07-22T20:52:26Z) - Exploring BERT's Sensitivity to Lexical Cues using Tests from Semantic
Priming [8.08493736237816]
本研究は, セマンティックプライミング(セマンティックプライミング)を用いて, 事前学習したBERTモデルを解析するケーススタディである。
BERTもまた「価格」を示し、文脈が関連語を含む場合と非関連語を含む場合の確率がより大きいことを予測している。
フォローアップ分析では、コンテキストがより情報的になるにつれて、BERTは関連した素語に気を散らす傾向にある。
論文 参考訳(メタデータ) (2020-10-06T20:30:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。