論文の概要: Automatic Prosody Annotation with Pre-Trained Text-Speech Model
- arxiv url: http://arxiv.org/abs/2206.07956v1
- Date: Thu, 16 Jun 2022 06:54:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-17 16:33:37.600005
- Title: Automatic Prosody Annotation with Pre-Trained Text-Speech Model
- Title(参考訳): 事前学習テキスト音声モデルによる韻律自動アノテーション
- Authors: Ziqian Dai, Jianwei Yu, Yan Wang, Nuo Chen, Yanyao Bian, Guangzhi Li,
Deng Cai, Dong Yu
- Abstract要約: 本稿では,事前学習した音声エンコーダを用いたニューラルテキスト音声モデルを用いて,テキストオーディオデータから韻律境界ラベルを自動的に抽出する。
このモデルは、テキストデータと音声データに個別に事前訓練され、TTSデータを三重奏形式(音声、テキスト、韻律)で微調整する。
- 参考スコア(独自算出の注目度): 48.47706377700962
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prosodic boundary plays an important role in text-to-speech synthesis (TTS)
in terms of naturalness and readability. However, the acquisition of prosodic
boundary labels relies on manual annotation, which is costly and
time-consuming. In this paper, we propose to automatically extract prosodic
boundary labels from text-audio data via a neural text-speech model with
pre-trained audio encoders. This model is pre-trained on text and speech data
separately and jointly fine-tuned on TTS data in a triplet format: {speech,
text, prosody}. The experimental results on both automatic evaluation and human
evaluation demonstrate that: 1) the proposed text-speech prosody annotation
framework significantly outperforms text-only baselines; 2) the quality of
automatic prosodic boundary annotations is comparable to human annotations; 3)
TTS systems trained with model-annotated boundaries are slightly better than
systems that use manual ones.
- Abstract(参考訳): 韻律境界は自然性と可読性の観点からテキスト音声合成(TTS)において重要な役割を果たす。
しかし、韻律境界ラベルの取得は、コストと時間を要する手動アノテーションに依存している。
本稿では,事前学習した音声エンコーダを用いたニューラルテキスト音声モデルを用いて,テキストオーディオデータから韻律境界ラベルを自動的に抽出する手法を提案する。
このモデルは、テキストデータと音声データに個別に事前訓練され、TTSデータに3重奏形式(speech, text, prosody})で調整される。
自動評価と人間評価の両立に関する実験結果から, 以下のことが分かる。
1) 提案する韻律アノテーションフレームワークは, テキストのみのベースラインを著しく上回っている。
2) 自動韻律境界アノテーションの品質は,人間のアノテーションに匹敵する。
3)モデルアノテート境界で訓練されたttsシステムは,マニュアルシステムよりも若干優れている。
関連論文リスト
- Scaling Speech-Text Pre-training with Synthetic Interleaved Data [31.77653849518526]
音声言語モデル(SpeechLM)は音声入力を受け入れ、音声出力を生成し、より自然な人間とコンピュータの相互作用を可能にする。
従来のSpeechLMの開発手法は、教師なし音声データとパラレル音声テキストデータの可用性の制限によって制約されている。
本稿では,テキストコーパスから得られた大規模合成インターリーブデータを活用することによって,音声テキスト事前学習のスケールアップを行う手法を提案する。
論文 参考訳(メタデータ) (2024-11-26T17:19:09Z) - Textless Dependency Parsing by Labeled Sequence Prediction [18.32371054754222]
自動音声認識システムなしで音声表現を処理する「テキストレス」手法
提案手法は,木をラベル付きシーケンスとして表現し,音声信号から係り受け木を予測する。
本研究は,解析性能を高めるために,単語レベルの表現と文レベルの韻律を融合させることの重要性を強調した。
論文 参考訳(メタデータ) (2024-07-14T08:38:14Z) - Multi-Modal Automatic Prosody Annotation with Contrastive Pretraining of SSWP [18.90593650641679]
本稿では,2段階自動アノテーションパイプラインを提案する。
第1段階では,音声文と単語句読解ペアのコントラスト事前学習を用いて,潜在表現における韻律情報を強化する。
第2段階では,事前訓練されたエンコーダ,テキスト合成方式,シーケンス分類器からなるマルチモーダルな韻律アノテータを構築した。
英語韻律境界の実験により,韻律語と韻律句に対する0.72と0.93f1のスコアで最先端のSOTA(State-of-the-art)を達成できた。
論文 参考訳(メタデータ) (2023-09-11T12:50:28Z) - token2vec: A Joint Self-Supervised Pre-training Framework Using Unpaired
Speech and Text [65.04385919645395]
token2vecは、音声の離散表現に基づく、未ペア音声とテキストのための新しい事前学習フレームワークである。
実験の結果、 token2vec は様々な音声のみの事前学習ベースラインよりも大幅に優れており、WER の相対的な減少率は17.7%である。
論文 参考訳(メタデータ) (2022-10-30T06:38:19Z) - SpeechUT: Bridging Speech and Text with Hidden-Unit for Encoder-Decoder
Based Speech-Text Pre-training [106.34112664893622]
本稿では,音声エンコーダとテキストデコーダの表現を共有単位エンコーダに接続する,統一モーダル音声単位テキスト事前学習モデルであるSpeechUTを提案する。
提案するSpeechUTは,自動音声認識(ASR)と音声翻訳(ST)タスクに基づいて微調整および評価を行う。
論文 参考訳(メタデータ) (2022-10-07T17:57:45Z) - SpeechLM: Enhanced Speech Pre-Training with Unpaired Textual Data [100.46303484627045]
本稿では,事前定義した統一表現と音声とテキストの事前学習を協調させるクロスモーダル音声言語モデル(SpeechLM)を提案する。
具体的には、音声とテキストのモダリティをブリッジするために、2つの別の離散トークン化器を導入する。
音声認識, 音声翻訳, ユニバーサル表現評価フレームワーク SUPERB など, 様々な音声言語処理タスクにおける音声LM の評価を行った。
論文 参考訳(メタデータ) (2022-09-30T09:12:10Z) - Dict-TTS: Learning to Pronounce with Prior Dictionary Knowledge for
Text-to-Speech [88.22544315633687]
ポリホンの曖昧さは, 音声合成システムにおいて, 自然なテキストシーケンスから正確な発音知識を抽出することを目的としている。
オンラインウェブサイト辞書を用いた意味認識型テキスト音声合成モデルであるDict-TTSを提案する。
3つの言語による実験結果から,我々のモデルは発音精度においていくつかの強いベースラインモデルより優れていることが示された。
論文 参考訳(メタデータ) (2022-06-05T10:50:34Z) - Guided-TTS:Text-to-Speech with Untranscribed Speech [22.548875263927396]
我々は、未転写音声データから音声を生成することを学習する高品質TTSモデルである Guided-TTS を提案する。
音声合成において,無条件DDPMの生成過程を音素分類を用いて導き,メル-スペクトログラムを生成する。
論文 参考訳(メタデータ) (2021-11-23T10:05:05Z) - Zero-Shot Text-to-Speech for Text-Based Insertion in Audio Narration [62.75234183218897]
話者の訓練データなしで自然かつ一貫性のあるターゲット音声を生成する一段階の文脈認識フレームワークを提案する。
変換器をベースとしたデコーダを用いて,編集音声のメルスペクトルを生成する。
これは最近のゼロショット TTS エンジンを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-09-12T04:17:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。