論文の概要: A Preliminary Analysis of Automatic Word and Syllable Prominence Detection in Non-Native Speech With Text-to-Speech Prosody Embeddings
- arxiv url: http://arxiv.org/abs/2412.08283v1
- Date: Wed, 11 Dec 2024 10:58:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-12 14:01:49.587876
- Title: A Preliminary Analysis of Automatic Word and Syllable Prominence Detection in Non-Native Speech With Text-to-Speech Prosody Embeddings
- Title(参考訳): テキスト-音声韻律埋め込みを用いた非負音声における自動単語と音節長検出の予備的検討
- Authors: Anindita Mondal, Rangavajjala Sankara Bharadwaj, Jhansi Mallela, Anil Kumar Vuppala, Chiranjeevi Yarra,
- Abstract要約: 単語と音節レベルでの発音の自動検出は,コンピュータ支援型言語学習システムの構築に不可欠である。
音声合成音声における音節・音節レベルの優位性は,現在最先端の音声合成システム(SOTA)が学習している韻律埋め込みによってもたらされることが示されている。
- 参考スコア(独自算出の注目度): 9.764748000637082
- License:
- Abstract: Automatic detection of prominence at the word and syllable-levels is critical for building computer-assisted language learning systems. It has been shown that prosody embeddings learned by the current state-of-the-art (SOTA) text-to-speech (TTS) systems could generate word- and syllable-level prominence in the synthesized speech as natural as in native speech. To understand the effectiveness of prosody embeddings from TTS for prominence detection under nonnative context, a comparative analysis is conducted on the embeddings extracted from native and non-native speech considering the prominence-related embeddings: duration, energy, and pitch from a SOTA TTS named FastSpeech2. These embeddings are extracted under two conditions considering: 1) only text, 2) both speech and text. For the first condition, the embeddings are extracted directly from the TTS inference mode, whereas for the second condition, we propose to extract from the TTS under training mode. Experiments are conducted on native speech corpus: Tatoeba, and non-native speech corpus: ISLE. For experimentation, word-level prominence locations are manually annotated for both corpora. The highest relative improvement on word \& syllable-level prominence detection accuracies with the TTS embeddings are found to be 13.7% & 5.9% and 16.2% & 6.9% compared to those with the heuristic-based features and self-supervised Wav2Vec-2.0 representations, respectively.
- Abstract(参考訳): 単語と音節レベルでの発音の自動検出は,コンピュータ支援型言語学習システムの構築に不可欠である。
音声合成音声における音節・音節レベルの優位性は,現在最先端の音声合成システム(SOTA)が学習している韻律埋め込みによってもたらされることが示されている。
非ネイティブな文脈下での発音検出におけるTSの韻律埋め込みの有効性を理解するため、FastSpeech2というSOTA TTSの音節埋め込みの持続時間、エネルギー、ピッチを考慮したネイティブおよび非ネイティブ音声から抽出した埋め込みについて比較分析を行った。
これらの埋め込みは2つの条件で抽出される。
テキストのみ。
2) 音声とテキストの両方。
第1の条件では、TTS推論モードから直接埋め込みを抽出するが、第2の条件では、トレーニングモード下でTSを抽出する。
ネイティブ音声コーパス(Tatoeba)と非ネイティブ音声コーパス(ISLE)について実験を行った。
実験では,両コーパスに対して単語レベルの発音位置を手動でアノテートする。
TTS埋め込みによる単語 \&音節レベルの発音検出精度の相対的な改善は、ヒューリスティックな特徴を持つものや自己教師型のWav2Vec-2.0表現と比較して、13.7%と5.9%と16.2%と6.9%である。
関連論文リスト
- Improving Accented Speech Recognition using Data Augmentation based on Unsupervised Text-to-Speech Synthesis [30.97784092953007]
本稿では、アクセント付き音声認識を改善するためのデータ拡張手法として、教師なし音声合成(TTS)の使用について検討する。
TTSシステムは、手書き文字起こしではなく、少量のアクセント付き音声訓練データとそれらの擬似ラベルで訓練される。
この手法により,アクセント付き音声認識のためのデータ拡張を行うために,手書きの書き起こしを伴わないアクセント付き音声データを使用することが可能である。
論文 参考訳(メタデータ) (2024-07-04T16:42:24Z) - Prosody in Cascade and Direct Speech-to-Text Translation: a case study
on Korean Wh-Phrases [79.07111754406841]
本研究は,韻律が重要な役割を果たす発話を明瞭にするための直接S2TTシステムの能力を評価するために,コントラスト評価を用いることを提案する。
本結果は,カスケード翻訳モデルよりも直接翻訳システムの価値を明確に示すものである。
論文 参考訳(メタデータ) (2024-02-01T14:46:35Z) - DSE-TTS: Dual Speaker Embedding for Cross-Lingual Text-to-Speech [30.110058338155675]
話者の音色を正確に保持することが難しいため,言語間テキスト合成 (CTTS) はまだ満足できない。
そこで本研究では,CTTS のための新しい2元話者埋め込み TTS (DSE-TTS) フレームワークを提案する。
両方の埋め込みを組み合わせることで、DSE-TTSは言語間合成において最先端のSANE-TTSよりも著しく優れる。
論文 参考訳(メタデータ) (2023-06-25T06:46:36Z) - A Comparative Study of Self-Supervised Speech Representations in Read
and Spontaneous TTS [12.53269106994881]
以上の結果から,12層のwav2vec2.0(ASR微調整)の9層は,読取・自発TTSにおいて,他のSSLやメル・スペクトログラムよりも優れていた。
我々の研究は、音声SSLが現在のTSシステムを簡単に改善できる方法と、TLSの困難な生成タスクにおいてSSLがどのように比較できるかの両方に光を当てています。
論文 参考訳(メタデータ) (2023-03-05T17:20:10Z) - Dict-TTS: Learning to Pronounce with Prior Dictionary Knowledge for
Text-to-Speech [88.22544315633687]
ポリホンの曖昧さは, 音声合成システムにおいて, 自然なテキストシーケンスから正確な発音知識を抽出することを目的としている。
オンラインウェブサイト辞書を用いた意味認識型テキスト音声合成モデルであるDict-TTSを提案する。
3つの言語による実験結果から,我々のモデルは発音精度においていくつかの強いベースラインモデルより優れていることが示された。
論文 参考訳(メタデータ) (2022-06-05T10:50:34Z) - TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。
我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。
TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2022-05-25T06:34:14Z) - Unified Speech-Text Pre-training for Speech Translation and Recognition [113.31415771943162]
音声認識のためのエンコーダ・デコーダ・モデリング・フレームワークにおいて,音声とテキストを協調的に事前学習する手法について述べる。
提案手法は,4つの自己教師付きサブタスクを組み込んだクロスモーダル学習手法である。
MuST-C音声翻訳データセットの最先端よりも1.7から2.3BLEUの改善が達成されている。
論文 参考訳(メタデータ) (2022-04-11T20:59:51Z) - Textless Speech-to-Speech Translation on Real Data [49.134208897722246]
本研究では、ある言語から別の言語への翻訳が可能なテキストなし音声音声翻訳システム(S2ST)を提案する。
マルチ話者ターゲット音声をモデル化し、実世界のS2STデータを用いてシステムを訓練する際の課題に対処する。
論文 参考訳(メタデータ) (2021-12-15T18:56:35Z) - AdaSpeech 3: Adaptive Text to Speech for Spontaneous Style [111.89762723159677]
AdaSpeech 3 は,順応性のある TTS システムである。
AdaSpeech 3は自然なFPとリズムを自発的なスタイルで合成し、従来の適応TSシステムよりもずっと優れたMOSとSMOSスコアを達成する。
論文 参考訳(メタデータ) (2021-07-06T10:40:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。