論文の概要: DTW-SiameseNet: Dynamic Time Warped Siamese Network for Mispronunciation
Detection and Correction
- arxiv url: http://arxiv.org/abs/2303.00171v1
- Date: Wed, 1 Mar 2023 01:53:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-02 16:18:03.307612
- Title: DTW-SiameseNet: Dynamic Time Warped Siamese Network for Mispronunciation
Detection and Correction
- Title(参考訳): DTW-SiameseNet:誤認識検出と補正のための動的時間ワープシームスネットワーク
- Authors: Raviteja Anantha, Kriti Bhasin, Daniela de la Parra Aguilar, Prabal
Vashisht, Becci Williamson, Srinivas Chappidi
- Abstract要約: 本稿では,TTS誤発音検出と修正のタスクのための,高精度でPDA対応の発音学習フレームワークを提案する。
また,三重項損失を伴う動的時間ワープ(DTW)のためのメトリクス学習を用いたDTW-SiameseNetという,新しい誤発音検出モデルを提案する。
人間の評価から,提案手法は音素ベースや音声ベースラインに比べて平均6%の発音精度が向上することが示された。
- 参考スコア(独自算出の注目度): 1.8322859214908722
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Personal Digital Assistants (PDAs) - such as Siri, Alexa and Google
Assistant, to name a few - play an increasingly important role to access
information and complete tasks spanning multiple domains, and by diverse groups
of users. A text-to-speech (TTS) module allows PDAs to interact in a natural,
human-like manner, and play a vital role when the interaction involves people
with visual impairments or other disabilities. To cater to the needs of a
diverse set of users, inclusive TTS is important to recognize and pronounce
correctly text in different languages and dialects. Despite great progress in
speech synthesis, the pronunciation accuracy of named entities in a
multi-lingual setting still has a large room for improvement. Existing
approaches to correct named entity (NE) mispronunciations, like retraining
Grapheme-to-Phoneme (G2P) models, or maintaining a TTS pronunciation
dictionary, require expensive annotation of the ground truth pronunciation,
which is also time consuming. In this work, we present a highly-precise,
PDA-compatible pronunciation learning framework for the task of TTS
mispronunciation detection and correction. In addition, we also propose a novel
mispronunciation detection model called DTW-SiameseNet, which employs metric
learning with a Siamese architecture for Dynamic Time Warping (DTW) with
triplet loss. We demonstrate that a locale-agnostic, privacy-preserving
solution to the problem of TTS mispronunciation detection is feasible. We
evaluate our approach on a real-world dataset, and a corpus of NE
pronunciations of an anonymized audio dataset of person names recorded by
participants from 10 different locales. Human evaluation shows our proposed
approach improves pronunciation accuracy on average by ~6% compared to strong
phoneme-based and audio-based baselines.
- Abstract(参考訳): パーソナルデジタルアシスタント(PDA) — Siri、Alexa、Google Assistantなど — は、複数のドメインにまたがる情報やタスクの完全なアクセスや、さまざまなユーザグループによって、ますます重要な役割を担っている。
テキスト音声(TTS)モジュールは、PDAが自然な人間のような方法で相互作用し、視覚障害や他の障害を持つ人々と相互作用する際に重要な役割を果たす。
多様なユーザのニーズを満たすためには,様々な言語や方言のテキストを正しく認識し,発音することが重要である。
音声合成の進歩にもかかわらず、多言語設定における名前付きエンティティの発音精度は依然として改善の余地が大きい。
例えば、grapheme-to-phoneme (g2p)モデルの再トレーニングやttsの発音辞書のメンテナンスといった既存のアプローチでは、基底真理の発音の高価なアノテーションが必要であり、これは時間を要する。
本研究では,TTS誤発音検出と修正のタスクのための,高精度でPDA対応の発音学習フレームワークを提案する。
さらに,三重項損失を伴う動的時間ワープ(DTW)のためのメトリクス学習を利用するDTW-SiameseNetという,新しい誤発音検出モデルを提案する。
我々は,TTS誤発音検出問題に対する局所的かつプライバシー保護的な解決策が実現可能であることを示す。
実世界のデータセットに対するアプローチと、10の異なる場所の参加者が記録した匿名音声データセットのne発音コーパスを評価した。
人間の評価から,提案手法は音素ベースや音声ベースラインに比べて発音精度を平均6%向上させる。
関連論文リスト
- An Initial Investigation of Language Adaptation for TTS Systems under Low-resource Scenarios [76.11409260727459]
本稿では,最近のSSLベースの多言語TSシステムであるZMM-TTSの言語適応性について検討する。
本研究では,事前学習言語と対象言語との音声学的な類似性が,対象言語の適応性能に影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2024-06-13T08:16:52Z) - Learning Speech Representation From Contrastive Token-Acoustic
Pretraining [57.08426714676043]
本研究では、2つのエンコーダを用いて音素と音声を複数モーダル空間に導入するCTAP(Contrastive Token-Acoustic Pretraining)を提案する。
提案したCTAPモデルは、210k音声と音素ペアで訓練され、最小教師付きTS、VC、ASRを実現する。
論文 参考訳(メタデータ) (2023-09-01T12:35:43Z) - Multilingual context-based pronunciation learning for Text-to-Speech [13.941800219395757]
音声情報と言語知識は、テキスト音声(TTS)フロントエンドの重要な構成要素である。
複数言語で統一されたフロントエンドシステムで発音関連タスクに対処し、通常は別個のモジュールで処理する。
多言語モデルは言語やタスク間で競合するが、等価なモノリンガル解と比較するといくつかのトレードオフが存在する。
論文 参考訳(メタデータ) (2023-07-31T14:29:06Z) - IPA-CLIP: Integrating Phonetic Priors into Vision and Language
Pretraining [8.129944388402839]
本稿では,コントラスト言語-画像事前学習(CLIP)に先行音声を挿入する。
IPA-CLIPはこの発音エンコーダと元のCLIPエンコーダ(画像とテキスト)からなる。
論文 参考訳(メタデータ) (2023-03-06T13:59:37Z) - Computer-assisted Pronunciation Training -- Speech synthesis is almost
all you need [18.446969150062586]
既存のCAPT法では発音誤りを高精度に検出できない。
本稿では,音素対音素(P2P),テキスト対音声(T2S),音声対音声変換(S2S)の3つの革新的な手法を提案する。
これらの手法は、発音誤りを検出するための3つの機械学習モデルの精度を向上させるだけでなく、分野における新しい最先端の確立にも有効であることを示す。
論文 参考訳(メタデータ) (2022-07-02T08:33:33Z) - Few-Shot Cross-Lingual TTS Using Transferable Phoneme Embedding [55.989376102986654]
本稿では,言語間テキスト-音声間問題に対処するための移動可能な音素埋め込みフレームワークについて,数ショット設定で検討する。
本稿では,音素ベースのTSモデルと,異なる言語からの音素を学習潜在空間に投影するコードブックモジュールからなるフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-27T11:24:40Z) - Dict-TTS: Learning to Pronounce with Prior Dictionary Knowledge for
Text-to-Speech [88.22544315633687]
ポリホンの曖昧さは, 音声合成システムにおいて, 自然なテキストシーケンスから正確な発音知識を抽出することを目的としている。
オンラインウェブサイト辞書を用いた意味認識型テキスト音声合成モデルであるDict-TTSを提案する。
3つの言語による実験結果から,我々のモデルは発音精度においていくつかの強いベースラインモデルより優れていることが示された。
論文 参考訳(メタデータ) (2022-06-05T10:50:34Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource
End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。
本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。
我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文 参考訳(メタデータ) (2021-03-12T10:10:13Z) - Class LM and word mapping for contextual biasing in End-to-End ASR [4.989480853499918]
近年、オールニューラル・エンド・ツー・エンド(E2E)ASRシステムは音声認識コミュニティに急速に関心を寄せている。
本稿では,コンテキスト認識型E2Eモデルの学習アルゴリズムを提案する。
E2Eモデルは発音辞書を必要としないが、既存の発音知識を利用して精度を向上させることは興味深い。
論文 参考訳(メタデータ) (2020-07-10T20:58:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。