論文の概要: You Sound a Little Tense: L2 Tailored Clear TTS Using Durational Vowel Properties
- arxiv url: http://arxiv.org/abs/2506.23367v1
- Date: Sun, 29 Jun 2025 18:55:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.849341
- Title: You Sound a Little Tense: L2 Tailored Clear TTS Using Durational Vowel Properties
- Title(参考訳): 小さな音がする音:L2の調音器付き透明TTS
- Authors: Paige Tuttösí, H. Henny Yeung, Yue Wang, Jean-Julien Aucouturier, Angelica Lim,
- Abstract要約: 本稿では,第2言語話者(L2)に合わせたTTSシステムを提案する。
我々は、アメリカ英語の時制(長音)とラックス(短音)の母音の持続時間差を用いて、Matcha-TTSの「明度モード」を作成する。
- 参考スコア(独自算出の注目度): 3.0995661604265385
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present the first text-to-speech (TTS) system tailored to second language (L2) speakers. We use duration differences between American English tense (longer) and lax (shorter) vowels to create a "clarity mode" for Matcha-TTS. Our perception studies showed that French-L1, English-L2 listeners had fewer (at least 9.15%) transcription errors when using our clarity mode, and found it more encouraging and respectful than overall slowed down speech. Remarkably, listeners were not aware of these effects: despite the decreased word error rate in clarity mode, listeners still believed that slowing all target words was the most intelligible, suggesting that actual intelligibility does not correlate with perceived intelligibility. Additionally, we found that Whisper-ASR did not use the same cues as L2 speakers to differentiate difficult vowels and is not sufficient to assess the intelligibility of TTS systems for these individuals.
- Abstract(参考訳): 本稿では,第2言語話者(L2)に合わせたTTSシステムを提案する。
我々は、アメリカ英語の時制(長音)とラックス(短音)の母音の持続時間差を用いて、Matcha-TTSの「明度モード」を作成する。
我々の知覚研究は、フランス語-L1、英語-L2リスナーは、明瞭度モードを使用する際の転写誤りが(少なくとも9.15%)少ないことを示し、全体的な遅くなった音声よりも、より励ましで尊敬されることを示した。
明瞭度モードにおける単語誤り率の低下にもかかわらず、リスナーは、全ての単語を遅くすることは最も知性が高いと信じており、実際の知性は知覚された知性と相関していないことを示唆している。
さらに,Whisper-ASRは難母音を区別するためにL2話者と同一の手がかりを用いておらず,これらの個人に対するTSシステムの信頼性を評価するには不十分であることがわかった。
関連論文リスト
- LearnerVoice: A Dataset of Non-Native English Learners' Spontaneous Speech [36.447412884392115]
我々はLearnerVoiceを公開し、LearnerVoiceは50.04時間の音声とL2学習者の自然発話の書き起こしからなるデータセットである。
言語学的解析により、我々のデータセットの転写にはL2Sの特徴が含まれており、ネイティブな音声データセットよりもはるかに多いことが判明した。
LearnerVoiceによる微調整のwhisper-small.enのWERは10.26%、バニラのwhisper-small.enよりも44.2%低い。
論文 参考訳(メタデータ) (2024-07-05T06:25:54Z) - Towards Unsupervised Speech Recognition Without Pronunciation Models [57.222729245842054]
本稿では,ペア音声とテキストコーパスを使わずにASRシステムを開発するという課題に取り組む。
音声合成とテキスト・テキスト・マスクによるトークン埋込から教師なし音声認識が実現可能であることを実験的に実証した。
この革新的なモデルは、レキシコンフリー環境下での以前の教師なしASRモデルの性能を上回る。
論文 参考訳(メタデータ) (2024-06-12T16:30:58Z) - You don't understand me!: Comparing ASR results for L1 and L2 speakers of Swedish [0.5249805590164903]
我々は,ASRの異なるサービスによって書き起こされたスウェーデン語の母国語,非母国語,読み,自発語に対する認識結果の差に着目した。
単語誤り率を用いて認識結果を比較し、観察された転写誤りを生じる可能性のある言語的要因を解析する。
論文 参考訳(メタデータ) (2024-05-22T06:24:55Z) - Language Proficiency and F0 Entrainment: A Study of L2 English Imitation in Italian, French, and Slovak Speakers [48.3822861675732]
本研究は、第2言語(L2)における第2言語(ART)のF0エントレメントについて検討する。
イタリア語、フランス語、スロバキア原語の参加者は、英語の発声を模倣しました。
その結果,L2英語の習熟度とエントレメントの関係は曖昧であった。
論文 参考訳(メタデータ) (2024-04-16T10:10:19Z) - Prosody in Cascade and Direct Speech-to-Text Translation: a case study
on Korean Wh-Phrases [79.07111754406841]
本研究は,韻律が重要な役割を果たす発話を明瞭にするための直接S2TTシステムの能力を評価するために,コントラスト評価を用いることを提案する。
本結果は,カスケード翻訳モデルよりも直接翻訳システムの価値を明確に示すものである。
論文 参考訳(メタデータ) (2024-02-01T14:46:35Z) - A study on native American English speech recognition by Indian
listeners with varying word familiarity level [62.14295630922855]
発声を認識している間、各聴取者から3種類の応答が得られます。
これらの転写から単語誤り率(WER)を算出し、認識された文と原文との類似性を評価する指標として用いる。
話者のナティビティの賢明な分析は、一部のナティビティの話者からの発声が、他のいくつかのナティビティに比べてインド人のリスナーによって認識されるのが困難であることを示している。
論文 参考訳(メタデータ) (2021-12-08T07:43:38Z) - Weakly-supervised word-level pronunciation error detection in non-native
English speech [14.430965595136149]
非ネイティブ(L2)英語音声における単語レベルの誤発音検出のための弱教師付きモデル
音素的に書き起こされたL2音声は不要であり、誤発音した単語のみをマークする必要がある。
本研究では,L2ポーランド語話者のGUTアイルコーパスでは30%,L2ドイツ語話者とイタリア語話者のアイルコーパスでは21.5%の精度でAUCメトリックの単語レベルの発音誤りを検出する精度を向上させる。
論文 参考訳(メタデータ) (2021-06-07T10:31:53Z) - LRSpeech: Extremely Low-Resource Speech Synthesis and Recognition [148.43282526983637]
データコストの低い言語のためのTLSおよびASRシステムであるLSpeechを開発した。
実験言語(英語)と真の低リソース言語(リトアニア語)で実験を行い,LRSpeechの有効性を検証する。
現在、より稀な言語でTSをサポートするために、商用のクラウド音声サービスにLSpeechをデプロイしています。
論文 参考訳(メタデータ) (2020-08-09T08:16:33Z) - See what I'm saying? Comparing Intelligent Personal Assistant use for
Native and Non-Native Language Speakers [12.021912017203842]
IPAが現在どのようにユーザをサポートするか、あるいは妨げているかを理解することを目的としています。
インタビューの結果,L2話者は言語的制限に対する発話計画に優先していたことが明らかとなった。
L2話者はIPAを言語的ニーズに敏感であるとみなし、相互作用が失敗する。
我々は,言語生産の負担を軽減しつつ,視覚的フィードバックを重視しながら,L2ユーザのためのIPA体験をカスタマイズする必要性について論じる。
論文 参考訳(メタデータ) (2020-06-11T11:03:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。