論文の概要: A Pilot Study of Applying Sequence-to-Sequence Voice Conversion to Evaluate the Intelligibility of L2 Speech Using a Native Speaker's Shadowings
- arxiv url: http://arxiv.org/abs/2410.02239v1
- Date: Thu, 3 Oct 2024 06:24:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 07:46:05.683271
- Title: A Pilot Study of Applying Sequence-to-Sequence Voice Conversion to Evaluate the Intelligibility of L2 Speech Using a Native Speaker's Shadowings
- Title(参考訳): ネイティブ話者のシャドーイングを用いたL2音声の明瞭度評価のためのシーケンス・ツー・シーケンス音声変換の適用に関する実験的検討
- Authors: Haopeng Geng, Daisuke Saito, Nobuaki Minematsu,
- Abstract要約: L2話者の理想的なフィードバック形式は、非常にきめ細かな粒度であり、発話の理解不能な部分を検出して診断することができる。
このパイロットスタディでは、非ネイティブ話者(L2)の読み上げ、母語話者(L1)のシャドーイング、スクリプトシェーディング発話からなるユニークな半並列データセットを利用する。
音声変換技術を用いてL1話者の隠れL2音声の処理を再現し、仮想シャドーアシステムを構築する技術的可能性について検討する。
- 参考スコア(独自算出の注目度): 12.29892010056753
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Utterances by L2 speakers can be unintelligible due to mispronunciation and improper prosody. In computer-aided language learning systems, textual feedback is often provided using a speech recognition engine. However, an ideal form of feedback for L2 speakers should be so fine-grained that it enables them to detect and diagnose unintelligible parts of L2 speakers' utterances. Inspired by language teachers who correct students' pronunciation through a voice-to-voice process, this pilot study utilizes a unique semi-parallel dataset composed of non-native speakers' (L2) reading aloud, shadowing of native speakers (L1) and their script-shadowing utterances. We explore the technical possibility of replicating the process of an L1 speaker's shadowing L2 speech using Voice Conversion techniques, to create a virtual shadower system. Experimental results demonstrate the feasibility of the VC system in simulating L1's shadowing behavior. The output of the virtual shadower system shows a reasonable similarity to the real L1 shadowing utterances in both linguistic and acoustic aspects.
- Abstract(参考訳): L2話者による発話は、誤発音や不適切な韻律によって理解できない。
コンピュータ支援言語学習システムでは,音声認識エンジンを用いてテキストフィードバックを行うことが多い。
しかし、L2話者にとって理想的なフィードバック形式は、L2話者の発話の理解できない部分を検出して診断できるように、非常にきめ細かな粒度でなければならない。
このパイロットスタディでは,非母国語話者(L2)の読み上げ,母国語話者(L1)のシャドウイング,スクリプトシェード音声による独特のセミパラレルデータセットを用いた。
音声変換技術を用いてL1話者の隠れL2音声の処理を再現し、仮想シャドーアシステムを構築する技術的可能性について検討する。
実験により、L1のシャドーイング挙動をシミュレートするVCシステムの実現可能性を示す。
仮想シャドーアシステムの出力は、言語面と音響面の両方において、実際のL1シャドーイング発話と合理的に類似している。
関連論文リスト
- Inter-linguistic Phonetic Composition (IPC): A Theoretical and Computational Approach to Enhance Second Language Pronunciation [1.3024517678456733]
第二言語(L2)の学習者は、しばしば意識不明なL2音素を母語(L1)から類似の音素で置き換える
この音素置換は、L2の標準的な音韻学的パターンから逸脱する。
誤り音素移動を最小限に抑える新しい計算法として,言語間音声合成法(IPC)を提案する。
論文 参考訳(メタデータ) (2024-11-17T01:15:58Z) - A Pilot Study of GSLM-based Simulation of Foreign Accentuation Only Using Native Speech Corpora [11.258333083479828]
生成音声言語モデル(GSLM)を用いた外国人アクセントの人的プロセスのシミュレーション手法を提案する。
我々は、言語Aの音声を言語BのGSLMに入力し、Bのアクセントを入力音声に加えることで、このプロセスをシミュレートする。
実験の結果,L1がBである話者が生成したAの実際のサンプルと比較すると,出力音声の合成アクセントは非常に自然であることがわかった。
論文 参考訳(メタデータ) (2024-07-16T04:29:00Z) - L1-aware Multilingual Mispronunciation Detection Framework [10.15106073866792]
本稿では,L1-Aware 音声表現に富んだ多言語MDDアーキテクチャ L1-MultiMDDを提案する。
入力信号とその対応する基準音素シーケンスに基づいて、エンドツーエンドの音声エンコーダを訓練する。
実験では、L1-MultiMDDフレームワークが、L2-ARTIC、LATIC、AraVoiceL2v2と、EpaDBとSpeechocean762データセットの両方で有効であることを示した。
論文 参考訳(メタデータ) (2023-09-14T13:53:17Z) - Learning Speech Representation From Contrastive Token-Acoustic
Pretraining [57.08426714676043]
本研究では、2つのエンコーダを用いて音素と音声を複数モーダル空間に導入するCTAP(Contrastive Token-Acoustic Pretraining)を提案する。
提案したCTAPモデルは、210k音声と音素ペアで訓練され、最小教師付きTS、VC、ASRを実現する。
論文 参考訳(メタデータ) (2023-09-01T12:35:43Z) - Incorporating L2 Phonemes Using Articulatory Features for Robust Speech
Recognition [2.8360662552057323]
本研究は,韓国語音素を指すL2音素の効率的な組み込みについて,音声特徴分析を用いて検討した。
格子のない最大相互情報(LF-MMI)の目的をエンドツーエンドに使い、音響モデルを訓練し、複数の発音候補のうちの1つを調整・予測する。
実験結果から,提案手法は韓国語L2音声のASR精度をL1音声データのみに基づく訓練により向上させることが示された。
論文 参考訳(メタデータ) (2023-06-05T01:55:33Z) - Applying Feature Underspecified Lexicon Phonological Features in
Multilingual Text-to-Speech [1.9688095374610102]
ARPABET/pinyinをSAMPA/SAMPA-SCにマッピングし,音声学的特徴について検討した。
このマッピングは、2つの言語でネイティブ、非ネイティブ、コードスイッチングされたスピーチを成功させるかどうかテストされた。
論文 参考訳(メタデータ) (2022-04-14T21:04:55Z) - On Prosody Modeling for ASR+TTS based Voice Conversion [82.65378387724641]
音声変換において、最新の音声変換チャレンジ(VCC)2020における有望な結果を示すアプローチは、まず、ソース音声を基礎となる言語内容に書き起こすために、自動音声認識(ASR)モデルを使用することである。
このようなパラダイムはASR+TTSと呼ばれ、音声の自然性と変換の類似性において重要な役割を果たす韻律のモデル化を見落としている。
本稿では,ターゲットテキスト予測(TTP)と呼ばれる,ターゲット話者に依存した言語表現から直接韻律を予測することを提案する。
論文 参考訳(メタデータ) (2021-07-20T13:30:23Z) - Investigating on Incorporating Pretrained and Learnable Speaker
Representations for Multi-Speaker Multi-Style Text-to-Speech [54.75722224061665]
本研究では,異なる話者表現を調査し,事前学習可能な話者表現を統合することを提案する。
FastSpeech 2モデルと事前訓練された話者表現と学習可能な話者表現を組み合わせることで、少数の話者に対して大きな一般化能力を示す。
論文 参考訳(メタデータ) (2021-03-06T10:14:33Z) - FragmentVC: Any-to-Any Voice Conversion by End-to-End Extracting and
Fusing Fine-Grained Voice Fragments With Attention [66.77490220410249]
本稿では、Wav2Vec 2.0から、音源話者からの発声の潜在音声構造を求めるFragmentVCを提案する。
FragmentVCは、ターゲット話者発話からきめ細かい音声断片を抽出し、所望の発話に融合することができる。
提案手法は, コンテンツと話者情報との絡み合いを考慮せずに, 再構成損失を学習する。
論文 参考訳(メタデータ) (2020-10-27T09:21:03Z) - SPLAT: Speech-Language Joint Pre-Training for Spoken Language
Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。
大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。
音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文 参考訳(メタデータ) (2020-10-05T19:29:49Z) - Semi-supervised Learning for Multi-speaker Text-to-speech Synthesis
Using Discrete Speech Representation [125.59372403631006]
マルチ話者テキスト音声(TTS)のための半教師付き学習手法を提案する。
マルチスピーカTTSモデルは、離散音声表現を備えたエンコーダデコーダフレームワークを用いて、未転写音声から学習することができる。
提案した半教師あり学習手法は,音声データの一部がうるさい場合にも有効であることがわかった。
論文 参考訳(メタデータ) (2020-05-16T15:47:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。