論文の概要: Generacion de voces artificiales infantiles en castellano con acento
costarricense
- arxiv url: http://arxiv.org/abs/2102.01692v1
- Date: Tue, 2 Feb 2021 02:12:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-04 17:19:38.197982
- Title: Generacion de voces artificiales infantiles en castellano con acento
costarricense
- Title(参考訳): カステッラノ・コン・アセント・コスタリセンスにおける乳児の遺伝子変異に関する研究
- Authors: Ana Lilia Alvarez-Blanco, Eugenia Cordoba-Warner, Marvin Coto-Jimenez,
Vivian Fallas-Lopez, Maribel Morales Rodriguez
- Abstract要約: 本稿は,コスタリカのアクセントで人工児の声を生成する最初の経験について評価する。
その結果, 孤立した単語で評価した結果の明瞭さは, 参加する子どものグループの声よりも低いことがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This article evaluates a first experience of generating artificial children's
voices with a Costa Rican accent, using the technique of statistical parametric
speech synthesis based on Hidden Markov Models. The process of recording the
voice samples used for learning the models, the fundamentals of the technique
used and the subjective evaluation of the results through the perception of a
group of people is described. The results show that the intelligibility of the
results, evaluated in isolated words, is lower than the voices recorded by the
group of participating children. Similarly, the detection of the age and gender
of the speaking person is significantly affected in artificial voices, relative
to recordings of natural voices. These results show the need to obtain larger
amounts of data, in addition to becoming a numerical reference for future
developments resulting from new data or from processes to improve results in
the same technique.
- Abstract(参考訳): 本稿では,隠れマルコフモデルに基づく統計的パラメトリック音声合成の手法を用いて,コスタリカアクセントを用いた人工的な子どもの声生成の最初の経験を評価する。
モデル学習に用いる音声サンプルを録音するプロセス、使用する技術の基礎、およびグループの認識を通じて結果の主観評価について説明します。
その結果, 孤立した単語で評価した結果の明瞭さは, 参加する子どものグループの声よりも低いことがわかった。
同様に、話す人の年齢と性別の検出は、自然な声の録音と比較して、人工音声に大きく影響されます。
これらの結果から,新たなデータやプロセスによる今後の発展の数値的基準となるとともに,同じ手法で結果を改善するために,大量のデータを取得する必要性が示唆された。
関連論文リスト
- Speechworthy Instruction-tuned Language Models [71.8586707840169]
提案手法は,学習の促進と嗜好の両面において,一般的な命令調整型LLMの音声適合性の向上を図っている。
我々は,各手法が生成した応答の音声適合性向上にどのように貢献するかを示すために,語彙的,構文的,定性的な分析を共有する。
論文 参考訳(メタデータ) (2024-09-23T02:34:42Z) - A comparative analysis between Conformer-Transducer, Whisper, and
wav2vec2 for improving the child speech recognition [2.965450563218781]
幼児音声におけるコンフォーマー・トランスデューサモデルの微調整は、児童音声におけるASR性能を大幅に向上させることを示す。
また、Whisper と wav2vec2 を異なる子音声データセットに適応させる。
論文 参考訳(メタデータ) (2023-11-07T19:32:48Z) - Improved Child Text-to-Speech Synthesis through Fastpitch-based Transfer
Learning [3.5032870024762386]
本稿では,Fastpitch text-to-speech(TTS)モデルを用いて,高品質な合成子音声を生成する手法を提案する。
このアプローチでは、子話を扱うためにマルチスピーカーTSモデルを微調整する。
実子声と合成子声の間に有意な相関が認められた客観的評価を行った。
論文 参考訳(メタデータ) (2023-11-07T19:31:44Z) - Continuous Modeling of the Denoising Process for Speech Enhancement
Based on Deep Learning [61.787485727134424]
状態変数をデノナイジングプロセスを示すために使用します。
UNetのようなニューラルネットワークは、連続的復調プロセスからサンプリングされたすべての状態変数を推定することを学ぶ。
実験結果から, クリーンターゲットに少量の雑音を保存することは, 音声強調に有効であることが示唆された。
論文 参考訳(メタデータ) (2023-09-17T13:27:11Z) - Analysing the Impact of Audio Quality on the Use of Naturalistic
Long-Form Recordings for Infant-Directed Speech Research [62.997667081978825]
早期言語習得のモデリングは、幼児が言語スキルをブートストラップする方法を理解することを目的としている。
近年の進歩により、より自然主義的なトレーニングデータを計算モデルに利用できるようになった。
音質がこれらのデータに対する分析やモデリング実験にどう影響するかは、現時点では不明である。
論文 参考訳(メタデータ) (2023-05-03T08:25:37Z) - Zero-Shot Voice Conditioning for Denoising Diffusion TTS Models [95.97506031821217]
本研究では,事前学習した拡散音声モデルを用いて,学習中に見つからない新人の声で音声を生成する手法を提案する。
この方法は、対象者からの短い(3秒)サンプルを必要とし、生成は、トレーニングステップなしで、推論時に操縦される。
論文 参考訳(メタデータ) (2022-06-05T19:45:29Z) - Self-supervised models of audio effectively explain human cortical
responses to speech [71.57870452667369]
我々は、自己教師型音声表現学習の進歩に乗じて、人間の聴覚システムの最先端モデルを作成する。
これらの結果から,ヒト大脳皮質における音声処理の異なる段階に関連する情報の階層構造を,自己教師型モデルで効果的に把握できることが示唆された。
論文 参考訳(メタデータ) (2022-05-27T22:04:02Z) - LDNet: Unified Listener Dependent Modeling in MOS Prediction for
Synthetic Speech [67.88748572167309]
本稿では,平均世論スコア(MOS)予測のための統合フレームワークLDNetを提案する。
より安定した結果と効率的な計算を提供する2つの推論手法を提案する。
論文 参考訳(メタデータ) (2021-10-18T08:52:31Z) - Data augmentation using prosody and false starts to recognize non-native
children's speech [12.911954427107977]
本稿では,AaltoASRによるInterSPEECH 2020共有音声認識タスクのための音声認識システムについて述べる。
本研究の課題は, 年齢の異なる子どもから, 限られた発話量で非母国語を識別することである。
論文 参考訳(メタデータ) (2020-08-29T05:32:32Z) - Data-driven Detection and Analysis of the Patterns of Creaky Voice [13.829936505895692]
クレーキー音声はフレーズ境界マーカーとしてよく使われる品質である。
難解な音声の自動検出とモデリングは、音声技術への応用に影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2020-05-31T13:34:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。