論文の概要: The Use of Voice Source Features for Sung Speech Recognition
- arxiv url: http://arxiv.org/abs/2102.10376v1
- Date: Sat, 20 Feb 2021 15:54:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-23 19:19:18.862382
- Title: The Use of Voice Source Features for Sung Speech Recognition
- Title(参考訳): 歌声音声認識における音源特徴の活用
- Authors: Gerardo Roa Dabike, Jon Barker
- Abstract要約: まず,歌声特徴と音声特徴の違いを説明するために,並列音声コーパスを用いた。
次に,この分析を用いて,歌唱音声dsingコーパスの音声認識実験を行う。
実験は、DSing1(15.1時間)、DSing3(44.7時間)、DSing30(149.1時間)の3つの標準訓練セットで実施される。
- 参考スコア(独自算出の注目度): 24.129307615741695
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we ask whether vocal source features (pitch, shimmer, jitter,
etc) can improve the performance of automatic sung speech recognition, arguing
that conclusions previously drawn from spoken speech studies may not be valid
in the sung speech domain. We first use a parallel singing/speaking corpus
(NUS-48E) to illustrate differences in sung vs spoken voicing characteristics
including pitch range, syllables duration, vibrato, jitter and shimmer. We then
use this analysis to inform speech recognition experiments on the sung speech
DSing corpus, using a state of the art acoustic model and augmenting
conventional features with various voice source parameters. Experiments are run
with three standard (increasingly large) training sets, DSing1 (15.1 hours),
DSing3 (44.7 hours) and DSing30 (149.1 hours). Pitch combined with degree of
voicing produces a significant decrease in WER from 38.1% to 36.7% when
training with DSing1 however smaller decreases in WER observed when training
with the larger more varied DSing3 and DSing30 sets were not seen to be
statistically significant. Voicing quality characteristics did not improve
recognition performance although analysis suggests that they do contribute to
an improved discrimination between voiced/unvoiced phoneme pairs.
- Abstract(参考訳): 本稿では, 発声音源の特徴(ピッチ, シャッター, ジッタなど)が, 自動発声音声認識の性能を向上させることができるかどうかを問う。
まず, 歌唱音声コーパス (nus-48e) を用いて, ピッチ範囲, 音節長, ビブラート, ジッター, シマーなど, 歌唱音声の特徴の違いを示す。
次に,この分析を用いて,歌唱音声dsingコーパスの音声認識実験を行い,アート音響モデルの状況と,各種音源パラメータを用いた従来の特徴の強化を行った。
実験は、DSing1 (15.1時間)、DSing3 (44.7時間)、DSing30 (149.1時間)の3つの標準訓練セットで実施されている。
発声度と組み合わせることで、DSing1のトレーニングではWERが38.1%から36.7%に大幅に減少するが、より多彩なDSing3とDSing30のトレーニングでは統計的に有意ではない。
音声品質特性は認識性能を改善しなかったが、音声/無声音素対の区別の改善に寄与することが分析によって示唆された。
関連論文リスト
- Singer Identity Representation Learning using Self-Supervised Techniques [0.0]
歌唱関連タスクに適した表現を抽出するシンガーアイデンティティエンコーダを訓練するためのフレームワークを提案する。
我々は,孤立した音声トラックの集合体上で,異なる自己教師付き学習手法を探索する。
歌手の類似度と識別タスクにおける表現の質を評価する。
論文 参考訳(メタデータ) (2024-01-10T10:41:38Z) - Enhancing the vocal range of single-speaker singing voice synthesis with
melody-unsupervised pre-training [82.94349771571642]
本研究では, メロディ非教師型マルチスピーカ事前学習法を提案し, シングルスピーカの発声域を拡大する。
合成音声のリズム自然性を改善するために、識別可能な持続時間調整器を導入するのは、これが初めてである。
実験により,提案したSVSシステムは,音質と自然性の両方において,ベースラインよりも優れていることを確認した。
論文 参考訳(メタデータ) (2023-09-01T06:40:41Z) - PAAPLoss: A Phonetic-Aligned Acoustic Parameter Loss for Speech
Enhancement [41.872384434583466]
知覚品質の違いを形式化する学習目標を提案する。
微分不可能な時間的音響パラメータを同定する。
時系列値を正確に予測できるニューラルネットワーク推定器を開発した。
論文 参考訳(メタデータ) (2023-02-16T05:17:06Z) - Self-Supervised Speech Representations Preserve Speech Characteristics
while Anonymizing Voices [15.136348385992047]
我々は、自己教師付き音声表現を用いて、複数の音声変換モデルを訓練する。
変換音声は、元の音声の1%以内に低い単語誤り率を保持する。
調音・韻律・発声・音韻に関連する音声特徴を匿名音声から抽出できることを示す。
論文 参考訳(メタデータ) (2022-04-04T17:48:01Z) - Spectro-Temporal Deep Features for Disordered Speech Assessment and
Recognition [65.25325641528701]
音声スペクトルのSVD分解による深い特徴を埋め込んだ新しいスペクトル時空間ベースを提案する。
UASpeechコーパスで行った実験では、提案された分光時間深部特徴適応システムは、データ拡張の有無にかかわらず、ワードエラー率(WER)を最大263%(相対8.6%)削減することで、ベースラインi-適応を一貫して上回ったことが示唆された。
論文 参考訳(メタデータ) (2022-01-14T16:56:43Z) - Supervised Contrastive Learning for Accented Speech Recognition [7.5253263976291676]
アクセント付き音声認識のための教師付きコントラスト学習フレームワークについて検討する。
比較学習は平均して3.66%(ゼロショット)と3.78%(フルショット)の精度を向上できることを示す。
論文 参考訳(メタデータ) (2021-07-02T09:23:33Z) - Analysis and Tuning of a Voice Assistant System for Dysfluent Speech [7.233685721929227]
音声認識システムは、音や単語の繰り返し、音の伸長、可聴ブロックなどの非効率な音声によく当てはまらない。
既存のハイブリッド音声認識システムにおける復号化パラメータを調整することにより、流速障害のある個人に対して、isWERを24%改善できることを示す。
論文 参考訳(メタデータ) (2021-06-18T20:58:34Z) - High Fidelity Speech Regeneration with Application to Speech Enhancement [96.34618212590301]
本稿では,24khz音声をリアルタイムに生成できる音声のwav-to-wav生成モデルを提案する。
音声変換法に着想を得て,音源の同一性を保ちながら音声特性を増強する訓練を行った。
論文 参考訳(メタデータ) (2021-01-31T10:54:27Z) - Learning Explicit Prosody Models and Deep Speaker Embeddings for
Atypical Voice Conversion [60.808838088376675]
本稿では,明示的な韻律モデルと深層話者埋め込み学習を用いたVCシステムを提案する。
韻律補正器は音素埋め込みを取り入れ、典型的な音素持続時間とピッチ値を推定する。
変換モデルは、音素埋め込みと典型的な韻律特徴を入力として、変換された音声を生成する。
論文 参考訳(メタデータ) (2020-11-03T13:08:53Z) - Speech Enhancement using Self-Adaptation and Multi-Head Self-Attention [70.82604384963679]
本稿では,補助的話者認識機能を用いた音声強調のための自己適応手法について検討する。
テスト発話から直接適応に用いる話者表現を抽出する。
論文 参考訳(メタデータ) (2020-02-14T05:05:36Z) - VoiceCoach: Interactive Evidence-based Training for Voice Modulation
Skills in Public Speaking [55.366941476863644]
ピッチ,ボリューム,速度などの音声特性の変調は,公的な発話を成功させる上で極めて重要である。
音声変調スキルの効果的な訓練を容易にする対話型エビデンスに基づくアプローチであるVoiceCoachを提案する。
論文 参考訳(メタデータ) (2020-01-22T04:52:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。