論文の概要: I-vector Based Within Speaker Voice Quality Identification on connected
speech
- arxiv url: http://arxiv.org/abs/2102.07307v1
- Date: Mon, 15 Feb 2021 02:26:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-16 15:14:33.605808
- Title: I-vector Based Within Speaker Voice Quality Identification on connected
speech
- Title(参考訳): 接続音声における話者声質識別に基づくi-vector
- Authors: Chuyao Feng, Eva van Leer, Mackenzie Lee Curtis, David V. Anderson
- Abstract要約: 声の障害は人口の大部分、特に教師やコールセンターワーカーのような重い音声ユーザーに影響を与える。
ほとんどの音声障害は行動的音声療法によって治療され、患者に問題のある習慣のある音声生成メカニズムを置き換えるように教える。
同一人物が生成する様々な声質を自動的に区別する2つのシステムを構築した。
- 参考スコア(独自算出の注目度): 3.2116198597240846
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Voice disorders affect a large portion of the population, especially heavy
voice users such as teachers or call-center workers. Most voice disorders can
be treated effectively with behavioral voice therapy, which teaches patients to
replace problematic, habituated voice production mechanics with optimal voice
production technique(s), yielding improved voice quality. However, treatment
often fails because patients have difficulty differentiating their habitual
voice from the target technique independently, when clinician feedback is
unavailable between therapy sessions. Therefore, with the long term aim to
extend clinician feedback to extra-clinical settings, we built two systems that
automatically differentiate various voice qualities produced by the same
individual. We hypothesized that 1) a system based on i-vectors could classify
these qualities as if they represent different speakers and 2) such a system
would outperform one based on traditional voice signal processing algorithms.
Training recordings were provided by thirteen amateur actors, each producing 5
perceptually different voice qualities in connected speech: normal, breathy,
fry, twang, and hyponasal. As hypothesized, the i-vector system outperformed
the acoustic measure system in classification accuracy (i.e. 97.5\% compared to
77.2\%, respectively). Findings are expected because the i-vector system maps
features to an integrated space which better represents each voice quality than
the 22-feature space of the baseline system. Therefore, an i-vector based
system has potential for clinical application in voice therapy and voice
training.
- Abstract(参考訳): 声の障害は人口の大部分、特に教師やコールセンターワーカーのような重い音声ユーザーに影響を与える。
ほとんどの音声障害は行動療法によって効果的に治療できるため、患者は問題のある、習慣化した音声生成機構を最適な音声生成技術に置き換えることを教え、声質の向上をもたらす。
しかし、患者が治療セッション間で臨床のフィードバックが得られない場合に、患者がターゲット技術と異なる習慣的声を区別することが困難であるため、治療は失敗することが多い。
そこで, 長期にわたって臨床のフィードバックをクリニカルな設定に拡張することを目的として, 同一個人が生成する様々な声質を自動的に区別する2つのシステムを構築した。
我々は,(1)iベクターに基づくシステムでは,その品質を,(2)従来の音声信号処理アルゴリズムをベースとしたシステムよりも優れている,という仮説を立てた。
訓練録音は13人のアマチュア俳優によって提供され、それぞれが接続された音声で5つの知覚的に異なる音声品質を作り出しました。
仮説通り、i-vectorシステムは音響測定システムを分類精度(すなわち)で上回った。
97.5\%, 77.2\%) であった。
i-vectorシステムは、ベースラインシステムの22機能スペースよりも各音声品質をよりよく表現する統合スペースに特徴をマップするため、発見が期待されます。
したがって、i-vectorベースのシステムは、音声療法および音声訓練における臨床応用の可能性を有する。
関連論文リスト
- Robust Vocal Quality Feature Embeddings for Dysphonic Voice Detection [22.413475757518682]
声質に敏感な音響特徴埋め込みを生成するためのディープラーニングフレームワークを提案する。
対照的な損失は、分類損失と組み合わせて、ディープラーニングモデルを共同で訓練する。
実験結果から,本手法は高いインコーパスとクロスコーパスの分類精度を実現することが示された。
論文 参考訳(メタデータ) (2022-11-17T19:34:59Z) - Deep Feature Learning for Medical Acoustics [78.56998585396421]
本研究の目的は,医療音響の課題における学習内容の比較である。
ヒトの呼吸音と心臓の鼓動を健康的または病態の影響の2つのカテゴリに分類する枠組みが実装されている。
論文 参考訳(メタデータ) (2022-08-05T10:39:37Z) - Detecting Dysfluencies in Stuttering Therapy Using wav2vec 2.0 [0.22940141855172028]
英語コーパスのスタブリング分類のための微調整wav2vec 2.0は、汎用的特徴の有効性を高める。
本稿では、Fluencybankとドイツのセラピー中心のKassel State of Fluencyデータセットについて評価する。
論文 参考訳(メタデータ) (2022-04-07T13:02:12Z) - Self-Supervised Speech Representations Preserve Speech Characteristics
while Anonymizing Voices [15.136348385992047]
我々は、自己教師付き音声表現を用いて、複数の音声変換モデルを訓練する。
変換音声は、元の音声の1%以内に低い単語誤り率を保持する。
調音・韻律・発声・音韻に関連する音声特徴を匿名音声から抽出できることを示す。
論文 参考訳(メタデータ) (2022-04-04T17:48:01Z) - Speaker Adaptation Using Spectro-Temporal Deep Features for Dysarthric
and Elderly Speech Recognition [48.33873602050463]
話者適応技術は、そのようなユーザのためのASRシステムのパーソナライズに重要な役割を果たしている。
変形性関節症、高齢者、および正常音声の分光時間差による動機づけ
SVD音声スペクトルを用いた新しい分光時空間ベース深層埋め込み
論文 参考訳(メタデータ) (2022-02-21T15:11:36Z) - Investigation of Data Augmentation Techniques for Disordered Speech
Recognition [69.50670302435174]
本稿では,不規則音声認識のための一連のデータ拡張手法について検討する。
正常な音声と無秩序な音声の両方が増強過程に利用された。
UASpeechコーパスを用いた最終話者適応システムと、最大2.92%の絶対単語誤り率(WER)の速度摂動に基づく最良の拡張アプローチ
論文 参考訳(メタデータ) (2022-01-14T17:09:22Z) - Spectro-Temporal Deep Features for Disordered Speech Assessment and
Recognition [65.25325641528701]
音声スペクトルのSVD分解による深い特徴を埋め込んだ新しいスペクトル時空間ベースを提案する。
UASpeechコーパスで行った実験では、提案された分光時間深部特徴適応システムは、データ拡張の有無にかかわらず、ワードエラー率(WER)を最大263%(相対8.6%)削減することで、ベースラインi-適応を一貫して上回ったことが示唆された。
論文 参考訳(メタデータ) (2022-01-14T16:56:43Z) - Analysis and Tuning of a Voice Assistant System for Dysfluent Speech [7.233685721929227]
音声認識システムは、音や単語の繰り返し、音の伸長、可聴ブロックなどの非効率な音声によく当てはまらない。
既存のハイブリッド音声認識システムにおける復号化パラメータを調整することにより、流速障害のある個人に対して、isWERを24%改善できることを示す。
論文 参考訳(メタデータ) (2021-06-18T20:58:34Z) - A Preliminary Study of a Two-Stage Paradigm for Preserving Speaker
Identity in Dysarthric Voice Conversion [50.040466658605524]
変形性音声変換(DVC)における話者同一性維持のための新しいパラダイムを提案する。
変形性音声の質は統計VCによって大幅に改善される。
しかし, 変形性関節症患者の通常の発話は, ほとんど収集できないため, 過去の研究は患者の個性を取り戻すことはできなかった。
論文 参考訳(メタデータ) (2021-06-02T18:41:03Z) - Stutter Diagnosis and Therapy System Based on Deep Learning [2.3581263491506097]
スタッタリング(stammering)は、音声の連続性を破るコミュニケーション障害である。
本稿では,MFCC音声特徴に対するGated Recurrent CNNを用いたスタッター診断エージェントの実装と,SVMを用いた治療勧告エージェントの実装に焦点を当てた。
論文 参考訳(メタデータ) (2020-07-13T10:24:02Z) - VoiceCoach: Interactive Evidence-based Training for Voice Modulation
Skills in Public Speaking [55.366941476863644]
ピッチ,ボリューム,速度などの音声特性の変調は,公的な発話を成功させる上で極めて重要である。
音声変調スキルの効果的な訓練を容易にする対話型エビデンスに基づくアプローチであるVoiceCoachを提案する。
論文 参考訳(メタデータ) (2020-01-22T04:52:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。