論文の概要: I-vector Based Within Speaker Voice Quality Identification on connected
speech
- arxiv url: http://arxiv.org/abs/2102.07307v1
- Date: Mon, 15 Feb 2021 02:26:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-16 15:14:33.605808
- Title: I-vector Based Within Speaker Voice Quality Identification on connected
speech
- Title(参考訳): 接続音声における話者声質識別に基づくi-vector
- Authors: Chuyao Feng, Eva van Leer, Mackenzie Lee Curtis, David V. Anderson
- Abstract要約: 声の障害は人口の大部分、特に教師やコールセンターワーカーのような重い音声ユーザーに影響を与える。
ほとんどの音声障害は行動的音声療法によって治療され、患者に問題のある習慣のある音声生成メカニズムを置き換えるように教える。
同一人物が生成する様々な声質を自動的に区別する2つのシステムを構築した。
- 参考スコア(独自算出の注目度): 3.2116198597240846
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Voice disorders affect a large portion of the population, especially heavy
voice users such as teachers or call-center workers. Most voice disorders can
be treated effectively with behavioral voice therapy, which teaches patients to
replace problematic, habituated voice production mechanics with optimal voice
production technique(s), yielding improved voice quality. However, treatment
often fails because patients have difficulty differentiating their habitual
voice from the target technique independently, when clinician feedback is
unavailable between therapy sessions. Therefore, with the long term aim to
extend clinician feedback to extra-clinical settings, we built two systems that
automatically differentiate various voice qualities produced by the same
individual. We hypothesized that 1) a system based on i-vectors could classify
these qualities as if they represent different speakers and 2) such a system
would outperform one based on traditional voice signal processing algorithms.
Training recordings were provided by thirteen amateur actors, each producing 5
perceptually different voice qualities in connected speech: normal, breathy,
fry, twang, and hyponasal. As hypothesized, the i-vector system outperformed
the acoustic measure system in classification accuracy (i.e. 97.5\% compared to
77.2\%, respectively). Findings are expected because the i-vector system maps
features to an integrated space which better represents each voice quality than
the 22-feature space of the baseline system. Therefore, an i-vector based
system has potential for clinical application in voice therapy and voice
training.
- Abstract(参考訳): 声の障害は人口の大部分、特に教師やコールセンターワーカーのような重い音声ユーザーに影響を与える。
ほとんどの音声障害は行動療法によって効果的に治療できるため、患者は問題のある、習慣化した音声生成機構を最適な音声生成技術に置き換えることを教え、声質の向上をもたらす。
しかし、患者が治療セッション間で臨床のフィードバックが得られない場合に、患者がターゲット技術と異なる習慣的声を区別することが困難であるため、治療は失敗することが多い。
そこで, 長期にわたって臨床のフィードバックをクリニカルな設定に拡張することを目的として, 同一個人が生成する様々な声質を自動的に区別する2つのシステムを構築した。
我々は,(1)iベクターに基づくシステムでは,その品質を,(2)従来の音声信号処理アルゴリズムをベースとしたシステムよりも優れている,という仮説を立てた。
訓練録音は13人のアマチュア俳優によって提供され、それぞれが接続された音声で5つの知覚的に異なる音声品質を作り出しました。
仮説通り、i-vectorシステムは音響測定システムを分類精度(すなわち)で上回った。
97.5\%, 77.2\%) であった。
i-vectorシステムは、ベースラインシステムの22機能スペースよりも各音声品質をよりよく表現する統合スペースに特徴をマップするため、発見が期待されます。
したがって、i-vectorベースのシステムは、音声療法および音声訓練における臨床応用の可能性を有する。
関連論文リスト
- Evaluating and Personalizing User-Perceived Quality of Text-to-Speech
Voices for Delivering Mindfulness Meditation with Different Physical
Embodiments [5.413055126487447]
本研究は,マインドフルネス・メディテーション(マインドフルネス・メディテーション)を施行するための,最先端音声のユーザ認識品質について検討した。
その結果、最も高い評価を受けたヒトの声は、すべてのTS音声より優れていた。
TTSの音声機能を微調整することで、ユーザー個人化されたTTSの音声は、人間の声とほぼ同等の性能を発揮できる。
論文 参考訳(メタデータ) (2024-01-07T21:14:32Z) - Lightly Weighted Automatic Audio Parameter Extraction for the Quality
Assessment of Consensus Auditory-Perceptual Evaluation of Voice [18.8222742272435]
提案手法は, ジッタ, 絶対ジッタ, シャマー, ハーモニック・ツー・ノイズ比 (HNR) , ゼロクロスという, 年齢, 性別, および5つの音響パラメータを利用する。
その結果,提案手法は最先端技術(SOTA)手法と類似し,一般的な音声事前学習モデルを用いて得られた潜在表現よりも優れることがわかった。
論文 参考訳(メタデータ) (2023-11-27T07:19:22Z) - Show from Tell: Audio-Visual Modelling in Clinical Settings [58.88175583465277]
臨床環境でのオーディオ・ビジュアル・モデリングを考察し、人間の専門的アノテーションを使わずに医学的表現を学習するためのソリューションを提供する。
この目的のために, 単純かつ効果的なマルチモーダル自己教師型学習フレームワークを提案する。
提案手法は,音声のみを基準として,超音波画像中の解剖学的関心領域をローカライズすることができる。
論文 参考訳(メタデータ) (2023-10-25T08:55:48Z) - Gammatonegram Representation for End-to-End Dysarthric Speech Processing
Tasks: Speech Recognition, Speaker Identification, and Intelligibility
Assessment [2.398608007786179]
失語症(Dysarthria)は、人間の音声システムに障害を引き起こす障害である。
本稿では,ガンマトーングラムを識別的詳細で音声ファイルを表現する効果的な方法として紹介する。
我々は,各音声ファイルを画像に変換し,異なるシナリオで音声を分類する画像認識システムを提案する。
論文 参考訳(メタデータ) (2023-07-06T21:10:50Z) - Make-A-Voice: Unified Voice Synthesis With Discrete Representation [77.3998611565557]
Make-A-Voiceは、個別表現から音声信号を合成・操作するための統合されたフレームワークである。
我々は,Make-A-Voiceは,競合するベースラインモデルと比較して,音質とスタイルの類似性が優れていることを示す。
論文 参考訳(メタデータ) (2023-05-30T17:59:26Z) - Detecting Dysfluencies in Stuttering Therapy Using wav2vec 2.0 [0.22940141855172028]
英語コーパスのスタブリング分類のための微調整wav2vec 2.0は、汎用的特徴の有効性を高める。
本稿では、Fluencybankとドイツのセラピー中心のKassel State of Fluencyデータセットについて評価する。
論文 参考訳(メタデータ) (2022-04-07T13:02:12Z) - Investigation of Data Augmentation Techniques for Disordered Speech
Recognition [69.50670302435174]
本稿では,不規則音声認識のための一連のデータ拡張手法について検討する。
正常な音声と無秩序な音声の両方が増強過程に利用された。
UASpeechコーパスを用いた最終話者適応システムと、最大2.92%の絶対単語誤り率(WER)の速度摂動に基づく最良の拡張アプローチ
論文 参考訳(メタデータ) (2022-01-14T17:09:22Z) - Spectro-Temporal Deep Features for Disordered Speech Assessment and
Recognition [65.25325641528701]
音声スペクトルのSVD分解による深い特徴を埋め込んだ新しいスペクトル時空間ベースを提案する。
UASpeechコーパスで行った実験では、提案された分光時間深部特徴適応システムは、データ拡張の有無にかかわらず、ワードエラー率(WER)を最大263%(相対8.6%)削減することで、ベースラインi-適応を一貫して上回ったことが示唆された。
論文 参考訳(メタデータ) (2022-01-14T16:56:43Z) - Analysis and Tuning of a Voice Assistant System for Dysfluent Speech [7.233685721929227]
音声認識システムは、音や単語の繰り返し、音の伸長、可聴ブロックなどの非効率な音声によく当てはまらない。
既存のハイブリッド音声認識システムにおける復号化パラメータを調整することにより、流速障害のある個人に対して、isWERを24%改善できることを示す。
論文 参考訳(メタデータ) (2021-06-18T20:58:34Z) - A Preliminary Study of a Two-Stage Paradigm for Preserving Speaker
Identity in Dysarthric Voice Conversion [50.040466658605524]
変形性音声変換(DVC)における話者同一性維持のための新しいパラダイムを提案する。
変形性音声の質は統計VCによって大幅に改善される。
しかし, 変形性関節症患者の通常の発話は, ほとんど収集できないため, 過去の研究は患者の個性を取り戻すことはできなかった。
論文 参考訳(メタデータ) (2021-06-02T18:41:03Z) - VoiceCoach: Interactive Evidence-based Training for Voice Modulation
Skills in Public Speaking [55.366941476863644]
ピッチ,ボリューム,速度などの音声特性の変調は,公的な発話を成功させる上で極めて重要である。
音声変調スキルの効果的な訓練を容易にする対話型エビデンスに基づくアプローチであるVoiceCoachを提案する。
論文 参考訳(メタデータ) (2020-01-22T04:52:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。