Fugu-MT 論文翻訳(概要): I-vector Based Within Speaker Voice Quality Identification on connected speech

論文の概要: I-vector Based Within Speaker Voice Quality Identification on connected speech

arxiv url: http://arxiv.org/abs/2102.07307v1
Date: Mon, 15 Feb 2021 02:26:32 GMT
ステータス: 翻訳完了
システム内更新日: 2021-02-16 15:14:33.605808
Title: I-vector Based Within Speaker Voice Quality Identification on connected speech
Title（参考訳）: 接続音声における話者声質識別に基づくi-vector
Authors: Chuyao Feng, Eva van Leer, Mackenzie Lee Curtis, David V. Anderson
Abstract要約: 声の障害は人口の大部分、特に教師やコールセンターワーカーのような重い音声ユーザーに影響を与える。ほとんどの音声障害は行動的音声療法によって治療され、患者に問題のある習慣のある音声生成メカニズムを置き換えるように教える。同一人物が生成する様々な声質を自動的に区別する2つのシステムを構築した。
参考スコア（独自算出の注目度）: 3.2116198597240846
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Voice disorders affect a large portion of the population, especially heavy voice users such as teachers or call-center workers. Most voice disorders can be treated effectively with behavioral voice therapy, which teaches patients to replace problematic, habituated voice production mechanics with optimal voice production technique(s), yielding improved voice quality. However, treatment often fails because patients have difficulty differentiating their habitual voice from the target technique independently, when clinician feedback is unavailable between therapy sessions. Therefore, with the long term aim to extend clinician feedback to extra-clinical settings, we built two systems that automatically differentiate various voice qualities produced by the same individual. We hypothesized that 1) a system based on i-vectors could classify these qualities as if they represent different speakers and 2) such a system would outperform one based on traditional voice signal processing algorithms. Training recordings were provided by thirteen amateur actors, each producing 5 perceptually different voice qualities in connected speech: normal, breathy, fry, twang, and hyponasal. As hypothesized, the i-vector system outperformed the acoustic measure system in classification accuracy (i.e. 97.5\% compared to 77.2\%, respectively). Findings are expected because the i-vector system maps features to an integrated space which better represents each voice quality than the 22-feature space of the baseline system. Therefore, an i-vector based system has potential for clinical application in voice therapy and voice training.
Abstract（参考訳）: 声の障害は人口の大部分、特に教師やコールセンターワーカーのような重い音声ユーザーに影響を与える。ほとんどの音声障害は行動療法によって効果的に治療できるため、患者は問題のある、習慣化した音声生成機構を最適な音声生成技術に置き換えることを教え、声質の向上をもたらす。しかし、患者が治療セッション間で臨床のフィードバックが得られない場合に、患者がターゲット技術と異なる習慣的声を区別することが困難であるため、治療は失敗することが多い。そこで, 長期にわたって臨床のフィードバックをクリニカルな設定に拡張することを目的として, 同一個人が生成する様々な声質を自動的に区別する2つのシステムを構築した。我々は,(1)iベクターに基づくシステムでは,その品質を,(2)従来の音声信号処理アルゴリズムをベースとしたシステムよりも優れている,という仮説を立てた。訓練録音は13人のアマチュア俳優によって提供され、それぞれが接続された音声で5つの知覚的に異なる音声品質を作り出しました。仮説通り、i-vectorシステムは音響測定システムを分類精度(すなわち)で上回った。 97.5\%, 77.2\%) であった。 i-vectorシステムは、ベースラインシステムの22機能スペースよりも各音声品質をよりよく表現する統合スペースに特徴をマップするため、発見が期待されます。したがって、i-vectorベースのシステムは、音声療法および音声訓練における臨床応用の可能性を有する。

関連論文リスト

Disentangling segmental and prosodic factors to non-native speech comprehensibility [11.098498920630782]
現在のアクセント変換システムは、非ネイティブアクセントの2つの主要な源である分節的特徴と韻律的特徴を分離しない。本稿では,アクセントから声質を分離するACシステムを提案する。本研究では,非母語音声の知覚的理解度に係わる部分的特徴と韻律の個人的寄与を定量化するために,知覚的聴取テストを実施している。
論文参考訳（メタデータ） (2024-08-20T16:43:55Z)
Homogeneous Speaker Features for On-the-Fly Dysarthric and Elderly Speaker Adaptation [71.31331402404662]
本稿では, 変形性関節症と高齢者の話者レベルの特徴を学習するための2つの新しいデータ効率手法を提案する。話者規則化スペクトルベース埋め込み-SBE特徴は、特別な正規化項を利用して適応における話者特徴の均一性を強制する。テスト時間適応において、話者レベルのデータ量に敏感であることが示されるVR-LH機能に規定されている特徴ベースの学習隠れユニットコントリビューション(f-LHUC)。
論文参考訳（メタデータ） (2024-07-08T18:20:24Z)
A Novel Labeled Human Voice Signal Dataset for Misbehavior Detection [0.7223352886780369]
本研究は,音声認識のための自動学習システムにおける音声トーンと配信の重要性を強調した。これは、人間の行動が音声信号の知覚と分類に与える影響を解明することにより、音声信号解析の幅広い分野に寄与する。
論文参考訳（メタデータ） (2024-06-28T18:55:07Z)
Evaluating and Personalizing User-Perceived Quality of Text-to-Speech Voices for Delivering Mindfulness Meditation with Different Physical Embodiments [5.413055126487447]
本研究は,マインドフルネス・メディテーション(マインドフルネス・メディテーション)を施行するための,最先端音声のユーザ認識品質について検討した。その結果、最も高い評価を受けたヒトの声は、すべてのTS音声より優れていた。 TTSの音声機能を微調整することで、ユーザー個人化されたTTSの音声は、人間の声とほぼ同等の性能を発揮できる。
論文参考訳（メタデータ） (2024-01-07T21:14:32Z)
Lightly Weighted Automatic Audio Parameter Extraction for the Quality Assessment of Consensus Auditory-Perceptual Evaluation of Voice [18.8222742272435]
提案手法は, ジッタ, 絶対ジッタ, シャマー, ハーモニック・ツー・ノイズ比 (HNR) , ゼロクロスという, 年齢, 性別, および5つの音響パラメータを利用する。その結果,提案手法は最先端技術(SOTA)手法と類似し,一般的な音声事前学習モデルを用いて得られた潜在表現よりも優れることがわかった。
論文参考訳（メタデータ） (2023-11-27T07:19:22Z)
Show from Tell: Audio-Visual Modelling in Clinical Settings [58.88175583465277]
臨床環境でのオーディオ・ビジュアル・モデリングを考察し、人間の専門的アノテーションを使わずに医学的表現を学習するためのソリューションを提供する。この目的のために, 単純かつ効果的なマルチモーダル自己教師型学習フレームワークを提案する。提案手法は,音声のみを基準として,超音波画像中の解剖学的関心領域をローカライズすることができる。
論文参考訳（メタデータ） (2023-10-25T08:55:48Z)
Make-A-Voice: Unified Voice Synthesis With Discrete Representation [77.3998611565557]
Make-A-Voiceは、個別表現から音声信号を合成・操作するための統合されたフレームワークである。我々は,Make-A-Voiceは,競合するベースラインモデルと比較して,音質とスタイルの類似性が優れていることを示す。
論文参考訳（メタデータ） (2023-05-30T17:59:26Z)
Investigation of Data Augmentation Techniques for Disordered Speech Recognition [69.50670302435174]
本稿では,不規則音声認識のための一連のデータ拡張手法について検討する。正常な音声と無秩序な音声の両方が増強過程に利用された。 UASpeechコーパスを用いた最終話者適応システムと、最大2.92%の絶対単語誤り率(WER)の速度摂動に基づく最良の拡張アプローチ
論文参考訳（メタデータ） (2022-01-14T17:09:22Z)
Spectro-Temporal Deep Features for Disordered Speech Assessment and Recognition [65.25325641528701]
音声スペクトルのSVD分解による深い特徴を埋め込んだ新しいスペクトル時空間ベースを提案する。 UASpeechコーパスで行った実験では、提案された分光時間深部特徴適応システムは、データ拡張の有無にかかわらず、ワードエラー率(WER)を最大263%(相対8.6%)削減することで、ベースラインi-適応を一貫して上回ったことが示唆された。
論文参考訳（メタデータ） (2022-01-14T16:56:43Z)
Analysis and Tuning of a Voice Assistant System for Dysfluent Speech [7.233685721929227]
音声認識システムは、音や単語の繰り返し、音の伸長、可聴ブロックなどの非効率な音声によく当てはまらない。既存のハイブリッド音声認識システムにおける復号化パラメータを調整することにより、流速障害のある個人に対して、isWERを24%改善できることを示す。
論文参考訳（メタデータ） (2021-06-18T20:58:34Z)
VoiceCoach: Interactive Evidence-based Training for Voice Modulation Skills in Public Speaking [55.366941476863644]
ピッチ,ボリューム,速度などの音声特性の変調は,公的な発話を成功させる上で極めて重要である。音声変調スキルの効果的な訓練を容易にする対話型エビデンスに基づくアプローチであるVoiceCoachを提案する。
論文参考訳（メタデータ） (2020-01-22T04:52:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。