論文の概要: Disentangled Latent Speech Representation for Automatic Pathological
Intelligibility Assessment
- arxiv url: http://arxiv.org/abs/2204.04016v1
- Date: Fri, 8 Apr 2022 12:02:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-11 16:17:24.909965
- Title: Disentangled Latent Speech Representation for Automatic Pathological
Intelligibility Assessment
- Title(参考訳): ディスタングル型潜在音声表現による病的知能自動評価
- Authors: Tobias Weise, Philipp Klumpp, Andreas Maier, Elmar Noeth, Bjoern
Heismann, Maria Schuster, Seung Hee Yang
- Abstract要約: そこで本研究では,無拘束音声表現が病的音声の明瞭度自動評価に有効であることを示す。
以上の結果から,解離した音声表現が病的音声の明瞭度の自動評価に有効であることが示された。
- 参考スコア(独自算出の注目度): 10.93598143328628
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speech intelligibility assessment plays an important role in the therapy of
patients suffering from pathological speech disorders. Automatic and objective
measures are desirable to assist therapists in their traditionally subjective
and labor-intensive assessments. In this work, we investigate a novel approach
for obtaining such a measure using the divergence in disentangled latent speech
representations of a parallel utterance pair, obtained from a healthy reference
and a pathological speaker. Experiments on an English database of Cerebral
Palsy patients, using all available utterances per speaker, show high and
significant correlation values (R = -0.9) with subjective intelligibility
measures, while having only minimal deviation (+-0.01) across four different
reference speaker pairs. We also demonstrate the robustness of the proposed
method (R = -0.89 deviating +-0.02 over 1000 iterations) by considering a
significantly smaller amount of utterances per speaker. Our results are among
the first to show that disentangled speech representations can be used for
automatic pathological speech intelligibility assessment, resulting in a
reference speaker pair invariant method, applicable in scenarios with only few
utterances available.
- Abstract(参考訳): 言語理解度評価は, 病的言語障害患者に対する治療において重要な役割を担っている。
従来の主観的および労働集約的な評価においてセラピストを支援するためには、自動的および客観的な措置が望ましい。
本研究では,健全な参照と病的話者から得られた並列発話対の非絡み合った潜在音声表現において,そのばらつきを利用した新しい手法について検討する。
脳性麻痺患者の英語データベースを用いた実験では、4つの基準話者ペア間での最小偏差(+-0.01)しか持たず、主観的知性尺度と高い有意な相関値(r = -0.9)を示す。
また,提案手法のロバスト性 (R = -0.89 で1000回以上,+-0.02) を,話者毎の発話量を大幅に小さくすることで示す。
以上の結果から,不等角化音声表現が自動的に病的音声明瞭度評価に応用できることを示す最初の例となり,少ない発話しかできない場合に適用可能な参照話者対不変法が得られた。
関連論文リスト
- Self-supervised Speech Models for Word-Level Stuttered Speech Detection [66.46810024006712]
自己教師付き音声モデルを利用した単語レベルの発声音声検出モデルを提案する。
本評価は, 単語レベルの発声検出において, 従来の手法を超越していることを示す。
論文 参考訳(メタデータ) (2024-09-16T20:18:20Z) - Towards objective and interpretable speech disorder assessment: a comparative analysis of CNN and transformer-based models [7.774205081900019]
頭頸部癌(HNC)は、患者の発話能力に大きな影響を与え、生活の質に影響を及ぼす。
本研究では,HNC患者を対象とした音声分類のための自己教師型Wav2Vec2モデルを提案する。
論文 参考訳(メタデータ) (2024-06-07T08:51:52Z) - A Comprehensive Rubric for Annotating Pathological Speech [0.0]
音声学, 流音学, 韻律学など, 音声品質の様々な側面に基づく包括的ルーリックを導入する。
本研究の目的は,ダウン症候群患者の発話中の誤りを識別するための標準化基準を確立することである。
論文 参考訳(メタデータ) (2024-04-29T16:44:27Z) - Non-Invasive Suicide Risk Prediction Through Speech Analysis [74.8396086718266]
自動自殺リスク評価のための非侵襲的音声ベースアプローチを提案する。
我々は、wav2vec、解釈可能な音声・音響特徴、深層学習に基づくスペクトル表現の3つの特徴セットを抽出する。
我々の最も効果的な音声モデルは、6.6.2,%$のバランスの取れた精度を達成する。
論文 参考訳(メタデータ) (2024-04-18T12:33:57Z) - Automatically measuring speech fluency in people with aphasia: first
achievements using read-speech data [55.84746218227712]
本研究の目的は,言語習得の分野で開発された信号処理algorithmの関連性を評価することである。
論文 参考訳(メタデータ) (2023-08-09T07:51:40Z) - A Comparative Study on Speaker-attributed Automatic Speech Recognition
in Multi-party Meetings [53.120885867427305]
会議シナリオにおける話者分散自動音声認識(SA-ASR)の3つのアプローチを評価する。
WD-SOT法は平均話者依存文字誤り率(SD-CER)を10.7%削減する
TS-ASRアプローチはFD-SOTアプローチよりも優れ、16.5%の相対的なSD-CER削減をもたらす。
論文 参考訳(メタデータ) (2022-03-31T06:39:14Z) - A Preliminary Study of a Two-Stage Paradigm for Preserving Speaker
Identity in Dysarthric Voice Conversion [50.040466658605524]
変形性音声変換(DVC)における話者同一性維持のための新しいパラダイムを提案する。
変形性音声の質は統計VCによって大幅に改善される。
しかし, 変形性関節症患者の通常の発話は, ほとんど収集できないため, 過去の研究は患者の個性を取り戻すことはできなかった。
論文 参考訳(メタデータ) (2021-06-02T18:41:03Z) - Automatic Speaker Independent Dysarthric Speech Intelligibility
Assessment System [28.01689694536572]
構音障害(dysarthria)は、個人が発声において重要な役割を果たす筋肉を制御する能力を妨げる状態である。
唇、声帯、舌、横隔膜の動きを補助する筋肉の微細な制御の喪失は、異常な発声をもたらす。
個人が話す音声の知性を分析して、構音のレベルを評価することができる。
論文 参考訳(メタデータ) (2021-03-10T16:15:32Z) - Comparison of Speaker Role Recognition and Speaker Enrollment Protocol
for conversational Clinical Interviews [9.728371067160941]
エンドツーエンドのニューラルネットワークアーキテクチャをトレーニングし、各タスクに適応し、各アプローチを同じメトリクスで評価します。
結果は面接者の人口統計にも依存せず,その臨床的意義を浮き彫りにした。
論文 参考訳(メタデータ) (2020-10-30T09:07:37Z) - Continuous Speech Separation with Conformer [60.938212082732775]
分離システムでは、リカレントニューラルネットワークの代わりにトランスとコンバータを用いる。
我々は,自己注意に基づく方法でグローバルな情報を取得することが,音声分離に不可欠であると信じている。
論文 参考訳(メタデータ) (2020-08-13T09:36:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。