論文の概要: Interpretable Dysarthric Speaker Adaptation based on Optimal-Transport
- arxiv url: http://arxiv.org/abs/2203.07143v1
- Date: Mon, 14 Mar 2022 14:39:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-15 22:24:14.930432
- Title: Interpretable Dysarthric Speaker Adaptation based on Optimal-Transport
- Title(参考訳): 最適トランスポートに基づく解釈可能な対話型話者適応
- Authors: Rosanna Turrisi, Leonardo Badino
- Abstract要約: コマンド音声認識における話者適応(SA)に着目し,複数の情報源からのデータを利用できる。
最適トランスポートに基づく教師なしマルチソースドメイン適応(MSDA)アルゴリズムを提案する。
話者非依存モデルに対して,コマンド誤り率を相対的に16%, 7%削減し, 最適な競合手法を提案する。
- 参考スコア(独自算出の注目度): 3.903766260291157
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work addresses the mismatch problem between the distribution of training
data (source) and testing data (target), in the challenging context of
dysarthric speech recognition. We focus on Speaker Adaptation (SA) in command
speech recognition, where data from multiple sources (i.e., multiple speakers)
are available. Specifically, we propose an unsupervised Multi-Source Domain
Adaptation (MSDA) algorithm based on optimal-transport, called MSDA via
Weighted Joint Optimal Transport (MSDA-WJDOT). We achieve a Command Error Rate
relative reduction of 16% and 7% over the speaker-independent model and the
best competitor method, respectively. The strength of the proposed approach is
that, differently from any other existing SA method, it offers an interpretable
model that can also be exploited, in this context, to diagnose dysarthria
without any specific training. Indeed, it provides a closeness measure between
the target and the source speakers, reflecting their similarity in terms of
speech characteristics. Based on the similarity between the target speaker and
the healthy/dysarthric source speakers, we then define the healthy/dysarthric
score of the target speaker that we leverage to perform dysarthria detection.
This approach does not require any additional training and achieves a 95%
accuracy in the dysarthria diagnosis.
- Abstract(参考訳): 本研究は, 外科的音声認識の困難な状況において, トレーニングデータ(ソース)とテストデータ(ターゲット)の分布のミスマッチ問題に対処する。
我々は、コマンド音声認識における話者適応(SA)に焦点を当て、複数のソース(複数の話者)のデータが利用可能である。
具体的には,MSDA-WJDOT (Weighted Joint Optimal Transport) を用いた最適輸送に基づく教師なしマルチソースドメイン適応(MSDA)アルゴリズムを提案する。
本研究では,話者非依存モデルと最良競合法に対して,コマンド誤り率を16%,7%の相対的に減少させる。
提案手法の強みは,既存のsa法と異なる解釈可能なモデルを提供しており,この文脈では,特定のトレーニングを伴わずに不整脈を診断できる。
実際、ターゲットとソース話者間の密接度尺度を提供し、その類似性を音声特性の観点から反映している。
対象話者と健常者/dysarthric音源話者の類似性に基づき, 目的話者の健康的/dysarthricスコアを定義し, ダイサーリア検出を行う。
このアプローチは追加のトレーニングを必要とせず、変形性関節症の診断において95%の精度を達成する。
関連論文リスト
- Improving Speaker-independent Speech Emotion Recognition Using Dynamic
Joint Distribution Adaptation [15.64999039870125]
話者に依存しない音声感情認識では、様々な話者からトレーニングとテストサンプルが収集される。
トレーニングされたモデルが新しい話者のデータに直面すると、その性能は低下する傾向にある。
マルチソースドメイン適応の枠組みに基づく動的共同分散適応法(DJDA)を提案する。
論文 参考訳(メタデータ) (2024-01-18T06:52:52Z) - Detecting Speech Abnormalities with a Perceiver-based Sequence
Classifier that Leverages a Universal Speech Model [4.503292461488901]
いくつかの神経疾患の音声反射異常を検出するPerceiver-based sequenceを提案する。
このシーケンスとUniversal Speech Model (USM)を組み合わせ、1200万時間に及ぶ多様な音声録音をトレーニング(教師なし)する。
我々のモデルは標準変圧器 (80.9%) および知覚器 (81.8%) モデルより優れ、平均精度は83.1%である。
論文 参考訳(メタデータ) (2023-10-16T21:07:12Z) - A Few-Shot Approach to Dysarthric Speech Intelligibility Level
Classification Using Transformers [0.0]
発声障害(Dysarthria)は、言葉の発音が難しいことによるコミュニケーションを妨げる言語障害である。
文献の多くは、変形性音声に対するASRシステムの改善に焦点を当てている。
この研究は、変形の有無を正確に分類できるモデルを開発することを目的としている。
論文 参考訳(メタデータ) (2023-09-17T17:23:41Z) - Context-aware attention layers coupled with optimal transport domain
adaptation and multimodal fusion methods for recognizing dementia from
spontaneous speech [0.0]
アルツハイマー病(英語: Alzheimer's disease、AD)は、認知症の主要な原因である複雑な神経認知疾患である。
そこで本研究では,AD患者検出のための新しい手法を提案する。
ADReSSとADReSSo Challengeで実施した実験は、既存の研究イニシアチブに対して導入したアプローチの有効性を示している。
論文 参考訳(メタデータ) (2023-05-25T18:18:09Z) - A Comparative Study on Speaker-attributed Automatic Speech Recognition
in Multi-party Meetings [53.120885867427305]
会議シナリオにおける話者分散自動音声認識(SA-ASR)の3つのアプローチを評価する。
WD-SOT法は平均話者依存文字誤り率(SD-CER)を10.7%削減する
TS-ASRアプローチはFD-SOTアプローチよりも優れ、16.5%の相対的なSD-CER削減をもたらす。
論文 参考訳(メタデータ) (2022-03-31T06:39:14Z) - On-the-Fly Feature Based Rapid Speaker Adaptation for Dysarthric and
Elderly Speech Recognition [53.17176024917725]
話者レベルのデータの共有化は、データ集約型モデルに基づく話者適応手法の実用的利用を制限する。
本稿では,2種類のデータ効率,特徴量に基づくオンザフライ話者適応手法を提案する。
論文 参考訳(メタデータ) (2022-03-28T09:12:24Z) - Speaker Identity Preservation in Dysarthric Speech Reconstruction by
Adversarial Speaker Adaptation [59.41186714127256]
変形性音声再建(DSR)は,変形性音声の品質向上を目的としている。
話者識別に最適化された話者エンコーダ (SE) について検討した。
我々は,新しいマルチタスク学習戦略,すなわち対人話者適応(ASA)を提案する。
論文 参考訳(メタデータ) (2022-02-18T08:59:36Z) - Investigation of Data Augmentation Techniques for Disordered Speech
Recognition [69.50670302435174]
本稿では,不規則音声認識のための一連のデータ拡張手法について検討する。
正常な音声と無秩序な音声の両方が増強過程に利用された。
UASpeechコーパスを用いた最終話者適応システムと、最大2.92%の絶対単語誤り率(WER)の速度摂動に基づく最良の拡張アプローチ
論文 参考訳(メタデータ) (2022-01-14T17:09:22Z) - Optimal Transport-based Adaptation in Dysarthric Speech Tasks [6.609497621455247]
音声データにおいて、ミスマッチの原因は異なる音響環境や話者特性を含む。
MSDA-WDJOT(Meighted Joint Optimal Transport)を用いた最適な輸送手法を提案する。
MSDA-WJDOTは、コマンド音声認識における発話器適応に用いる。
論文 参考訳(メタデータ) (2021-04-06T14:26:34Z) - NUVA: A Naming Utterance Verifier for Aphasia Treatment [49.114436579008476]
失語症(PWA)患者の治療介入に対する反応の診断とモニタリングの両立のための画像命名タスクを用いた音声性能評価
本稿では,失語症脳卒中患者の「正しい」と「正しくない」を分類する深層学習要素を組み込んだ発話検証システムであるNUVAについて述べる。
イギリス系英語8ヶ国語でのテストでは、システムの性能精度は83.6%から93.6%の範囲であり、10倍のクロスバリデーション平均は89.5%であった。
論文 参考訳(メタデータ) (2021-02-10T13:00:29Z) - Bayesian Learning for Deep Neural Network Adaptation [57.70991105736059]
音声認識システムにおける重要な課題は、しばしば話者差に起因する訓練データと評価データとのミスマッチを減らすことである。
モデルに基づく話者適応手法は、ロバスト性を確保するために十分な量のターゲット話者データを必要とすることが多い。
本稿では,話者依存型(SD)パラメータの不確かさをモデル化するための,ベイズ学習に基づくDNN話者適応フレームワークを提案する。
論文 参考訳(メタデータ) (2020-12-14T12:30:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。