論文の概要: Optimal Transport-based Adaptation in Dysarthric Speech Tasks
- arxiv url: http://arxiv.org/abs/2104.02535v1
- Date: Tue, 6 Apr 2021 14:26:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-07 17:52:55.200582
- Title: Optimal Transport-based Adaptation in Dysarthric Speech Tasks
- Title(参考訳): 構音障害における最適なトランスポート適応
- Authors: Rosanna Turrisi and Leonardo Badino
- Abstract要約: 音声データにおいて、ミスマッチの原因は異なる音響環境や話者特性を含む。
MSDA-WDJOT(Meighted Joint Optimal Transport)を用いた最適な輸送手法を提案する。
MSDA-WJDOTは、コマンド音声認識における発話器適応に用いる。
- 参考スコア(独自算出の注目度): 6.609497621455247
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In many real-world applications, the mismatch between distributions of
training data (source) and test data (target) significantly degrades the
performance of machine learning algorithms. In speech data, causes of this
mismatch include different acoustic environments or speaker characteristics. In
this paper, we address this issue in the challenging context of dysarthric
speech, by multi-source domain/speaker adaptation (MSDA/MSSA). Specifically, we
propose the use of an optimal-transport based approach, called MSDA via
Weighted Joint Optimal Transport (MSDA-WDJOT). We confront the mismatch problem
in dysarthria detection for which the proposed approach outperforms both the
Baseline and the state-of-the-art MSDA models, improving the detection accuracy
of 0.9% over the best competitor method. We then employ MSDA-WJDOT for
dysarthric speaker adaptation in command speech recognition. This provides a
Command Error Rate relative reduction of 16% and 7% over the baseline and the
best competitor model, respectively. Interestingly, MSDA-WJDOT provides a
similarity score between the source and the target, i.e. between speakers in
this case. We leverage this similarity measure to define a Dysarthric and
Healthy score of the target speaker and diagnose the dysarthria with an
accuracy of 95%.
- Abstract(参考訳): 多くの現実世界のアプリケーションでは、トレーニングデータ(ソース)とテストデータ(ターゲット)の分布のミスマッチは、機械学習アルゴリズムのパフォーマンスを著しく低下させる。
音声データでは、このミスマッチの原因には異なる音響環境や話者特性が含まれる。
本稿では,マルチソースドメイン/話者適応(MSDA/MSSA)を用いて,変形性音声の難解な文脈でこの問題に対処する。
具体的には,MSDA-WDJOT (Weighted Joint Optimal Transport) を用いた最適輸送方式を提案する。
本稿では,提案手法がベースラインモデルと最先端MSDAモデルの両方より優れており,最高の競合法よりも0.9%の精度で検出精度が向上する難聴検出におけるミスマッチ問題に直面する。
次に,MSDA-WJDOTを音声コマンド認識における変形性話者適応に用いる。
これにより、ベースラインと最高の競合モデルに対して、コマンドエラー率の相対的な削減がそれぞれ16%と7%になる。
興味深いことに、MSDA-WJDOTはソースとターゲットの類似点を提供する。
この場合の話者間の関係です
この類似度を用いて,対象話者のDysarthric and Healthyスコアを定義し,95%の精度で変形を診断する。
関連論文リスト
- Towards Robust Alignment of Language Models: Distributionally Robustifying Direct Preference Optimization [45.6430987775264]
本研究は、DPO(Direct Preference Optimization)のためのトレーニングデータセットにおけるノイズの課題に対処する。
ノイズを低品質なデータポイントを含むポイントワイズノイズと、誤ったデータペアアソシエーションを含むペアワイズノイズに分類する。
本稿では、最悪の場合のペアワイズシナリオに対して最適化することで、ペアワイズロバストネスを統合した分散ロバスト化DPOを提案する。
論文 参考訳(メタデータ) (2024-07-10T17:48:25Z) - A Study of Dropout-Induced Modality Bias on Robustness to Missing Video
Frames for Audio-Visual Speech Recognition [53.800937914403654]
AVSR(Advanced Audio-Visual Speech Recognition)システムは、欠落したビデオフレームに敏感であることが観察されている。
ビデオモダリティにドロップアウト技術を適用することで、フレーム不足に対するロバスト性が向上する一方、完全なデータ入力を扱う場合、同時に性能損失が発生する。
本稿では,MDA-KD(Multimodal Distribution Approximation with Knowledge Distillation)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-07T06:06:55Z) - Improving Speaker-independent Speech Emotion Recognition Using Dynamic
Joint Distribution Adaptation [15.64999039870125]
話者に依存しない音声感情認識では、様々な話者からトレーニングとテストサンプルが収集される。
トレーニングされたモデルが新しい話者のデータに直面すると、その性能は低下する傾向にある。
マルチソースドメイン適応の枠組みに基づく動的共同分散適応法(DJDA)を提案する。
論文 参考訳(メタデータ) (2024-01-18T06:52:52Z) - A Few-Shot Approach to Dysarthric Speech Intelligibility Level
Classification Using Transformers [0.0]
発声障害(Dysarthria)は、言葉の発音が難しいことによるコミュニケーションを妨げる言語障害である。
文献の多くは、変形性音声に対するASRシステムの改善に焦点を当てている。
この研究は、変形の有無を正確に分類できるモデルを開発することを目的としている。
論文 参考訳(メタデータ) (2023-09-17T17:23:41Z) - Diffusion Denoising Process for Perceptron Bias in Out-of-distribution
Detection [67.49587673594276]
我々は、識別器モデルが入力の特定の特徴に対してより敏感であることを示唆する新しいパーセプトロンバイアスの仮定を導入し、過度な問題を引き起こした。
DMの拡散分解過程 (DDP) が非対称の新たな形態として機能し, 入力を高め, 過信問題を緩和するのに適していることを示す。
CIFAR10, CIFAR100, ImageNetによる実験により, 提案手法がSOTA手法より優れていることが示された。
論文 参考訳(メタデータ) (2022-11-21T08:45:08Z) - A Comparative Study on Speaker-attributed Automatic Speech Recognition
in Multi-party Meetings [53.120885867427305]
会議シナリオにおける話者分散自動音声認識(SA-ASR)の3つのアプローチを評価する。
WD-SOT法は平均話者依存文字誤り率(SD-CER)を10.7%削減する
TS-ASRアプローチはFD-SOTアプローチよりも優れ、16.5%の相対的なSD-CER削減をもたらす。
論文 参考訳(メタデータ) (2022-03-31T06:39:14Z) - On-the-Fly Feature Based Rapid Speaker Adaptation for Dysarthric and
Elderly Speech Recognition [53.17176024917725]
話者レベルのデータの共有化は、データ集約型モデルに基づく話者適応手法の実用的利用を制限する。
本稿では,2種類のデータ効率,特徴量に基づくオンザフライ話者適応手法を提案する。
論文 参考訳(メタデータ) (2022-03-28T09:12:24Z) - Interpretable Dysarthric Speaker Adaptation based on Optimal-Transport [3.903766260291157]
コマンド音声認識における話者適応(SA)に着目し,複数の情報源からのデータを利用できる。
最適トランスポートに基づく教師なしマルチソースドメイン適応(MSDA)アルゴリズムを提案する。
話者非依存モデルに対して,コマンド誤り率を相対的に16%, 7%削減し, 最適な競合手法を提案する。
論文 参考訳(メタデータ) (2022-03-14T14:39:00Z) - Bures Joint Distribution Alignment with Dynamic Margin for Unsupervised
Domain Adaptation [17.06364218327213]
非教師なしドメイン適応(Unsupervised domain adapt, UDA)は、トランスファーラーニングにおける顕著なタスクの1つである。
本稿では,共同分布間のカーネル・ブレス=ヴァッサーシュタイン距離を最小化するアライメント損失項を提案する。
実験により、BJDAは、ほとんどの実験環境で最先端のアルゴリズムよりも優れており、UDAタスクに非常に効果的であることが示された。
論文 参考訳(メタデータ) (2022-03-14T03:20:01Z) - UDALM: Unsupervised Domain Adaptation through Language Modeling [79.73916345178415]
複合分類とマスキング言語モデル損失を用いた微調整手順であるUDALMについて紹介します。
本実験では, 混合損失スケールと利用可能な目標データの量で訓練されたモデルの性能を, 停止基準として有効に用いることを示した。
この方法は、amazon reviewsセンチメントデータセットの12のドメインペアで評価され、9.1.74%の精度が得られ、最先端よりも1.11%の絶対的な改善が得られます。
論文 参考訳(メタデータ) (2021-04-14T19:05:01Z) - Towards a Competitive End-to-End Speech Recognition for CHiME-6 Dinner
Party Transcription [73.66530509749305]
本稿では,難しい場合であっても,ハイブリッドベースラインに近い性能を示すエンドツーエンドアプローチについて論じる。
CTC-Attention と RNN-Transducer のアプローチと RNN と Transformer のアーキテクチャを比較し,解析する。
RNN-Transducerをベースとしたベストエンド・ツー・エンドモデルでは、ビームサーチの改善とともに、LF-MMI TDNN-F CHiME-6 Challengeのベースラインよりも品質が3.8%向上した。
論文 参考訳(メタデータ) (2020-04-22T19:08:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。