論文の概要: DyPCL: Dynamic Phoneme-level Contrastive Learning for Dysarthric Speech Recognition
- arxiv url: http://arxiv.org/abs/2501.19010v1
- Date: Fri, 31 Jan 2025 10:25:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-03 14:00:57.643045
- Title: DyPCL: Dynamic Phoneme-level Contrastive Learning for Dysarthric Speech Recognition
- Title(参考訳): DyPCL:Dysarthric Speech Recognitionのための動的音素レベルのコントラスト学習
- Authors: Wonjun Lee, Solee Im, Heejin Do, Yunsu Kim, Jungseul Ok, Gary Geunbae Lee,
- Abstract要約: 変形性音声認識のギャップを埋める動的音素レベルのコントラスト学習(DyPCL)法を提案する。
音声の発話を音素レベルのコントラスト学習のための音素セグメントに分解し、動的接続性時間的分類アライメントを活用する。
難易度による訓練への我々のアプローチは、話者の固有の多様性を軽減し、難易度の高い発話を識別する。
- 参考スコア(独自算出の注目度): 12.923409319624254
- License:
- Abstract: Dysarthric speech recognition often suffers from performance degradation due to the intrinsic diversity of dysarthric severity and extrinsic disparity from normal speech. To bridge these gaps, we propose a Dynamic Phoneme-level Contrastive Learning (DyPCL) method, which leads to obtaining invariant representations across diverse speakers. We decompose the speech utterance into phoneme segments for phoneme-level contrastive learning, leveraging dynamic connectionist temporal classification alignment. Unlike prior studies focusing on utterance-level embeddings, our granular learning allows discrimination of subtle parts of speech. In addition, we introduce dynamic curriculum learning, which progressively transitions from easy negative samples to difficult-to-distinguishable negative samples based on phonetic similarity of phoneme. Our approach to training by difficulty levels alleviates the inherent variability of speakers, better identifying challenging speeches. Evaluated on the UASpeech dataset, DyPCL outperforms baseline models, achieving an average 22.10\% relative reduction in word error rate (WER) across the overall dysarthria group.
- Abstract(参考訳): 変形性音声認識は, 変形性難聴の内在的な多様性と, 正常な発話と外因性相違により, 性能劣化に悩まされることが多い。
これらのギャップを埋めるために,動的音素レベルのコントラスト学習(DyPCL)手法を提案する。
音声の発話を音素レベルのコントラスト学習のための音素セグメントに分解し、動的接続性時間的分類アライメントを活用する。
発話レベルの埋め込みに焦点を当てた従来の研究とは異なり、粒度学習は音声の微妙な部分の識別を可能にする。
さらに,音素の音韻的類似性に基づいて,簡単な負のサンプルから識別し難い負のサンプルへと段階的に遷移する動的カリキュラム学習を導入する。
難易度による学習への我々のアプローチは、話者の固有の多様性を軽減し、難易度の高い発話を識別する。
UASpeechデータセットに基づいて評価すると、DyPCLはベースラインモデルよりも優れており、全変形性群全体で平均22.10\%の単語誤り率(WER)が減少する。
関連論文リスト
- Neural approaches to spoken content embedding [1.3706331473063877]
我々は、リカレントニューラルネットワーク(RNN)に基づく新しい識別的音響単語埋め込み(AWE)と音響的接地単語埋め込み(AGWE)アプローチに貢献する。
我々は,単言語と多言語の両方の埋め込みモデルを,クエリ・バイ・サンプル音声検索と自動音声認識の下流タスクに適用する。
論文 参考訳(メタデータ) (2023-08-28T21:16:08Z) - Improving the Gap in Visual Speech Recognition Between Normal and Silent
Speech Based on Metric Learning [11.50011780498048]
本稿では,視覚音声認識(VSR)における正常音声と無声音声のパフォーマンスギャップに対処する新しい距離学習手法を提案する。
本稿では,通常の音声とサイレント音声の共有リテラルコンテンツを活用し,ビセムに基づく計量学習手法を提案する。
本手法は,限られた訓練データであってもサイレントVSRの精度が向上することを示す。
論文 参考訳(メタデータ) (2023-05-23T16:20:46Z) - Self-supervised Fine-tuning for Improved Content Representations by
Speaker-invariant Clustering [78.2927924732142]
話者不変クラスタリング(Spin)を自己教師付き学習手法として提案する。
Spinは、単一のGPU上で45分間の微調整で、スピーカー情報を切り離し、コンテンツ表現を保存する。
論文 参考訳(メタデータ) (2023-05-18T15:59:36Z) - Toward Fairness in Speech Recognition: Discovery and mitigation of
performance disparities [10.917512121301135]
製品規模のAIアシスタント音声認識システムから得られたデータを用いて,性能格差の発見と緩和の両面での最初の発見を報告する。
公平さを緩和するために、表現不足のコホートのオーバーサンプリングや、追加入力変数による話者コホートメンバシップのモデル化は、トップとボトムのパフォーマンスのコホート間のギャップを減少させる。
論文 参考訳(メタデータ) (2022-07-22T21:33:29Z) - Deep Neural Convolutive Matrix Factorization for Articulatory
Representation Decomposition [48.56414496900755]
この研究は、コンボリューティブスパース行列分解のニューラル実装を用いて、調音データを解釈可能なジェスチャーとジェスチャースコアに分解する。
音素認識実験も実施され、ジェスチャースコアが実際に音韻情報のコード化に成功していることが示された。
論文 参考訳(メタデータ) (2022-04-01T14:25:19Z) - Investigation of Data Augmentation Techniques for Disordered Speech
Recognition [69.50670302435174]
本稿では,不規則音声認識のための一連のデータ拡張手法について検討する。
正常な音声と無秩序な音声の両方が増強過程に利用された。
UASpeechコーパスを用いた最終話者適応システムと、最大2.92%の絶対単語誤り率(WER)の速度摂動に基づく最良の拡張アプローチ
論文 参考訳(メタデータ) (2022-01-14T17:09:22Z) - Comparing Supervised Models And Learned Speech Representations For
Classifying Intelligibility Of Disordered Speech On Selected Phrases [11.3463024120429]
提案手法は,選択したフレーズに対して,混乱した音声の理解度を分類するために,異なる深層学習手法を開発し,比較する。
各種自己申告障害を有する661人の話者から29の単語やフレーズを発話するサンプルを収集した。
論文 参考訳(メタデータ) (2021-07-08T17:24:25Z) - VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised
Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。
コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。
実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文 参考訳(メタデータ) (2021-06-18T13:50:38Z) - UniSpeech: Unified Speech Representation Learning with Labeled and
Unlabeled Data [54.733889961024445]
ラベル付きデータとラベル付きデータの両方を用いて音声表現を学習するためのUniSpeechという統合事前学習手法を提案する。
公立CommonVoiceコーパス上での言語間表現学習におけるUniSpeechの有効性を評価する。
論文 参考訳(メタデータ) (2021-01-19T12:53:43Z) - Learning Explicit Prosody Models and Deep Speaker Embeddings for
Atypical Voice Conversion [60.808838088376675]
本稿では,明示的な韻律モデルと深層話者埋め込み学習を用いたVCシステムを提案する。
韻律補正器は音素埋め込みを取り入れ、典型的な音素持続時間とピッチ値を推定する。
変換モデルは、音素埋め込みと典型的な韻律特徴を入力として、変換された音声を生成する。
論文 参考訳(メタデータ) (2020-11-03T13:08:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。