論文の概要: Cross-Learning Fine-Tuning Strategy for Dysarthric Speech Recognition Via CDSD database
- arxiv url: http://arxiv.org/abs/2508.18732v1
- Date: Tue, 26 Aug 2025 07:00:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-27 17:42:38.712148
- Title: Cross-Learning Fine-Tuning Strategy for Dysarthric Speech Recognition Via CDSD database
- Title(参考訳): CDSDデータベースを用いた外科的音声認識のためのクロスラーニングファインチューニング戦略
- Authors: Qing Xiao, Yingshan Peng, PeiPei Zhang,
- Abstract要約: 外科的音声認識は, 正常な発話に対する重度変化と相違から, 課題に直面している。
従来のアプローチでは、患者1人当たりの正常な音声で事前訓練された、個々の微調整のASRモデルを使用して、特徴的衝突を防ぐ。
実験により,複数話者の微調整が個々の音声パターンの認識を改善することが明らかとなった。
- 参考スコア(独自算出の注目度): 7.78293690567929
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dysarthric speech recognition faces challenges from severity variations and disparities relative to normal speech. Conventional approaches individually fine-tune ASR models pre-trained on normal speech per patient to prevent feature conflicts. Counter-intuitively, experiments reveal that multi-speaker fine-tuning (simultaneously on multiple dysarthric speakers) improves recognition of individual speech patterns. This strategy enhances generalization via broader pathological feature learning, mitigates speaker-specific overfitting, reduces per-patient data dependence, and improves target-speaker accuracy - achieving up to 13.15% lower WER versus single-speaker fine-tuning.
- Abstract(参考訳): 外科的音声認識は, 正常な発話に対する重度変化と相違から, 課題に直面している。
従来のアプローチでは、患者1人当たりの正常な音声で事前訓練された、個々の微調整のASRモデルを使用して、特徴的衝突を防ぐ。
反故意に、複数話者の微調整(同時に複数の変形性スピーカー)が個々の音声パターンの認識を改善することが示されている。
この戦略は、より広い病理的特徴学習による一般化を促進し、話者固有のオーバーフィッティングを緩和し、患者ごとのデータ依存を低減し、ターゲット・スピーカーの精度を最大13.15%向上させる。
関連論文リスト
- Perceiver-Prompt: Flexible Speaker Adaptation in Whisper for Chinese Disordered Speech Recognition [40.44769351506048]
Perceiver-PromptはWhisperの大規模モデル上でP-Tuningを利用する話者適応手法である。
我々はまずLoRAを用いてWhisperを微調整し、次にトレーニング可能なPerceiverを統合して可変長入力から固定長話者プロンプトを生成する。
論文 参考訳(メタデータ) (2024-06-14T09:36:46Z) - Hypernetworks for Personalizing ASR to Atypical Speech [7.486694572792521]
メタ学習型ハイパーネットワークを用いて,多種多様な非定型音声特性に対して,高度に個別化された発話レベル適応を生成する。
ハイパーネットは,全パラメータ予算の0.1%を用いて,WERの相対的な75.2%削減を維持しつつ,分布外話者よりも一般化されていることを示す。
論文 参考訳(メタデータ) (2024-06-06T16:39:00Z) - Exploring Speech Pattern Disorders in Autism using Machine Learning [12.469348589699766]
本研究は, 被験者と患者との対話の分析を通じて, 独特の音声パターンを識別するための包括的アプローチを提案する。
我々は,40の音声関連特徴を抽出し,周波数,ゼロクロス速度,エネルギー,スペクトル特性,メル周波数ケプストラル係数(MFCC),バランスに分類した。
分類モデルはASDと非ASDを区別することを目的としており、精度は87.75%である。
論文 参考訳(メタデータ) (2024-05-03T02:59:15Z) - Use of Speech Impairment Severity for Dysarthric Speech Recognition [37.93801885333925]
本稿では, 難易度と話者識別性を両立させる新しい手法を提案する。
UASpeechの実験では、最先端のハイブリッドDNN、E2E Conformer、事前訓練されたWav2vec 2.0 ASRシステムに音声障害の重大度を組み込むことが提案されている。
論文 参考訳(メタデータ) (2023-05-18T02:42:59Z) - A Comparative Study on Speaker-attributed Automatic Speech Recognition
in Multi-party Meetings [53.120885867427305]
会議シナリオにおける話者分散自動音声認識(SA-ASR)の3つのアプローチを評価する。
WD-SOT法は平均話者依存文字誤り率(SD-CER)を10.7%削減する
TS-ASRアプローチはFD-SOTアプローチよりも優れ、16.5%の相対的なSD-CER削減をもたらす。
論文 参考訳(メタデータ) (2022-03-31T06:39:14Z) - On-the-Fly Feature Based Rapid Speaker Adaptation for Dysarthric and
Elderly Speech Recognition [53.17176024917725]
話者レベルのデータの共有化は、データ集約型モデルに基づく話者適応手法の実用的利用を制限する。
本稿では,2種類のデータ効率,特徴量に基づくオンザフライ話者適応手法を提案する。
論文 参考訳(メタデータ) (2022-03-28T09:12:24Z) - Speaker Identity Preservation in Dysarthric Speech Reconstruction by
Adversarial Speaker Adaptation [59.41186714127256]
変形性音声再建(DSR)は,変形性音声の品質向上を目的としている。
話者識別に最適化された話者エンコーダ (SE) について検討した。
我々は,新しいマルチタスク学習戦略,すなわち対人話者適応(ASA)を提案する。
論文 参考訳(メタデータ) (2022-02-18T08:59:36Z) - Investigation of Data Augmentation Techniques for Disordered Speech
Recognition [69.50670302435174]
本稿では,不規則音声認識のための一連のデータ拡張手法について検討する。
正常な音声と無秩序な音声の両方が増強過程に利用された。
UASpeechコーパスを用いた最終話者適応システムと、最大2.92%の絶対単語誤り率(WER)の速度摂動に基づく最良の拡張アプローチ
論文 参考訳(メタデータ) (2022-01-14T17:09:22Z) - A Preliminary Study of a Two-Stage Paradigm for Preserving Speaker
Identity in Dysarthric Voice Conversion [50.040466658605524]
変形性音声変換(DVC)における話者同一性維持のための新しいパラダイムを提案する。
変形性音声の質は統計VCによって大幅に改善される。
しかし, 変形性関節症患者の通常の発話は, ほとんど収集できないため, 過去の研究は患者の個性を取り戻すことはできなかった。
論文 参考訳(メタデータ) (2021-06-02T18:41:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。