論文の概要: Senone-aware Adversarial Multi-task Training for Unsupervised Child to
Adult Speech Adaptation
- arxiv url: http://arxiv.org/abs/2102.11488v1
- Date: Tue, 23 Feb 2021 04:49:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-25 13:26:10.243827
- Title: Senone-aware Adversarial Multi-task Training for Unsupervised Child to
Adult Speech Adaptation
- Title(参考訳): senone-aware adversarial multi-task training for unsupervised child to adult speech adapt
- Authors: Richeng Duan, Nancy F. Chen
- Abstract要約: 本研究では,成人音声と幼児音声のセノンレベルにおける音響ミスマッチを最小限に抑える特徴適応手法を提案する。
提案手法は, 児童音声認識, 児童発音評価, 児童流動度スコア予測の3つのタスクで検証した。
- 参考スコア(独自算出の注目度): 26.065719754453823
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Acoustic modeling for child speech is challenging due to the high acoustic
variability caused by physiological differences in the vocal tract. The dearth
of publicly available datasets makes the task more challenging. In this work,
we propose a feature adaptation approach by exploiting adversarial multi-task
training to minimize acoustic mismatch at the senone (tied triphone states)
level between adult and child speech and leverage large amounts of transcribed
adult speech. We validate the proposed method on three tasks: child speech
recognition, child pronunciation assessment, and child fluency score
prediction. Empirical results indicate that our proposed approach consistently
outperforms competitive baselines, achieving 7.7% relative error reduction on
speech recognition and up to 25.2% relative gains on the evaluation tasks.
- Abstract(参考訳): 声道の生理的差異に起因する高い音響的変動のため,子音の音響的モデリングは困難である。
公開データセットの不足により、タスクはより困難になります。
そこで本研究では,成人音声と小児音声のセノンレベルにおける音響ミスマッチを最小限に抑えるために,多タスク学習を逆行する特徴適応手法を提案し,大量の書き起こし成人音声を活用する。
提案手法は, 児童音声認識, 児童発音評価, 児童流動度スコア予測の3つのタスクで検証した。
実験の結果,提案手法は競争ベースラインを一貫して上回り,音声認識における相対誤差の7.7%,評価タスクにおける最大25.2%の相対利得を達成した。
関連論文リスト
- Evaluation of state-of-the-art ASR Models in Child-Adult Interactions [27.30130353688078]
音声基礎モデルでは, 成人の発話と比較して, 子どもの発話に対する顕著な性能低下(15-20%絶対WER)がみられた。
低資源環境下での微調整の有効性を探索するために,最良性能のゼロショットモデル(Whisper-large)にLoRAを用いる。
論文 参考訳(メタデータ) (2024-09-24T14:42:37Z) - Empowering Whisper as a Joint Multi-Talker and Target-Talker Speech Recognition System [73.34663391495616]
本稿では,複数話者と目標話者の音声認識タスクを併用する先駆的手法を提案する。
具体的には、Whisperを凍結し、Sidecarセパレータをエンコーダに差し込み、複数の話者に対する混合埋め込みを分離する。
AishellMix Mandarin データセット上で,マルチストーカー ASR 上で許容できるゼロショット性能を提供する。
論文 参考訳(メタデータ) (2024-07-13T09:28:24Z) - Exploring Speech Foundation Models for Speaker Diarization in Child-Adult Dyadic Interactions [28.5211771482547]
模範音声基礎モデルでは, ダイアリゼーション誤差率と話者融合率を39.5%, 62.3%削減できることを示す。
本研究は, 子どもの発話理解を促進するために, 音声基盤モデルを理解し, 導入するための有望な経路を明らかにするものである。
論文 参考訳(メタデータ) (2024-06-12T05:41:01Z) - Use of Speech Impairment Severity for Dysarthric Speech Recognition [37.93801885333925]
本稿では, 難易度と話者識別性を両立させる新しい手法を提案する。
UASpeechの実験では、最先端のハイブリッドDNN、E2E Conformer、事前訓練されたWav2vec 2.0 ASRシステムに音声障害の重大度を組み込むことが提案されている。
論文 参考訳(メタデータ) (2023-05-18T02:42:59Z) - Improving Children's Speech Recognition by Fine-tuning Self-supervised
Adult Speech Representations [2.2191297646252646]
幼児の音声認識は、包括的音声認識技術を構築する際には不可欠だが、ほとんど見過ごされる領域である。
近年の自己教師型学習の進歩は、このデータ不足の問題を克服する新たな機会を生み出している。
子どもの音声認識のためのモデルを構築するために,自己指導型成人音声表現を活用し,よく知られた幼児音声コーパスを3つ利用した。
論文 参考訳(メタデータ) (2022-11-14T22:03:36Z) - Speaker- and Age-Invariant Training for Child Acoustic Modeling Using
Adversarial Multi-Task Learning [19.09026965041249]
対話型マルチタスク学習に基づく話者・年齢不変学習手法を提案する。
このシステムはOGI音声コーパスに適用され,ASRのWERを13%削減した。
論文 参考訳(メタデータ) (2022-10-19T01:17:40Z) - Speaker Identity Preservation in Dysarthric Speech Reconstruction by
Adversarial Speaker Adaptation [59.41186714127256]
変形性音声再建(DSR)は,変形性音声の品質向上を目的としている。
話者識別に最適化された話者エンコーダ (SE) について検討した。
我々は,新しいマルチタスク学習戦略,すなわち対人話者適応(ASA)を提案する。
論文 参考訳(メタデータ) (2022-02-18T08:59:36Z) - Investigation of Data Augmentation Techniques for Disordered Speech
Recognition [69.50670302435174]
本稿では,不規則音声認識のための一連のデータ拡張手法について検討する。
正常な音声と無秩序な音声の両方が増強過程に利用された。
UASpeechコーパスを用いた最終話者適応システムと、最大2.92%の絶対単語誤り率(WER)の速度摂動に基づく最良の拡張アプローチ
論文 参考訳(メタデータ) (2022-01-14T17:09:22Z) - A Preliminary Study of a Two-Stage Paradigm for Preserving Speaker
Identity in Dysarthric Voice Conversion [50.040466658605524]
変形性音声変換(DVC)における話者同一性維持のための新しいパラダイムを提案する。
変形性音声の質は統計VCによって大幅に改善される。
しかし, 変形性関節症患者の通常の発話は, ほとんど収集できないため, 過去の研究は患者の個性を取り戻すことはできなかった。
論文 参考訳(メタデータ) (2021-06-02T18:41:03Z) - UniSpeech: Unified Speech Representation Learning with Labeled and
Unlabeled Data [54.733889961024445]
ラベル付きデータとラベル付きデータの両方を用いて音声表現を学習するためのUniSpeechという統合事前学習手法を提案する。
公立CommonVoiceコーパス上での言語間表現学習におけるUniSpeechの有効性を評価する。
論文 参考訳(メタデータ) (2021-01-19T12:53:43Z) - Learning Explicit Prosody Models and Deep Speaker Embeddings for
Atypical Voice Conversion [60.808838088376675]
本稿では,明示的な韻律モデルと深層話者埋め込み学習を用いたVCシステムを提案する。
韻律補正器は音素埋め込みを取り入れ、典型的な音素持続時間とピッチ値を推定する。
変換モデルは、音素埋め込みと典型的な韻律特徴を入力として、変換された音声を生成する。
論文 参考訳(メタデータ) (2020-11-03T13:08:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。