論文の概要: Speaker- and Age-Invariant Training for Child Acoustic Modeling Using
Adversarial Multi-Task Learning
- arxiv url: http://arxiv.org/abs/2210.10231v1
- Date: Wed, 19 Oct 2022 01:17:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-20 15:12:22.368533
- Title: Speaker- and Age-Invariant Training for Child Acoustic Modeling Using
Adversarial Multi-Task Learning
- Title(参考訳): 敵対的マルチタスク学習を用いた幼児音響モデルのための話者・年齢不変学習
- Authors: Mostafa Shahin, Beena Ahmed, and Julien Epps
- Abstract要約: 対話型マルチタスク学習に基づく話者・年齢不変学習手法を提案する。
このシステムはOGI音声コーパスに適用され,ASRのWERを13%削減した。
- 参考スコア(独自算出の注目度): 19.09026965041249
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: One of the major challenges in acoustic modelling of child speech is the
rapid changes that occur in the children's articulators as they grow up, their
differing growth rates and the subsequent high variability in the same age
group. These high acoustic variations along with the scarcity of child speech
corpora have impeded the development of a reliable speech recognition system
for children. In this paper, a speaker- and age-invariant training approach
based on adversarial multi-task learning is proposed. The system consists of
one generator shared network that learns to generate speaker- and age-invariant
features connected to three discrimination networks, for phoneme, age, and
speaker. The generator network is trained to minimize the
phoneme-discrimination loss and maximize the speaker- and age-discrimination
losses in an adversarial multi-task learning fashion. The generator network is
a Time Delay Neural Network (TDNN) architecture while the three discriminators
are feed-forward networks. The system was applied to the OGI speech corpora and
achieved a 13% reduction in the WER of the ASR.
- Abstract(参考訳): 幼児音声の音響モデル化における大きな課題の1つは、成長に伴う子どもの調音器の急速な変化、成長速度の違い、そしてそれに続く同年齢層における高い変動である。
これらの高い音響的変化と子音コーパスの不足は、子供向けの信頼性の高い音声認識システムの開発を妨げている。
本稿では,対向型マルチタスク学習に基づく話者・年齢不変学習手法を提案する。
このシステムは、1つのジェネレータ共有ネットワークから成り、音素、年齢、話者の3つの識別ネットワークに接続された話者および年齢不変な特徴を生成する。
ジェネレータネットワークは、音素識別損失を最小化し、反対のマルチタスク学習方式における話者および年齢識別損失を最大化するように訓練される。
ジェネレータネットワークは時間遅延ニューラルネットワーク(tdnn)アーキテクチャであり、3つの識別器はフィードフォワードネットワークである。
このシステムはOGI音声コーパスに適用され,ASRのWERを13%削減した。
関連論文リスト
- Multi-modal Adversarial Training for Zero-Shot Voice Cloning [9.823246184635103]
実音声特徴と生成音声特徴を条件付きで識別するトランスフォーマーエンコーダデコーダアーキテクチャを提案する。
我々は、FastSpeech2音響モデルに適用し、大規模マルチスピーカーデータセットであるLibriheavyのトレーニングを行うことにより、新しい対角訓練手法を導入する。
本モデルは,音声品質と話者類似度の観点から,ベースラインに対する改善を実現する。
論文 参考訳(メタデータ) (2024-08-28T16:30:41Z) - UNIT-DSR: Dysarthric Speech Reconstruction System Using Speech Unit
Normalization [60.43992089087448]
変形性音声再構成システムは、変形性音声を正常な音声に変換することを目的としている。
本稿では,HuBERTのドメイン適応能力を活用して学習効率を向上させるユニットDSRシステムを提案する。
NEDアプローチと比較すると、ユニットDSRシステムは音声単位正規化器とユニットHiFi-GANボコーダのみで構成されている。
論文 参考訳(メタデータ) (2024-01-26T06:08:47Z) - Leveraging Speaker Embeddings with Adversarial Multi-task Learning for
Age Group Classification [0.0]
本研究では, 対人多タスク学習から派生した話者識別型埋め込みを用いて, 年齢層における特徴の整合とドメイン差の低減を図る。
VoxCeleb Enrichment データセットの実験結果から,多目的シナリオにおける適応型対向ネットワークの有効性が検証された。
論文 参考訳(メタデータ) (2023-01-22T05:01:13Z) - Multi-Task Adversarial Training Algorithm for Multi-Speaker Neural
Text-to-Speech [29.34041347120446]
従来のGANに基づく学習アルゴリズムは,合成音声の品質を著しく向上させる。
本稿では,マルチタスク逆学習に基づくマルチ話者ニューラルテキスト音声(TTS)モデルの新たなトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-09-26T10:10:40Z) - Exploiting Cross-domain And Cross-Lingual Ultrasound Tongue Imaging
Features For Elderly And Dysarthric Speech Recognition [55.25565305101314]
調音機能は音響信号歪みに不変であり、音声認識システムにうまく組み込まれている。
本稿では,A2Aモデルにおける24時間TaLコーパスの並列音声・超音波舌画像(UTI)データを利用したクロスドメインおよびクロスランガルA2Aインバージョン手法を提案する。
生成した調音機能を組み込んだ3つのタスクの実験は、ベースラインのTDNNとコンフォーマーASRシステムより一貫して優れていた。
論文 参考訳(メタデータ) (2022-06-15T07:20:28Z) - Speaker Identity Preservation in Dysarthric Speech Reconstruction by
Adversarial Speaker Adaptation [59.41186714127256]
変形性音声再建(DSR)は,変形性音声の品質向上を目的としている。
話者識別に最適化された話者エンコーダ (SE) について検討した。
我々は,新しいマルチタスク学習戦略,すなわち対人話者適応(ASA)を提案する。
論文 参考訳(メタデータ) (2022-02-18T08:59:36Z) - Recent Progress in the CUHK Dysarthric Speech Recognition System [66.69024814159447]
障害音声は、現在のデータ集約型ディープニューラルネットワーク(DNN)に基づく自動音声認識技術に対して、幅広い課題を提示している。
本稿では,香港の中国大学における音声認識システムの性能向上に向けた最近の研究成果について述べる。
論文 参考訳(メタデータ) (2022-01-15T13:02:40Z) - Investigation of Data Augmentation Techniques for Disordered Speech
Recognition [69.50670302435174]
本稿では,不規則音声認識のための一連のデータ拡張手法について検討する。
正常な音声と無秩序な音声の両方が増強過程に利用された。
UASpeechコーパスを用いた最終話者適応システムと、最大2.92%の絶対単語誤り率(WER)の速度摂動に基づく最良の拡張アプローチ
論文 参考訳(メタデータ) (2022-01-14T17:09:22Z) - Senone-aware Adversarial Multi-task Training for Unsupervised Child to
Adult Speech Adaptation [26.065719754453823]
本研究では,成人音声と幼児音声のセノンレベルにおける音響ミスマッチを最小限に抑える特徴適応手法を提案する。
提案手法は, 児童音声認識, 児童発音評価, 児童流動度スコア予測の3つのタスクで検証した。
論文 参考訳(メタデータ) (2021-02-23T04:49:27Z) - Augmentation adversarial training for self-supervised speaker
recognition [49.47756927090593]
話者ラベルのない頑健な話者認識モデルを訓練する。
VoxCelebとVOiCESデータセットの実験は、セルフスーパービジョンを使用した以前の作業よりも大幅に改善されている。
論文 参考訳(メタデータ) (2020-07-23T15:49:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。