論文の概要: Transfer Learning for Robust Low-Resource Children's Speech ASR with
Transformers and Source-Filter Warping
- arxiv url: http://arxiv.org/abs/2206.09396v1
- Date: Sun, 19 Jun 2022 12:57:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-22 18:46:32.736122
- Title: Transfer Learning for Robust Low-Resource Children's Speech ASR with
Transformers and Source-Filter Warping
- Title(参考訳): トランスフォーマおよびソースフィルタワーピングを用いたロバスト低リソース音声asrの転送学習
- Authors: Jenthe Thienpondt and Kris Demuynck
- Abstract要約: 本研究では,成人と子どもの発話の領域ギャップを埋めるために,音声のソースフィルタモデルに基づくデータ拡張手法を提案する。
この拡張戦略を用いて、成人データに基づいて事前学習したTransformerモデルに転送学習を適用する。
このモデルは、最近導入されたXLS-Rアーキテクチャ(wav2vec 2.0モデル)に従っている。
- 参考スコア(独自算出の注目度): 11.584388304271029
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic Speech Recognition (ASR) systems are known to exhibit difficulties
when transcribing children's speech. This can mainly be attributed to the
absence of large children's speech corpora to train robust ASR models and the
resulting domain mismatch when decoding children's speech with systems trained
on adult data. In this paper, we propose multiple enhancements to alleviate
these issues. First, we propose a data augmentation technique based on the
source-filter model of speech to close the domain gap between adult and
children's speech. This enables us to leverage the data availability of adult
speech corpora by making these samples perceptually similar to children's
speech. Second, using this augmentation strategy, we apply transfer learning on
a Transformer model pre-trained on adult data. This model follows the recently
introduced XLS-R architecture, a wav2vec 2.0 model pre-trained on several
cross-lingual adult speech corpora to learn general and robust acoustic
frame-level representations. Adopting this model for the ASR task using adult
data augmented with the proposed source-filter warping strategy and a limited
amount of in-domain children's speech significantly outperforms previous
state-of-the-art results on the PF-STAR British English Children's Speech
corpus with a 4.86% WER on the official test set.
- Abstract(参考訳): 自動音声認識システム (ASR) は, 子どもの発話の書き起こしが困難であることが知られている。
これは主に、大人のデータに基づいて訓練されたシステムで子どもの音声を復号する際に、頑健なASRモデルを訓練する子どもの音声コーパスが存在しないことによる。
本稿では,これらの問題を緩和する複数の拡張を提案する。
まず,成人と子どもの発話の領域ギャップを埋めるために,音声のソースフィルタモデルに基づくデータ拡張手法を提案する。
これにより、これらのサンプルを子供の発話と知覚的に類似させることで、成人音声コーパスのデータ可用性を活用できる。
次に,この拡張戦略を用いて,成人データに事前学習されたトランスフォーマモデルに転送学習を適用する。
このモデルは最近導入されたXLS-Rアーキテクチャに従っており、これは複数の言語間の成人音声コーパスで事前訓練されたwav2vec 2.0モデルで、汎用的でロバストなフレームレベルの表現を学習する。
提案したソース・フィルタ・ワープ・ストラテジーを付加した成人データとドメイン内子どものスピーチを併用したASRタスクへのこのモデルの適用は、公式テストセットの4.86%のWERを持つPF-STAR英国英語幼児音声コーパスにおいて、これまでの最先端の成果を著しく上回っている。
関連論文リスト
- Multi-modal Adversarial Training for Zero-Shot Voice Cloning [9.823246184635103]
実音声特徴と生成音声特徴を条件付きで識別するトランスフォーマーエンコーダデコーダアーキテクチャを提案する。
我々は、FastSpeech2音響モデルに適用し、大規模マルチスピーカーデータセットであるLibriheavyのトレーニングを行うことにより、新しい対角訓練手法を導入する。
本モデルは,音声品質と話者類似度の観点から,ベースラインに対する改善を実現する。
論文 参考訳(メタデータ) (2024-08-28T16:30:41Z) - Improving child speech recognition with augmented child-like speech [20.709414063132627]
言語間の子子間音声変換は、子どものASR性能を著しく改善した。
最先端のASRは、子どものスピーチに最適なパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-06-12T08:56:46Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - Miipher: A Robust Speech Restoration Model Integrating Self-Supervised
Speech and Text Representations [51.89856133895233]
音声復元(SR)は、劣化した音声信号を高品質なものに変換するタスクである。
本研究では、Miipherと呼ばれるロバストなSRモデルを提案し、新しいSRアプリケーションにMiipherを適用する。
SRモデルを様々な劣化に対して堅牢にするために、入力特徴としてw2v-BERTから抽出した音声表現と、PnG-BERTを介して書き起こしから抽出したテキスト表現を言語条件付けとして使用する。
論文 参考訳(メタデータ) (2023-03-03T01:57:16Z) - From English to More Languages: Parameter-Efficient Model Reprogramming
for Cross-Lingual Speech Recognition [50.93943755401025]
言語間音声認識のためのニューラルモデル再プログラミングに基づく新しいパラメータ効率学習フレームワークを提案する。
我々は、学習可能な事前学習機能強化に焦点を当てた、異なる補助的ニューラルネットワークアーキテクチャを設計する。
提案手法は,既存のASRチューニングアーキテクチャとその拡張性能を自己監督的損失で向上させる。
論文 参考訳(メタデータ) (2023-01-19T02:37:56Z) - Improving Children's Speech Recognition by Fine-tuning Self-supervised
Adult Speech Representations [2.2191297646252646]
幼児の音声認識は、包括的音声認識技術を構築する際には不可欠だが、ほとんど見過ごされる領域である。
近年の自己教師型学習の進歩は、このデータ不足の問題を克服する新たな機会を生み出している。
子どもの音声認識のためのモデルを構築するために,自己指導型成人音声表現を活用し,よく知られた幼児音声コーパスを3つ利用した。
論文 参考訳(メタデータ) (2022-11-14T22:03:36Z) - Enhanced Direct Speech-to-Speech Translation Using Self-supervised
Pre-training and Data Augmentation [76.13334392868208]
直接音声音声変換(S2ST)モデルは、データ不足の問題に悩まされる。
本研究では,この課題に対処するために,ラベルのない音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
論文 参考訳(メタデータ) (2022-04-06T17:59:22Z) - ASR data augmentation in low-resource settings using cross-lingual
multi-speaker TTS and cross-lingual voice conversion [49.617722668505834]
提案手法は,モデル学習中に1つの話者のみを用いて音声合成と音声変換を行い,ASRシステムの改善を可能にする。
対象言語における1つの実話者のみを用いてデータ拡張法を用いて、有望なASRトレーニング結果を得ることが可能である。
論文 参考訳(メタデータ) (2022-03-29T11:55:30Z) - WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech
Processing [102.45426364965887]
そこで本研究では,フルスタックダウンストリーム音声タスクを解決するための,事前学習型モデルWavLMを提案する。
WavLMはHuBERTフレームワークに基づいて構築されており、音声コンテンツモデリングと話者アイデンティティ保存の両方に重点を置いている。
トレーニングデータセットを60k時間から94k時間までの公開オーディオデータにスケールアップし、そのトレーニング手順を最適化して表現抽出を改善する。
論文 参考訳(メタデータ) (2021-10-26T17:55:19Z) - Data augmentation using prosody and false starts to recognize non-native
children's speech [12.911954427107977]
本稿では,AaltoASRによるInterSPEECH 2020共有音声認識タスクのための音声認識システムについて述べる。
本研究の課題は, 年齢の異なる子どもから, 限られた発話量で非母国語を識別することである。
論文 参考訳(メタデータ) (2020-08-29T05:32:32Z) - Generative Adversarial Training Data Adaptation for Very Low-resource
Automatic Speech Recognition [31.808145263757105]
我々は、CycleGANベースの非並列音声変換技術を用いて、テスト話者の音声に近いラベル付きトレーニングデータをフォージする。
AinuとMboshiの2つの低リソースコーパスに対する話者適応手法の評価を行った。
論文 参考訳(メタデータ) (2020-05-19T07:35:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。