論文の概要: On-the-Fly Aligned Data Augmentation for Sequence-to-Sequence ASR
- arxiv url: http://arxiv.org/abs/2104.01393v1
- Date: Sat, 3 Apr 2021 13:00:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-06 14:31:10.298633
- Title: On-the-Fly Aligned Data Augmentation for Sequence-to-Sequence ASR
- Title(参考訳): シーケンス対シーケンスASRのためのオンザフライアライメントデータ拡張
- Authors: Tsz Kin Lam, Mayumi Ohta, Shigehiko Schamoni, Stefan Riezler
- Abstract要約: 自動音声認識(ASR)のためのオンザフライデータ拡張手法を提案する。
ASRのAligned Data Augmentation(ADA)と呼ばれる私たちのメソッドは、トランスクリプトされたトークンと音声表現を整列した方法で置き換えて、トレーニングペアを生成します。
- 参考スコア(独自算出の注目度): 10.261890123213622
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose an on-the-fly data augmentation method for automatic speech
recognition (ASR) that uses alignment information to generate effective
training samples. Our method, called Aligned Data Augmentation (ADA) for ASR,
replaces transcribed tokens and the speech representations in an aligned manner
to generate previously unseen training pairs. The speech representations are
sampled from an audio dictionary that has been extracted from the training
corpus and inject speaker variations into the training examples. The
transcribed tokens are either predicted by a language model such that the
augmented data pairs are semantically close to the original data, or randomly
sampled. Both strategies result in training pairs that improve robustness in
ASR training. Our experiments on a Seq-to-Seq architecture show that ADA can be
applied on top of SpecAugment, and achieves about 9-23% and 4-15% relative
improvements in WER over SpecAugment alone on LibriSpeech 100h and LibriSpeech
960h test datasets, respectively.
- Abstract(参考訳): 本稿では,アライメント情報を用いて効果的な学習サンプルを生成する自動音声認識(asr)のためのオンザフライデータ拡張手法を提案する。
ASRのためのアラインドデータ拡張(ADA)と呼ばれるこの手法は、書き起こされたトークンと音声表現を整列的に置き換えて、それまで目に見えないトレーニングペアを生成する。
音声表現は、トレーニングコーパスから抽出された音声辞書からサンプリングされ、トレーニング例に話者変動を注入する。
転写されたトークンは言語モデルによって予測され、拡張されたデータペアが元のデータに意味的に近いか、ランダムにサンプリングされる。
どちらの戦略も、asrトレーニングのロバスト性を改善するトレーニングペアをもたらす。
Seq-to-Seqアーキテクチャの実験により、ADAはSpecAugmentの上に適用でき、それぞれLibriSpeech 100h と LibriSpeech 960h のテストデータセット上で、SpecAugment よりも約 9-23% と 4-15% の改善が達成された。
関連論文リスト
- Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。
我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。
提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文 参考訳(メタデータ) (2024-03-14T01:16:32Z) - TokenSplit: Using Discrete Speech Representations for Direct, Refined,
and Transcript-Conditioned Speech Separation and Recognition [51.565319173790314]
TokenSplit は Transformer アーキテクチャを使用するシーケンス・ツー・シーケンス・エンコーダ・デコーダモデルである。
また,本モデルでは,書き起こし条件付けの有無にかかわらず,分離の点で優れた性能を発揮することを示す。
また、自動音声認識(ASR)の性能を測定し、音声合成の音声サンプルを提供し、我々のモデルの有用性を実証する。
論文 参考訳(メタデータ) (2023-08-21T01:52:01Z) - Lip2Vec: Efficient and Robust Visual Speech Recognition via
Latent-to-Latent Visual to Audio Representation Mapping [4.271091833712731]
従来のモデルから学習するシンプルなアプローチであるLip2Vecを提案する。
提案手法は LRS3 データセット上で26 WER を達成する完全教師付き学習法と比較した。
我々は、VSRをASRタスクとして再プログラムすることで、両者のパフォーマンスギャップを狭め、より柔軟な唇読解法を構築することができると考えている。
論文 参考訳(メタデータ) (2023-08-11T12:59:02Z) - Towards Selection of Text-to-speech Data to Augment ASR Training [20.115236045164355]
ニューラルネットワークをトレーニングして、合成データの実際の音声との類似性を計測する。
音声認識性能を高めるためには, 実音声とはかなりの相似性を持つ合成サンプルを組み込むことが重要である。
論文 参考訳(メタデータ) (2023-05-30T17:24:28Z) - Continual Learning for On-Device Speech Recognition using Disentangled
Conformers [54.32320258055716]
本稿では,LibriVoxオーディオブックから派生した話者固有領域適応のための連続学習ベンチマークを提案する。
本稿では,DistangledCLと呼ばれる計算効率のよい連続学習アルゴリズムを提案する。
実験の結果, DisConformer モデルは一般的な ASR のベースラインよりも有意に優れていた。
論文 参考訳(メタデータ) (2022-12-02T18:58:51Z) - Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo
Languages [58.43299730989809]
本稿では,音声データに対するエンコーダ・デコーダモデルの両部分を事前学習するための,最初の自己教師型アプローチであるWav2Seqを紹介する。
我々は、コンパクトな離散表現として擬似言語を誘導し、自己教師付き擬似音声認識タスクを定式化する。
このプロセスは独自のものであり、低コストの第2段階のトレーニングとして適用することができる。
論文 参考訳(メタデータ) (2022-05-02T17:59:02Z) - Enhanced Direct Speech-to-Speech Translation Using Self-supervised
Pre-training and Data Augmentation [76.13334392868208]
直接音声音声変換(S2ST)モデルは、データ不足の問題に悩まされる。
本研究では,この課題に対処するために,ラベルのない音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
論文 参考訳(メタデータ) (2022-04-06T17:59:22Z) - A Complementary Joint Training Approach Using Unpaired Speech and Text
for Low-Resource Automatic Speech Recognition [25.473191378558138]
非ペアデータを利用して、一般的なシーケンス・ツー・シーケンスモデルをトレーニングする。
音声-疑似ラベルペアと合成音声テキストペアの相補性に着想を得て,補足的関節訓練(CJT)法を提案する。
論文 参考訳(メタデータ) (2022-04-05T07:02:53Z) - Improving Punctuation Restoration for Speech Transcripts via External
Data [1.4335946386597276]
ノイズのあるテキストに特化して句読解問題に取り組む。
我々は、n-gram言語モデルに基づくデータサンプリング手法を導入し、より多くのトレーニングデータをサンプリングする。
提案手法は1:12%のF1スコアでベースラインを上回っている。
論文 参考訳(メタデータ) (2021-10-01T17:40:55Z) - Direct speech-to-speech translation with discrete units [64.19830539866072]
本稿では、中間テキスト生成に頼ることなく、ある言語から別の言語に音声を変換する直接音声音声翻訳(S2ST)モデルを提案する。
そこで本稿では,ラベルなし音声コーパスから学習した自己教師付き離散表現の予測を提案する。
対象のテキスト書き起こしが利用可能となると、同一の推論パスで2つのモード出力(音声とテキスト)を同時に生成できる、共同音声認識とテキストトレーニングを備えたマルチタスク学習フレームワークを設計する。
論文 参考訳(メタデータ) (2021-07-12T17:40:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。