論文の概要: Curriculum optimization for low-resource speech recognition
- arxiv url: http://arxiv.org/abs/2202.08883v1
- Date: Thu, 17 Feb 2022 19:47:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-21 23:32:26.249349
- Title: Curriculum optimization for low-resource speech recognition
- Title(参考訳): 低リソース音声認識のためのカリキュラム最適化
- Authors: Anastasia Kuznetsova, Anurag Kumar, Jennifer Drexler Fox, Francis
Tyers
- Abstract要約: 本稿では,学習事例の順序を最適化する自動カリキュラム学習手法を提案する。
様々な雑音条件下で生音声のスコアリング機能として使用できる圧縮比と呼ばれる新しい難易度尺度を導入する。
- 参考スコア(独自算出の注目度): 4.803994937990389
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Modern end-to-end speech recognition models show astonishing results in
transcribing audio signals into written text. However, conventional data
feeding pipelines may be sub-optimal for low-resource speech recognition, which
still remains a challenging task. We propose an automated curriculum learning
approach to optimize the sequence of training examples based on both the
progress of the model while training and prior knowledge about the difficulty
of the training examples. We introduce a new difficulty measure called
compression ratio that can be used as a scoring function for raw audio in
various noise conditions. The proposed method improves speech recognition Word
Error Rate performance by up to 33% relative over the baseline system
- Abstract(参考訳): 現代のエンドツーエンド音声認識モデルは、音声信号をテキストに書き起こすという驚くべき結果を示している。
しかし、従来のデータ供給パイプラインは低リソース音声認識に最適であり、依然として困難な課題である。
本稿では,トレーニング中のモデルの進捗状況と,トレーニングの難易度に関する事前知識の両方に基づいて,トレーニング事例の順序を最適化する自動カリキュラム学習手法を提案する。
様々な騒音条件において生音声のスコアリング機能として使用できる圧縮比と呼ばれる新しい難易度尺度を提案する。
提案手法は音声認識単語の誤り率をベースラインシステムと比較して最大33%向上させる。
関連論文リスト
- Continuous Modeling of the Denoising Process for Speech Enhancement
Based on Deep Learning [61.787485727134424]
状態変数をデノナイジングプロセスを示すために使用します。
UNetのようなニューラルネットワークは、連続的復調プロセスからサンプリングされたすべての状態変数を推定することを学ぶ。
実験結果から, クリーンターゲットに少量の雑音を保存することは, 音声強調に有効であることが示唆された。
論文 参考訳(メタデータ) (2023-09-17T13:27:11Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - Improving the Intent Classification accuracy in Noisy Environment [9.447108578893639]
本稿では,エンド・ツー・エンドのニューラルモデルを用いた意図分類課題に対して,環境騒音とその関連ノイズ低減手法について検討する。
この課題に対して,音声強調処理を用いることで,雑音条件下での分類精度を大幅に向上させる。
論文 参考訳(メタデータ) (2023-03-12T06:11:44Z) - Contextual-Utterance Training for Automatic Speech Recognition [65.4571135368178]
本稿では,過去と将来の文脈発話を利用した文脈発話訓練手法を提案する。
また,自動音声認識(ASR)システムをストリーミングするための2モード文脈発話訓練手法を提案する。
提案手法により、WERと平均最後のトークン放出遅延を6%以上、40ms以上削減できる。
論文 参考訳(メタデータ) (2022-10-27T08:10:44Z) - Instance Regularization for Discriminative Language Model Pre-training [108.41891836796366]
本研究は,言語モデル事前学習における劣化文から原文を復元する複雑性を推定することを提案する。
自然言語理解と読解のベンチマークによる実験結果から,本手法は事前学習の効率,有効性,堅牢性を向上することが示された。
論文 参考訳(メタデータ) (2022-10-11T14:16:37Z) - Lip-Listening: Mixing Senses to Understand Lips using Cross Modality
Knowledge Distillation for Word-Based Models [0.03499870393443267]
この研究は、最近の最先端の単語ベースのリリーディングモデルに基づいて、シーケンスレベルとフレームレベルの知識蒸留(KD)をシステムに統合する。
本稿では,音声音声認識システムから視覚音声認識システムへ音声認識機能を伝達する手法を提案する。
論文 参考訳(メタデータ) (2022-06-05T15:47:54Z) - On monoaural speech enhancement for automatic recognition of real noisy
speech using mixture invariant training [33.79711018198589]
既存の混合不変訓練基準を拡張して、未ペア音声と実雑音データの両方を利用する。
実雑音音声から分離した音声の品質を向上させるためには, 未ペアクリーン音声が不可欠であることがわかった。
提案手法は、処理成果物を軽減するために、処理された信号と処理されていない信号のリミックスも行う。
論文 参考訳(メタデータ) (2022-05-03T19:37:58Z) - Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo
Languages [58.43299730989809]
本稿では,音声データに対するエンコーダ・デコーダモデルの両部分を事前学習するための,最初の自己教師型アプローチであるWav2Seqを紹介する。
我々は、コンパクトな離散表現として擬似言語を誘導し、自己教師付き擬似音声認識タスクを定式化する。
このプロセスは独自のものであり、低コストの第2段階のトレーニングとして適用することができる。
論文 参考訳(メタデータ) (2022-05-02T17:59:02Z) - Improving Noise Robustness of Contrastive Speech Representation Learning
with Speech Reconstruction [109.44933866397123]
実環境における音声認識システムの実現には,雑音の堅牢性が不可欠である。
雑音認識のための自己教師型フレームワークにより学習したノイズロスト表現を用いる。
ラベル付きデータのわずか16%で報告された最高の教師付きアプローチに匹敵するパフォーマンスを実現した。
論文 参考訳(メタデータ) (2021-10-28T20:39:02Z) - Adversarial Feature Learning and Unsupervised Clustering based Speech
Synthesis for Found Data with Acoustic and Textual Noise [18.135965605011105]
注意に基づくシーケンス・ツー・シーケンス(seq2seq)音声合成は、異常な性能を達成している。
このようなSeq2seqシステムをトレーニングするには、手書きによるスタジオ品質のコーパスが必要である。
本稿では,高品質で安定したSeq2seqに基づく音声合成システムの構築手法を提案する。
論文 参考訳(メタデータ) (2020-04-28T15:32:45Z) - Contextual Text Denoising with Masked Language Models [21.923035129334373]
そこで本研究では,既使用マスキング言語モデルに基づく文脈記述型音声認識アルゴリズムを提案する。
提案アルゴリズムはモデルの再学習を必要とせず,任意のNLPシステムに統合可能である。
論文 参考訳(メタデータ) (2019-10-30T18:47:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。