論文の概要: Wav2Vec-Aug: Improved self-supervised training with limited data
- arxiv url: http://arxiv.org/abs/2206.13654v1
- Date: Mon, 27 Jun 2022 22:31:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-02 17:46:57.458342
- Title: Wav2Vec-Aug: Improved self-supervised training with limited data
- Title(参考訳): Wav2Vec-Aug: 限られたデータによる自己教師型トレーニングの改善
- Authors: Anuroop Sriram, Michael Auli, Alexei Baevski
- Abstract要約: 我々は、Wav2Vec 2.0事前トレーニングにデータ拡張を活用することで、限られた利用可能なデータを持つドメインにSSLを適用するという問題に焦点をあてる。
We propose improve to each component of the model that result a combined relative word error rate (WER) improve to up 13% than Wav2Vec 2.0。
- 参考スコア(独自算出の注目度): 48.736325759370246
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-supervised learning (SSL) of speech representations has received much
attention over the last few years but most work has focused on languages and
domains with an abundance of unlabeled data. However, for many languages there
is a shortage even in the unlabeled data which limits the effectiveness of SSL.
In this work, we focus on the problem of applying SSL to domains with limited
available data by leveraging data augmentation for Wav2Vec 2.0 pretraining.
Further, we propose improvements to each component of the model which result in
a combined relative word error rate (WER) improvement of up to 13% compared to
Wav2Vec 2.0 on Librispeech test-clean / other.
- Abstract(参考訳): 音声表現の自己教師あり学習(ssl)はここ数年で大きな注目を集めているが、ほとんどの研究はラベルなしのデータが豊富にある言語やドメインに焦点を当てている。
しかし、多くの言語ではSSLの有効性を制限するラベルのないデータでさえ不足している。
本稿では,wav2vec 2.0 事前学習のためのデータ拡張を活用することで,データ制限のある領域にsslを適用する問題に注目する。
さらに,librispeech test-clean / otherのwav2vec 2.0と比較して,単語誤り率 (wer) を最大13%向上させるモデルの各コンポーネントの改良を提案する。
関連論文リスト
- Co-training for Low Resource Scientific Natural Language Inference [65.37685198688538]
遠隔教師付きラベルに分類器のトレーニング力学に基づいて重みを割り当てる新しいコトレーニング手法を提案する。
予測された信頼度に対する任意のしきい値に基づいてサンプルをフィルタリングするのではなく、重要重みを割り当てることにより、自動ラベル付きデータの使用を最大化する。
提案手法は、遠隔監視ベースラインに対するマクロF1の1.5%の改善と、他の強力なSSLベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-06-20T18:35:47Z) - FlatMatch: Bridging Labeled Data and Unlabeled Data with Cross-Sharpness
for Semi-Supervised Learning [73.13448439554497]
Semi-Supervised Learning (SSL) は、ラベル付きデータが極めて少ない豊富なラベル付きデータを活用する効果的な方法である。
ほとんどのSSLメソッドは、通常、異なるデータ変換間のインスタンス単位の一貫性に基づいている。
本研究では,2つのデータセット間の一貫した学習性能を確保するために,クロスシャープネス尺度を最小化するFlatMatchを提案する。
論文 参考訳(メタデータ) (2023-10-25T06:57:59Z) - Joint Prediction and Denoising for Large-scale Multilingual
Self-supervised Learning [69.77973092264338]
我々は、より強力な技術がより効率的な事前トレーニングをもたらし、SSLをより多くの研究グループに開放することを示します。
我々は,WavLMのジョイント予測を拡張し,136言語にまたがる40k時間のデータをデノベーションするWavLabLMを提案する。
このモデルではXLS-Rの性能を94%維持でき、データの3%しか保持できない。
論文 参考訳(メタデータ) (2023-09-26T23:55:57Z) - Adapting Multilingual Speech Representation Model for a New,
Underresourced Language through Multilingual Fine-tuning and Continued
Pretraining [2.3513645401551333]
既存の多言語wav2vec 2.0モデルを新しい言語に適用する可能性を検討する。
この結果から, 継続事前学習がwav2vec 2.0モデルを新しい言語に適応させる最も効果的な方法であることが示唆された。
関連言語の種類や類似した音韻特性を持つ非関連言語で事前訓練されたモデルが利用可能である場合,その言語からの付加データを用いた多言語微調整は,音声認識性能に肯定的な影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2023-01-18T03:57:53Z) - data2vec-aqc: Search for the right Teaching Assistant in the
Teacher-Student training setup [1.2031796234206138]
我々は、Data2vec-aqcと呼ばれる新しい自己教師付き学習(SSL)アルゴリズムを提案する。
我々の目標は、ラベル付きデータとラベル付きデータの両方が制限されたドメインにおける音声のSSLを改善することです。
論文 参考訳(メタデータ) (2022-11-02T16:29:59Z) - More Speaking or More Speakers? [17.143456510764576]
自己学習(ST)と自己教師型学習(SSL)の手法は、音声認識(ASR)の大幅な改善を証明している。
本研究では、最近のSSLアルゴリズム(wav2vec 2.0)と最近のSTアルゴリズム(slimIPL)に対するトレーニングデータにおける話者数の影響を分析することを目的とする。
以上の結果から, SSL は精度の高いデータを生成するために大量のラベル付きデータを必要とするが, ST はラベル付きデータ, 特に低登録環境では十分な数の話者を必要とすることが示唆された。
論文 参考訳(メタデータ) (2022-11-02T03:50:40Z) - Simple and Effective Unsupervised Speech Translation [68.25022245914363]
ラベル付きデータなしで音声翻訳システムを構築するための,シンプルで効果的な手法について検討する。
事前学習された音声モデルに対する教師なし領域適応手法を提案する。
実験により、教師なし音声からテキストへの翻訳は、それまでの教師なし状態よりも優れていたことが示されている。
論文 参考訳(メタデータ) (2022-10-18T22:26:13Z) - CCC-wav2vec 2.0: Clustering aided Cross Contrastive Self-supervised
learning of speech representations [1.2031796234206138]
本稿では,クラスタリングと拡張に基づくクロスコントラスト損失を自己管理対象とする,ccc-wav2vec 2.0という新たな事前学習戦略を提案する。
ccc-wav2vec 2.0は、言語モデルを用いることなく、それぞれLibriSpeechのテストクリーンおよびテスト他のセットのベースラインwav2vec 2.0に対する15.6%と12.7%の相対的なWER改善を実現している。
論文 参考訳(メタデータ) (2022-10-05T22:44:35Z) - Self-Supervised Learning for speech recognition with Intermediate layer
supervision [52.93758711230248]
自己教師付き学習(ILS-SSL)のための中間層スーパービジョンを提案する。
ILS-SSLは、中間層にSSL損失を追加することで、可能な限りコンテンツ情報に集中させます。
LibriSpeech の他のテストセットの実験により,本手法は HuBERT を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2021-12-16T10:45:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。