論文の概要: Towards Representative Subset Selection for Self-Supervised Speech
Recognition
- arxiv url: http://arxiv.org/abs/2203.09829v1
- Date: Fri, 18 Mar 2022 10:12:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-21 22:50:57.186480
- Title: Towards Representative Subset Selection for Self-Supervised Speech
Recognition
- Title(参考訳): 自己教師付き音声認識のための代表サブセット選択に向けて
- Authors: Abdul Hameed Azeemi, Ihsan Ayyub Qazi, Agha Ali Raza
- Abstract要約: 学習データの最適部分集合をASRのための微調整自己教師型音声モデルに同定する作業について検討する。
我々は,学習の難易度を抽出する能動的学習戦略が,ランダムなサブセット選択よりも優れているという驚くべき観察を行う。
自己教師型ASRにおいて,より優れたサブセット選択のためのCOWERAGEアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 6.450618373898492
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-supervised speech recognition models require considerable labeled
training data for learning high-fidelity representations for Automatic Speech
Recognition (ASR), which hinders their application to low-resource languages.
We consider the task of identifying an optimal subset of training data to
fine-tune self-supervised speech models for ASR. We make a surprising
observation that active learning strategies for sampling harder-to-learn
examples do not perform better than random subset selection for fine-tuning
self-supervised ASR. We then present the COWERAGE algorithm for better subset
selection in self-supervised ASR which is based on our finding that ensuring
the coverage of examples based on training WER in the early training epochs
leads to better generalization performance. Extensive experiments on the
wav2vec 2.0 model and TIMIT dataset show the effectiveness of COWERAGE, with up
to 27% absolute WER improvement over active learning methods. We also report
the connection between training WER and the phonemic cover and demonstrate that
our algorithm ensures inclusion of phonemically diverse examples.
- Abstract(参考訳): 自己教師付き音声認識モデルは、自動音声認識(asr)のための高忠実度表現を学習するために、かなりのラベル付きトレーニングデータを必要とする。
学習データの最適部分集合をASRのための微調整自己教師型音声モデルに同定する作業を検討する。
我々は,学習の難しいサンプルを抽出する能動的学習戦略が,微調整型自己教師型AIRのランダムなサブセット選択よりも優れているという驚くべき観察を行う。
次に、自己教師付きASRにおけるサブセット選択を改善するためのCOWERAGEアルゴリズムを提案する。
wav2vec 2.0モデルとtimitデータセットの広範な実験により、カウラージュの有効性が示され、アクティブな学習方法よりも最大27%の絶対werが改善されている。
また,WERの学習と音韻表紙の関連性を報告し,本アルゴリズムが音韻学的に多様であることを示す。
関連論文リスト
- Unified Speech Recognition: A Single Model for Auditory, Visual, and Audiovisual Inputs [73.74375912785689]
本稿では,音声認識システムのための統合学習戦略を提案する。
3つのタスクの1つのモデルをトレーニングすることで、VSRとAVSRの性能が向上することを示す。
また,非ラベル標本をより効果的に活用するために,強欲な擬似ラベリング手法を導入する。
論文 参考訳(メタデータ) (2024-11-04T16:46:53Z) - Acoustic Model Optimization over Multiple Data Sources: Merging and Valuation [13.009945735929445]
本稿では,音声認識分野の課題を解くための新しいパラダイムを提案する。
最初の段階では、完全な音声データの異なるサブセットに基づいて複数の音響モデルを訓練する。
第2段階では、2つの新しいアルゴリズムを用いて高品質な音響モデルを生成する。
論文 参考訳(メタデータ) (2024-10-21T03:48:23Z) - Efficient data selection employing Semantic Similarity-based Graph
Structures for model training [1.5845679507219355]
本稿では,SeSaME(Semantics for Data SAliency in Model Performance Estimation)を紹介する。
これはテキスト情報のみに基づく効率的なデータサンプリング機構であり、計算量の多いモデルにデータを渡すことなく利用できる。
このアプローチの適用例は、低リソース自動音声認識(ASR)モデルの使用例で示される。
論文 参考訳(メタデータ) (2024-02-22T09:43:53Z) - Learning towards Selective Data Augmentation for Dialogue Generation [52.540330534137794]
すべての事例が増補作業に有益である訳ではなく、増補に適した事例は以下の2つの属性に従うべきであると我々は主張する。
応答生成タスクに対してSDA(Selective Data Augmentation framework)を提案する。
論文 参考訳(メタデータ) (2023-03-17T01:26:39Z) - Unsupervised Fine-Tuning Data Selection for ASR Using Self-Supervised
Speech Models [13.956691231452336]
自己教師付き学習(SSL)は、ラベルのないデータを利用して自動音声認識(ASR)モデルの性能を向上させることができる。
本研究は,限られた転写予算の下でHuBERTモデルを微調整するための,教師なしデータ選択手法について検討する。
論文 参考訳(メタデータ) (2022-12-03T18:05:08Z) - A Complementary Joint Training Approach Using Unpaired Speech and Text
for Low-Resource Automatic Speech Recognition [25.473191378558138]
非ペアデータを利用して、一般的なシーケンス・ツー・シーケンスモデルをトレーニングする。
音声-疑似ラベルペアと合成音声テキストペアの相補性に着想を得て,補足的関節訓練(CJT)法を提案する。
論文 参考訳(メタデータ) (2022-04-05T07:02:53Z) - Listen, Adapt, Better WER: Source-free Single-utterance Test-time
Adaptation for Automatic Speech Recognition [65.84978547406753]
Test-time Adaptationは、ソースドメインでトレーニングされたモデルに適応して、テストサンプルの予測を改善することを目的としている。
単一発話テスト時間適応 (SUTA) は音声領域における最初のTTA研究である。
論文 参考訳(メタデータ) (2022-03-27T06:38:39Z) - LDNet: Unified Listener Dependent Modeling in MOS Prediction for
Synthetic Speech [67.88748572167309]
本稿では,平均世論スコア(MOS)予測のための統合フレームワークLDNetを提案する。
より安定した結果と効率的な計算を提供する2つの推論手法を提案する。
論文 参考訳(メタデータ) (2021-10-18T08:52:31Z) - An Exploration of Self-Supervised Pretrained Representations for
End-to-End Speech Recognition [98.70304981174748]
本稿では,事前訓練された音声表現の一般応用,高度なエンドツーエンド自動音声認識(E2E-ASR)モデルに焦点をあてる。
いくつかの事前訓練された音声表現を選択し、E2E-ASRのための様々なオープンソースおよび公開コーパスの実験結果を示す。
論文 参考訳(メタデータ) (2021-10-09T15:06:09Z) - Self-supervised Text-independent Speaker Verification using Prototypical
Momentum Contrastive Learning [58.14807331265752]
モーメントの対比学習によって話者埋め込みがより良く学習できることを示す。
自己監視フレームワークを、データのごく一部しかラベル付けされない半監視シナリオに一般化します。
論文 参考訳(メタデータ) (2020-12-13T23:23:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。