論文の概要: Towards Representative Subset Selection for Self-Supervised Speech
Recognition
- arxiv url: http://arxiv.org/abs/2203.09829v1
- Date: Fri, 18 Mar 2022 10:12:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-21 22:50:57.186480
- Title: Towards Representative Subset Selection for Self-Supervised Speech
Recognition
- Title(参考訳): 自己教師付き音声認識のための代表サブセット選択に向けて
- Authors: Abdul Hameed Azeemi, Ihsan Ayyub Qazi, Agha Ali Raza
- Abstract要約: 学習データの最適部分集合をASRのための微調整自己教師型音声モデルに同定する作業について検討する。
我々は,学習の難易度を抽出する能動的学習戦略が,ランダムなサブセット選択よりも優れているという驚くべき観察を行う。
自己教師型ASRにおいて,より優れたサブセット選択のためのCOWERAGEアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 6.450618373898492
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-supervised speech recognition models require considerable labeled
training data for learning high-fidelity representations for Automatic Speech
Recognition (ASR), which hinders their application to low-resource languages.
We consider the task of identifying an optimal subset of training data to
fine-tune self-supervised speech models for ASR. We make a surprising
observation that active learning strategies for sampling harder-to-learn
examples do not perform better than random subset selection for fine-tuning
self-supervised ASR. We then present the COWERAGE algorithm for better subset
selection in self-supervised ASR which is based on our finding that ensuring
the coverage of examples based on training WER in the early training epochs
leads to better generalization performance. Extensive experiments on the
wav2vec 2.0 model and TIMIT dataset show the effectiveness of COWERAGE, with up
to 27% absolute WER improvement over active learning methods. We also report
the connection between training WER and the phonemic cover and demonstrate that
our algorithm ensures inclusion of phonemically diverse examples.
- Abstract(参考訳): 自己教師付き音声認識モデルは、自動音声認識(asr)のための高忠実度表現を学習するために、かなりのラベル付きトレーニングデータを必要とする。
学習データの最適部分集合をASRのための微調整自己教師型音声モデルに同定する作業を検討する。
我々は,学習の難しいサンプルを抽出する能動的学習戦略が,微調整型自己教師型AIRのランダムなサブセット選択よりも優れているという驚くべき観察を行う。
次に、自己教師付きASRにおけるサブセット選択を改善するためのCOWERAGEアルゴリズムを提案する。
wav2vec 2.0モデルとtimitデータセットの広範な実験により、カウラージュの有効性が示され、アクティブな学習方法よりも最大27%の絶対werが改善されている。
また,WERの学習と音韻表紙の関連性を報告し,本アルゴリズムが音韻学的に多様であることを示す。
関連論文リスト
- Efficient data selection employing Semantic Similarity-based Graph
Structures for model training [1.5845679507219355]
本稿では,SeSaME(Semantics for Data SAliency in Model Performance Estimation)を紹介する。
これはテキスト情報のみに基づく効率的なデータサンプリング機構であり、計算量の多いモデルにデータを渡すことなく利用できる。
このアプローチの適用例は、低リソース自動音声認識(ASR)モデルの使用例で示される。
論文 参考訳(メタデータ) (2024-02-22T09:43:53Z) - Learning towards Selective Data Augmentation for Dialogue Generation [52.540330534137794]
すべての事例が増補作業に有益である訳ではなく、増補に適した事例は以下の2つの属性に従うべきであると我々は主張する。
応答生成タスクに対してSDA(Selective Data Augmentation framework)を提案する。
論文 参考訳(メタデータ) (2023-03-17T01:26:39Z) - Unsupervised Fine-Tuning Data Selection for ASR Using Self-Supervised
Speech Models [13.956691231452336]
自己教師付き学習(SSL)は、ラベルのないデータを利用して自動音声認識(ASR)モデルの性能を向上させることができる。
本研究は,限られた転写予算の下でHuBERTモデルを微調整するための,教師なしデータ選択手法について検討する。
論文 参考訳(メタデータ) (2022-12-03T18:05:08Z) - A Complementary Joint Training Approach Using Unpaired Speech and Text
for Low-Resource Automatic Speech Recognition [25.473191378558138]
非ペアデータを利用して、一般的なシーケンス・ツー・シーケンスモデルをトレーニングする。
音声-疑似ラベルペアと合成音声テキストペアの相補性に着想を得て,補足的関節訓練(CJT)法を提案する。
論文 参考訳(メタデータ) (2022-04-05T07:02:53Z) - Listen, Adapt, Better WER: Source-free Single-utterance Test-time
Adaptation for Automatic Speech Recognition [65.84978547406753]
Test-time Adaptationは、ソースドメインでトレーニングされたモデルに適応して、テストサンプルの予測を改善することを目的としている。
単一発話テスト時間適応 (SUTA) は音声領域における最初のTTA研究である。
論文 参考訳(メタデータ) (2022-03-27T06:38:39Z) - On the Use of External Data for Spoken Named Entity Recognition [40.93448412171246]
近年の自己教師型音声表現の進歩により,ラベル付きデータに制限のある学習モデルを考えることが可能になった。
自己学習、知識蒸留、トランスファーラーニングなど、さまざまなアプローチを採用し、エンドツーエンドモデルとパイプラインアプローチの両方に適用性を検討する。
論文 参考訳(メタデータ) (2021-12-14T18:49:26Z) - Sequence-level self-learning with multiple hypotheses [53.04725240411895]
我々は、自動音声認識(ASR)のためのアテンションベースシーケンス・ツー・シーケンス(seq2seq)モデルを用いた新しい自己学習手法を開発した。
従来の教師なし学習手法とは対照的に,我々はEmphmulti-task Learning(MTL)フレームワークを採用する。
実験の結果,本手法は,英語データのみを用いてトレーニングしたベースラインモデルと比較して,英文音声データのWERを14.55%から10.36%に削減できることがわかった。
論文 参考訳(メタデータ) (2021-12-10T20:47:58Z) - LDNet: Unified Listener Dependent Modeling in MOS Prediction for
Synthetic Speech [67.88748572167309]
本稿では,平均世論スコア(MOS)予測のための統合フレームワークLDNetを提案する。
より安定した結果と効率的な計算を提供する2つの推論手法を提案する。
論文 参考訳(メタデータ) (2021-10-18T08:52:31Z) - An Exploration of Self-Supervised Pretrained Representations for
End-to-End Speech Recognition [98.70304981174748]
本稿では,事前訓練された音声表現の一般応用,高度なエンドツーエンド自動音声認識(E2E-ASR)モデルに焦点をあてる。
いくつかの事前訓練された音声表現を選択し、E2E-ASRのための様々なオープンソースおよび公開コーパスの実験結果を示す。
論文 参考訳(メタデータ) (2021-10-09T15:06:09Z) - Self-supervised Text-independent Speaker Verification using Prototypical
Momentum Contrastive Learning [58.14807331265752]
モーメントの対比学習によって話者埋め込みがより良く学習できることを示す。
自己監視フレームワークを、データのごく一部しかラベル付けされない半監視シナリオに一般化します。
論文 参考訳(メタデータ) (2020-12-13T23:23:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。