論文の概要: Representative Subset Selection for Efficient Fine-Tuning in
Self-Supervised Speech Recognition
- arxiv url: http://arxiv.org/abs/2203.09829v3
- Date: Tue, 11 Apr 2023 18:13:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-13 19:24:51.497583
- Title: Representative Subset Selection for Efficient Fine-Tuning in
Self-Supervised Speech Recognition
- Title(参考訳): 自己教師付き音声認識における効率的なファインチューニングのための代表サブセット選択
- Authors: Abdul Hameed Azeemi, Ihsan Ayyub Qazi, Agha Ali Raza
- Abstract要約: ASRのための自己教師型音声モデルにおいて、効率的な微調整を行うために最適なデータのサブセットを同定する作業を検討する。
自己教師型ASRにおける代表サブセット選択のためのCOWERAGEアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 6.450618373898492
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-supervised speech recognition models require considerable labeled
training data for learning high-fidelity representations for Automatic Speech
Recognition (ASR) which is computationally demanding and time-consuming. We
consider the task of identifying an optimal subset of data for efficient
fine-tuning in self-supervised speech models for ASR. We discover that the
dataset pruning strategies used in vision tasks for sampling the most
informative examples do not perform better than random subset selection on
fine-tuning self-supervised ASR. We then present the COWERAGE algorithm for
representative subset selection in self-supervised ASR. COWERAGE is based on
our finding that ensuring the coverage of examples based on training Word Error
Rate (WER) in the early training epochs leads to better generalization
performance. Extensive experiments with the wav2vec 2.0 and HuBERT model on
TIMIT, Librispeech, and LJSpeech datasets show the effectiveness of COWERAGE
and its transferability across models, with up to 17% relative WER improvement
over existing dataset pruning methods and random sampling. We also demonstrate
that the coverage of training instances in terms of WER values ensures the
inclusion of phonemically diverse examples, leading to better test accuracy in
self-supervised speech recognition models.
- Abstract(参考訳): 自己教師付き音声認識モデルには、計算量と時間を要する自動音声認識(asr)のための高忠実度表現を学習するためのラベル付き学習データが必要である。
ASRのための自己教師型音声モデルにおいて、効率的な微調整のための最適なデータのサブセットを特定するタスクを検討する。
視覚タスクにおいて最も情報性の高いサンプルをサンプリングするために使用されるデータセットのプルーニング戦略は、微調整による自己教師付きASRにおけるランダムなサブセット選択よりは良くないことがわかった。
次に、自己教師付きASRにおける代表サブセット選択のためのCOWERAGEアルゴリズムを提案する。
CoWERAGEは,早期学習における単語誤り率(WER)のトレーニングに基づく実例のカバレッジ確保が,一般化性能の向上につながるという知見に基づいている。
TIMIT, Librispeech, LJSpeechデータセット上のwav2vec 2.0およびHuBERTモデルによる大規模な実験は、COWERAGEの有効性とモデル間の転送性を示し、既存のデータセットのプルーニング手法とランダムサンプリングよりも最大17%の相対的なWER改善を実現している。
また,war値の観点からの学習インスタンスのカバレッジは,音素に多様なサンプルを包含することを保証するため,自己教師付き音声認識モデルにおいて精度が向上することを示す。
関連論文リスト
- Unified Speech Recognition: A Single Model for Auditory, Visual, and Audiovisual Inputs [73.74375912785689]
本稿では,音声認識システムのための統合学習戦略を提案する。
3つのタスクの1つのモデルをトレーニングすることで、VSRとAVSRの性能が向上することを示す。
また,非ラベル標本をより効果的に活用するために,強欲な擬似ラベリング手法を導入する。
論文 参考訳(メタデータ) (2024-11-04T16:46:53Z) - Acoustic Model Optimization over Multiple Data Sources: Merging and Valuation [13.009945735929445]
本稿では,音声認識分野の課題を解くための新しいパラダイムを提案する。
最初の段階では、完全な音声データの異なるサブセットに基づいて複数の音響モデルを訓練する。
第2段階では、2つの新しいアルゴリズムを用いて高品質な音響モデルを生成する。
論文 参考訳(メタデータ) (2024-10-21T03:48:23Z) - Efficient data selection employing Semantic Similarity-based Graph
Structures for model training [1.5845679507219355]
本稿では,SeSaME(Semantics for Data SAliency in Model Performance Estimation)を紹介する。
これはテキスト情報のみに基づく効率的なデータサンプリング機構であり、計算量の多いモデルにデータを渡すことなく利用できる。
このアプローチの適用例は、低リソース自動音声認識(ASR)モデルの使用例で示される。
論文 参考訳(メタデータ) (2024-02-22T09:43:53Z) - Learning towards Selective Data Augmentation for Dialogue Generation [52.540330534137794]
すべての事例が増補作業に有益である訳ではなく、増補に適した事例は以下の2つの属性に従うべきであると我々は主張する。
応答生成タスクに対してSDA(Selective Data Augmentation framework)を提案する。
論文 参考訳(メタデータ) (2023-03-17T01:26:39Z) - Unsupervised Fine-Tuning Data Selection for ASR Using Self-Supervised
Speech Models [13.956691231452336]
自己教師付き学習(SSL)は、ラベルのないデータを利用して自動音声認識(ASR)モデルの性能を向上させることができる。
本研究は,限られた転写予算の下でHuBERTモデルを微調整するための,教師なしデータ選択手法について検討する。
論文 参考訳(メタデータ) (2022-12-03T18:05:08Z) - A Complementary Joint Training Approach Using Unpaired Speech and Text
for Low-Resource Automatic Speech Recognition [25.473191378558138]
非ペアデータを利用して、一般的なシーケンス・ツー・シーケンスモデルをトレーニングする。
音声-疑似ラベルペアと合成音声テキストペアの相補性に着想を得て,補足的関節訓練(CJT)法を提案する。
論文 参考訳(メタデータ) (2022-04-05T07:02:53Z) - Listen, Adapt, Better WER: Source-free Single-utterance Test-time
Adaptation for Automatic Speech Recognition [65.84978547406753]
Test-time Adaptationは、ソースドメインでトレーニングされたモデルに適応して、テストサンプルの予測を改善することを目的としている。
単一発話テスト時間適応 (SUTA) は音声領域における最初のTTA研究である。
論文 参考訳(メタデータ) (2022-03-27T06:38:39Z) - LDNet: Unified Listener Dependent Modeling in MOS Prediction for
Synthetic Speech [67.88748572167309]
本稿では,平均世論スコア(MOS)予測のための統合フレームワークLDNetを提案する。
より安定した結果と効率的な計算を提供する2つの推論手法を提案する。
論文 参考訳(メタデータ) (2021-10-18T08:52:31Z) - An Exploration of Self-Supervised Pretrained Representations for
End-to-End Speech Recognition [98.70304981174748]
本稿では,事前訓練された音声表現の一般応用,高度なエンドツーエンド自動音声認識(E2E-ASR)モデルに焦点をあてる。
いくつかの事前訓練された音声表現を選択し、E2E-ASRのための様々なオープンソースおよび公開コーパスの実験結果を示す。
論文 参考訳(メタデータ) (2021-10-09T15:06:09Z) - Self-supervised Text-independent Speaker Verification using Prototypical
Momentum Contrastive Learning [58.14807331265752]
モーメントの対比学習によって話者埋め込みがより良く学習できることを示す。
自己監視フレームワークを、データのごく一部しかラベル付けされない半監視シナリオに一般化します。
論文 参考訳(メタデータ) (2020-12-13T23:23:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。