論文の概要: Unsupervised Fine-Tuning Data Selection for ASR Using Self-Supervised
Speech Models
- arxiv url: http://arxiv.org/abs/2212.01661v1
- Date: Sat, 3 Dec 2022 18:05:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-06 18:27:01.025172
- Title: Unsupervised Fine-Tuning Data Selection for ASR Using Self-Supervised
Speech Models
- Title(参考訳): 自己教師あり音声モデルを用いたasrの教師なし微調整データ選択
- Authors: Reem Gody and David Harwath
- Abstract要約: 自己教師付き学習(SSL)は、ラベルのないデータを利用して自動音声認識(ASR)モデルの性能を向上させることができる。
本研究は,限られた転写予算の下でHuBERTモデルを微調整するための,教師なしデータ選択手法について検討する。
- 参考スコア(独自算出の注目度): 13.956691231452336
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-supervised learning (SSL) has been able to leverage unlabeled data to
boost the performance of automatic speech recognition (ASR) models when we have
access to only a small amount of transcribed speech data. However, this raises
the question of which subset of the available unlabeled data should be selected
for transcription. Our work investigates different unsupervised data selection
techniques for fine-tuning the HuBERT model under a limited transcription
budget. We investigate the impact of speaker diversity, gender bias, and topic
diversity on the downstream ASR performance. We also devise two novel
techniques for unsupervised data selection: pre-training loss based data
selection and the perplexity of byte pair encoded clustered units (PBPE) and we
show how these techniques compare to pure random data selection. Finally, we
analyze the correlations between the inherent characteristics of the selected
fine-tuning subsets as well as how these characteristics correlate with the
resultant word error rate. We demonstrate the importance of token diversity,
speaker diversity, and topic diversity in achieving the best performance in
terms of WER.
- Abstract(参考訳): 自己教師付き学習(SSL)は、少数の書き起こされた音声データにのみアクセス可能な場合、ラベルのないデータを利用して自動音声認識(ASR)モデルの性能を向上させることができる。
しかし、これは、利用可能な未ラベルデータのサブセットが転写のために選択されるべきかどうかという疑問を提起する。
本研究は,限られた転写予算の下でHuBERTモデルを微調整するための教師なしデータ選択手法について検討する。
話者の多様性,性別バイアス,話題の多様性が,下流ASRの性能に及ぼす影響について検討した。
また、損失に基づくデータ選択の事前学習と、バイトペア符号化クラスタリングユニット(PBPE)の難易度という2つの新しい手法を考案し、これらの手法が純粋なランダムデータ選択と比較する方法について述べる。
最後に、選択された微調整部分集合の固有特性とそれらの特徴と結果の単語誤り率との相関について解析する。
WERの観点からは,トークンの多様性,話者の多様性,話題の多様性の重要性が示される。
関連論文リスト
- Speech Corpora Divergence Based Unsupervised Data Selection for ASR [30.224456184969693]
本研究では,音声コーパス分散(SCD)に基づく教師なし目標認識データ選択手法を提案する。
実験により、提案したSCDデータ選択は、ランダム選択に対する14.8%の相対的な改善を実現できることが示された。
論文 参考訳(メタデータ) (2023-02-26T03:26:26Z) - Learning to Detect Noisy Labels Using Model-Based Features [16.681748918518075]
Select-Enhanced Noisy label Training (SENT)を提案する。
SENTは、データ駆動の柔軟性を保ちながら、メタ学習に依存しない。
自己学習とラベルの破損の設定の下で、強力なベースラインよりもパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2022-12-28T10:12:13Z) - Explaining Cross-Domain Recognition with Interpretable Deep Classifier [100.63114424262234]
解釈可能なDeep(IDC)は、ターゲットサンプルの最も近いソースサンプルを、分類器が決定を下す証拠として学習する。
我々のIDCは、精度の劣化がほとんどなく、最適なリジェクションオプションの分類を効果的に調整する、より説明可能なモデルに導かれる。
論文 参考訳(メタデータ) (2022-11-15T15:58:56Z) - Listen, Adapt, Better WER: Source-free Single-utterance Test-time
Adaptation for Automatic Speech Recognition [65.84978547406753]
Test-time Adaptationは、ソースドメインでトレーニングされたモデルに適応して、テストサンプルの予測を改善することを目的としている。
単一発話テスト時間適応 (SUTA) は音声領域における最初のTTA研究である。
論文 参考訳(メタデータ) (2022-03-27T06:38:39Z) - Representative Subset Selection for Efficient Fine-Tuning in
Self-Supervised Speech Recognition [6.450618373898492]
ASRのための自己教師型音声モデルにおいて、効率的な微調整を行うために最適なデータのサブセットを同定する作業を検討する。
自己教師型ASRにおける代表サブセット選択のためのCOWERAGEアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-03-18T10:12:24Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Unsupervised neural adaptation model based on optimal transport for
spoken language identification [54.96267179988487]
トレーニングセットとテストセット間の音響音声の統計的分布のミスマッチにより,音声言語識別(SLID)の性能が大幅に低下する可能性がある。
SLIDの分布ミスマッチ問題に対処するために,教師なしニューラル適応モデルを提案する。
論文 参考訳(メタデータ) (2020-12-24T07:37:19Z) - Knowledge Distillation and Data Selection for Semi-Supervised Learning
in CTC Acoustic Models [9.496916045581736]
半教師付き学習 (SSL) は, 音声認識システムの精度を向上させるために, ラベルのないデータを活用することを目的とした研究の活発な領域である。
本研究の目的は, 不正データのプールからサンプルを選択する際に, 適切な基準が重要であることを確かめることである。
我々は、この疑問に答え、異なるサンプリング戦略の効果を定量化するために、異なるデータ選択方法の実証的研究を行う。
論文 参考訳(メタデータ) (2020-08-10T07:00:08Z) - Semi-supervised Learning for Multi-speaker Text-to-speech Synthesis
Using Discrete Speech Representation [125.59372403631006]
マルチ話者テキスト音声(TTS)のための半教師付き学習手法を提案する。
マルチスピーカTTSモデルは、離散音声表現を備えたエンコーダデコーダフレームワークを用いて、未転写音声から学習することができる。
提案した半教師あり学習手法は,音声データの一部がうるさい場合にも有効であることがわかった。
論文 参考訳(メタデータ) (2020-05-16T15:47:11Z) - Improving Multi-Turn Response Selection Models with Complementary
Last-Utterance Selection by Instance Weighting [84.9716460244444]
我々は、データリソース自体の根底にある相関を利用して、異なる種類の監視信号を導出することを検討する。
2つの公開データセットで広範な実験を行い、両方のデータセットで大幅に改善した。
論文 参考訳(メタデータ) (2020-02-18T06:29:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。