論文の概要: Improving Noisy Student Training on Non-target Domain Data for Automatic
Speech Recognition
- arxiv url: http://arxiv.org/abs/2211.04717v1
- Date: Wed, 9 Nov 2022 07:23:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 17:32:59.927100
- Title: Improving Noisy Student Training on Non-target Domain Data for Automatic
Speech Recognition
- Title(参考訳): 音声認識のための非ターゲット領域データによる雑音学習の改善
- Authors: Yu Chen, Wen Ding, Junjie Lai
- Abstract要約: 我々は,NSTの性能を向上させるため,LMフィルタというデータ選択手法を提案する。
AISHELL-1テストセットでは3.31%のCERが達成できます。
また、教師付き1000時間AISHELL-2データセットの評価を行い、CERの4.72%の競争結果を得ることができた。
- 参考スコア(独自算出の注目度): 6.506420603456938
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Noisy Student Training (NST) has recently demonstrated extremely strong
performance in Automatic Speech Recognition (ASR). In this paper, we propose a
data selection strategy named LM Filter to improve the performances of NST on
non-target domain data in ASR tasks. Hypothesis with and without Language Model
are generated and CER differences between them are utilized as a filter
threshold. Results reveal that significant improvements of 10.4% compared with
no data filtering baselines. We can achieve 3.31% CER in AISHELL-1 test set,
which is best result from our knowledge without any other supervised data. We
also perform evaluations on supervised 1000 hour AISHELL-2 dataset and
competitive results of 4.72% CER can be achieved.
- Abstract(参考訳): 雑音学習(NST)は,最近,音声認識(ASR)において極めて高い性能を示した。
本稿では,ALRタスクにおける非ターゲット領域データに対するNSTの性能を改善するため,LMフィルタというデータ選択手法を提案する。
言語モデルの有無に関わらず仮説を生成し、それらの間のcer差をフィルタしきい値として利用する。
その結果、データフィルタリングベースラインを使わずに10.4%の大幅な改善が見られた。
AISHELL-1テストセットでは3.31%のCERが達成できます。
また、教師付き1000時間AISHELL-2データセットの評価を行い、4.72%のCERの競合結果を得ることができた。
関連論文リスト
- Reward-Augmented Data Enhances Direct Preference Alignment of LLMs [56.24431208419858]
報奨条件付き大言語モデル(LLM)を導入し、データセット内の応答品質のスペクトル全体から学習する。
そこで本稿では,品質スコアに優先ペアを条件付け,報酬を加算したデータセットを構築する,効果的なデータレバーベリング手法を提案する。
論文 参考訳(メタデータ) (2024-10-10T16:01:51Z) - An Effective Automated Speaking Assessment Approach to Mitigating Data Scarcity and Imbalanced Distribution [5.1660803395535835]
自己教師付き学習(SSL)は、従来の手法と比較して星級のパフォーマンスを示している。
しかし、SSLベースのASAシステムは、少なくとも3つのデータ関連の課題に直面している。
これらの課題には、限られた注釈付きデータ、学習者の習熟度レベルの不均一分布、CEFR習熟度レベル間の不均一スコア間隔が含まれる。
論文 参考訳(メタデータ) (2024-04-11T09:06:49Z) - Your Vision-Language Model Itself Is a Strong Filter: Towards
High-Quality Instruction Tuning with Data Selection [59.11430077029321]
視覚言語モデル(VLM)のための新しいデータセット選択手法であるSelf-Filterを導入する。
第1段階では、VLMと共同で学習する訓練指導の難しさを評価するためのスコアリングネットワークを考案する。
第2段階では、トレーニングされたスコアネットを使用して、各命令の難易度を測定し、最も難しいサンプルを選択し、類似したサンプルをペナルティ化し、多様性を促進する。
論文 参考訳(メタデータ) (2024-02-19T20:08:48Z) - Multiple-hypothesis RNN-T Loss for Unsupervised Fine-tuning and
Self-training of Neural Transducer [20.8850874806462]
本稿では、ラベルなし音声データを用いて教師なしの微調整と自己学習を行うための新しい手法を提案する。
微調整作業のために、ASRモデルはウォールストリートジャーナル(WSJ)、オーロラ4、およびCHiME-4の実雑音データをラベルなしデータとしてトレーニングする。
自己学習タスクでは,ウォール・ストリート・ジャーナル(WSJ)やオーロラ4(Aurora-4)の教師付きデータとCHiME-4の実雑音データをラベルなしデータとしてトレーニングする。
論文 参考訳(メタデータ) (2022-07-29T15:14:03Z) - Boosting Facial Expression Recognition by A Semi-Supervised Progressive
Teacher [54.50747989860957]
本稿では,信頼度の高いFERデータセットと大規模未ラベル表現画像を有効訓練に用いるための半教師付き学習アルゴリズム,Progressive Teacher (PT)を提案する。
RAF-DB と FERPlus を用いた実験により,RAF-DB で89.57% の精度で最先端の性能を実現する手法の有効性が検証された。
論文 参考訳(メタデータ) (2022-05-28T07:47:53Z) - Listen, Adapt, Better WER: Source-free Single-utterance Test-time
Adaptation for Automatic Speech Recognition [65.84978547406753]
Test-time Adaptationは、ソースドメインでトレーニングされたモデルに適応して、テストサンプルの予測を改善することを目的としている。
単一発話テスト時間適応 (SUTA) は音声領域における最初のTTA研究である。
論文 参考訳(メタデータ) (2022-03-27T06:38:39Z) - Improving RNN-T ASR Performance with Date-Time and Location Awareness [6.308539010172309]
文脈情報を個別に使用すると、ベースラインに対して最大3.48%の性能が向上することを示す。
特定の領域では、これらの文脈信号は最大11.5%の改善を示すが、他の領域では顕著な劣化はない。
以上の結果から,ASRモデルの訓練に限られたデータを用いると,文脈信号により性能が大幅に向上することが示唆された。
論文 参考訳(メタデータ) (2021-06-11T05:57:30Z) - Unsupervised Domain Adaptation for Speech Recognition via Uncertainty
Driven Self-Training [55.824641135682725]
WSJ をソースドメインとし,TED-Lium 3 とSWITCHBOARD を併用したドメイン適応実験を行った。
論文 参考訳(メタデータ) (2020-11-26T18:51:26Z) - DAGA: Data Augmentation with a Generation Approach for Low-resource
Tagging Tasks [88.62288327934499]
線形化ラベル付き文に基づいて訓練された言語モデルを用いた新しい拡張手法を提案する。
本手法は, 教師付き設定と半教師付き設定の両方に適用可能である。
論文 参考訳(メタデータ) (2020-11-03T07:49:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。