論文の概要: Filter and evolve: progressive pseudo label refining for semi-supervised
automatic speech recognition
- arxiv url: http://arxiv.org/abs/2210.16318v1
- Date: Fri, 28 Oct 2022 16:15:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-01 16:14:57.785295
- Title: Filter and evolve: progressive pseudo label refining for semi-supervised
automatic speech recognition
- Title(参考訳): 半教師付き自動音声認識のためのprogressive pseudo label refining
- Authors: Zezhong Jin, Dading Zhong, Xiao Song, Zhaoyi Liu, Naipeng Ye,
Qingcheng Zeng
- Abstract要約: 低品質の擬似ラベルは、決定境界を誤認し、性能を低下させる。
本稿では,低品質な擬似ラベルをフィルタする簡易かつ効果的な手法を提案する。
LibriSpeechの実験では、これらのフィルターされたサンプルにより、洗練されたモデルによりより正確な予測が得られることが示されている。
- 参考スコア(独自算出の注目度): 5.735000563764309
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fine tuning self supervised pretrained models using pseudo labels can
effectively improve speech recognition performance. But, low quality pseudo
labels can misguide decision boundaries and degrade performance. We propose a
simple yet effective strategy to filter low quality pseudo labels to alleviate
this problem. Specifically, pseudo-labels are produced over the entire training
set and filtered via average probability scores calculated from the model
output. Subsequently, an optimal percentage of utterances with high probability
scores are considered reliable training data with trustworthy labels. The model
is iteratively updated to correct the unreliable pseudo labels to minimize the
effect of noisy labels. The process above is repeated until unreliable pseudo
abels have been adequately corrected. Extensive experiments on LibriSpeech show
that these filtered samples enable the refined model to yield more correct
predictions, leading to better ASR performances under various experimental
settings.
- Abstract(参考訳): 擬似ラベルを用いた自己教師付き事前学習モデルの微調整は音声認識性能を効果的に向上させる。
しかし、低品質の擬似ラベルは決定境界を誤認し、性能を低下させる可能性がある。
我々は,この問題を軽減するために,低品質の擬似ラベルをフィルタする簡易かつ効果的な手法を提案する。
具体的には、トレーニングセット全体にわたって擬似ラベルを生成し、モデル出力から算出した平均確率スコアでフィルタリングする。
その後、確率スコアの高い発話の最適な割合は、信頼できるラベルを持つ信頼できる訓練データと見なされる。
モデルは反復的に更新され、信頼できない擬似ラベルを補正し、ノイズの少ないラベルの影響を最小限にする。
上記のプロセスは、信頼できない擬似アベルが適切に修正されるまで繰り返される。
LibriSpeechの大規模な実験により、これらのフィルターされたサンプルにより、洗練されたモデルによりより正確な予測が得られ、様々な実験環境下でのASR性能が向上することが示された。
関連論文リスト
- Extracting Clean and Balanced Subset for Noisy Long-tailed Classification [66.47809135771698]
そこで我々は,分布マッチングの観点から,クラスプロトタイプを用いた新しい擬似ラベリング手法を開発した。
手動で特定の確率尺度を設定することで、ノイズと長い尾を持つデータの副作用を同時に減らすことができる。
本手法は, クリーンなラベル付きクラスバランスサブセットを抽出し, ラベルノイズ付きロングテール分類において, 効果的な性能向上を実現する。
論文 参考訳(メタデータ) (2024-04-10T07:34:37Z) - Learning with Imbalanced Noisy Data by Preventing Bias in Sample
Selection [82.43311784594384]
実世界のデータセットには、ノイズの多いラベルだけでなく、クラス不均衡も含まれている。
不均衡なデータセットにおけるノイズラベルに対処する,単純かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-02-17T10:34:53Z) - Alternative Pseudo-Labeling for Semi-Supervised Automatic Speech
Recognition [49.42732949233184]
ラベル付きデータが不十分な場合、擬似ラベル技術による半教師付き学習は自動音声認識の性能を大幅に向上させることができる。
損失関数のグラウンドトルースとしてノイズラベルを取ると、最適以下の性能が得られる。
そこで我々は,ノイズの多い擬似ラベル問題に対処するために,代替擬似ラベル方式という新しい枠組みを提案する。
論文 参考訳(メタデータ) (2023-08-12T12:13:52Z) - Label-Retrieval-Augmented Diffusion Models for Learning from Noisy
Labels [61.97359362447732]
ノイズの多いラベルからの学習は、実際のアプリケーションのための機械学習において、重要かつ長年にわたる問題である。
本稿では,生成モデルの観点からラベルノイズ問題を再構成する。
我々のモデルは、標準的な実世界のベンチマークデータセットで新しいSOTA(State-of-the-art)結果を達成する。
論文 参考訳(メタデータ) (2023-05-31T03:01:36Z) - Learning from Noisy Labels with Decoupled Meta Label Purifier [33.87292143223425]
ディープニューラルネットワークをノイズラベルでトレーニングすることは、DNNが不正確なラベルを容易に記憶できるため、難しい。
本稿では,DMLPと呼ばれる新しい多段ラベル浄化器を提案する。
DMLPはラベル訂正プロセスをラベルなし表現学習と単純なメタラベル精製器に分離する。
論文 参考訳(メタデータ) (2023-02-14T03:39:30Z) - Exploiting Completeness and Uncertainty of Pseudo Labels for Weakly
Supervised Video Anomaly Detection [149.23913018423022]
弱教師付きビデオ異常検出は、ビデオレベルのラベルのみを用いて、ビデオ内の異常事象を特定することを目的としている。
2段階の自己学習法は擬似ラベルの自己生成によって著しく改善されている。
本稿では,自己学習のための完全性と不確実性を利用した強化フレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-08T05:53:53Z) - LOPS: Learning Order Inspired Pseudo-Label Selection for Weakly
Supervised Text Classification [28.37907856670151]
擬似ラベルは性質上ノイズが多いため、正しいラベルを選択すると性能が向上する可能性がある。
本稿では,サンプルの学習順序を考慮に入れた新しい擬似ラベル選択手法LOPSを提案する。
LOPSは、既存の弱い教師付きテキスト分類手法のほとんどに対して、強力なパフォーマンスブーストプラグインと見なすことができる。
論文 参考訳(メタデータ) (2022-05-25T06:46:48Z) - In Defense of Pseudo-Labeling: An Uncertainty-Aware Pseudo-label
Selection Framework for Semi-Supervised Learning [53.1047775185362]
Pseudo-labeling (PL) は一般的な SSL アプローチで、この制約はありませんが、当初の処方では比較的不十分です。
PLは不整合モデルからの誤った高い信頼度予測により性能が低下していると論じる。
そこで本研究では,疑似ラベリング精度を向上させるための不確実性認識型擬似ラベル選択(ups)フレームワークを提案する。
論文 参考訳(メタデータ) (2021-01-15T23:29:57Z) - Error-Bounded Correction of Noisy Labels [17.510654621245656]
ノイズのある分類器の予測は、トレーニングデータのラベルがクリーンかどうかを示す良い指標であることを示す。
理論的結果に基づいて,雑音分類器の予測に基づいてラベルを補正する新しいアルゴリズムを提案する。
ラベル補正アルゴリズムをディープニューラルネットワークのトレーニングや,複数の公開データセット上で優れたテスト性能を実現するトレーニングモデルに組み込む。
論文 参考訳(メタデータ) (2020-11-19T19:23:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。