論文の概要: Alternative Pseudo-Labeling for Semi-Supervised Automatic Speech
Recognition
- arxiv url: http://arxiv.org/abs/2308.06547v1
- Date: Sat, 12 Aug 2023 12:13:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-15 16:43:49.716144
- Title: Alternative Pseudo-Labeling for Semi-Supervised Automatic Speech
Recognition
- Title(参考訳): 半教師付き自動音声認識のための代替擬似ラベル法
- Authors: Han Zhu, Dongji Gao, Gaofeng Cheng, Daniel Povey, Pengyuan Zhang,
Yonghong Yan
- Abstract要約: ラベル付きデータが不十分な場合、擬似ラベル技術による半教師付き学習は自動音声認識の性能を大幅に向上させることができる。
損失関数のグラウンドトルースとしてノイズラベルを取ると、最適以下の性能が得られる。
そこで我々は,ノイズの多い擬似ラベル問題に対処するために,代替擬似ラベル方式という新しい枠組みを提案する。
- 参考スコア(独自算出の注目度): 49.42732949233184
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When labeled data is insufficient, semi-supervised learning with the
pseudo-labeling technique can significantly improve the performance of
automatic speech recognition. However, pseudo-labels are often noisy,
containing numerous incorrect tokens. Taking noisy labels as ground-truth in
the loss function results in suboptimal performance. Previous works attempted
to mitigate this issue by either filtering out the nosiest pseudo-labels or
improving the overall quality of pseudo-labels. While these methods are
effective to some extent, it is unrealistic to entirely eliminate incorrect
tokens in pseudo-labels. In this work, we propose a novel framework named
alternative pseudo-labeling to tackle the issue of noisy pseudo-labels from the
perspective of the training objective. The framework comprises several
components. Firstly, a generalized CTC loss function is introduced to handle
noisy pseudo-labels by accepting alternative tokens in the positions of
incorrect tokens. Applying this loss function in pseudo-labeling requires
detecting incorrect tokens in the predicted pseudo-labels. In this work, we
adopt a confidence-based error detection method that identifies the incorrect
tokens by comparing their confidence scores with a given threshold, thus
necessitating the confidence score to be discriminative. Hence, the second
proposed technique is the contrastive CTC loss function that widens the
confidence gap between the correctly and incorrectly predicted tokens, thereby
improving the error detection ability. Additionally, obtaining satisfactory
performance with confidence-based error detection typically requires extensive
threshold tuning. Instead, we propose an automatic thresholding method that
uses labeled data as a proxy for determining the threshold, thus saving the
pain of manual tuning.
- Abstract(参考訳): ラベル付きデータが不十分な場合、擬似ラベル技術による半教師付き学習は自動音声認識の性能を大幅に向上させることができる。
しかし、擬似ラベルはしばしば騒々しく、多くの誤ったトークンを含んでいる。
ノイズラベルを損失関数の基底として取り込むことで、副最適性能が得られる。
以前の研究は、最も目立たない擬似ラベルをフィルタリングするか、偽ラベルの全体的な品質を改善することでこの問題を緩和しようとした。
これらの手法はある程度有効であるが、擬似ラベルの不正なトークンを完全に排除することは非現実的である。
本研究では, 学習目標の観点から, 雑音下擬似ラベル問題に取り組むための, 代替擬似ラベルと呼ばれる新しい枠組みを提案する。
フレームワークにはいくつかのコンポーネントがある。
まず、不正なトークンの位置で代替トークンを受け入れることにより、ノイズの多い擬似ラベルを処理するために一般化されたCTC損失関数を導入する。
この損失関数を擬似ラベルに適用するには、予測された擬似ラベルの誤ったトークンを検出する必要がある。
本研究では,信頼度を所定の閾値と比較することにより,不正確なトークンを識別する信頼度に基づく誤り検出手法を採用する。
したがって、第2の手法は、正当かつ誤予測されたトークン間の信頼ギャップを拡大し、エラー検出能力を向上するコントラッシブCTC損失関数である。
さらに、信頼に基づくエラー検出で十分な性能を得るには、広いしきい値調整が必要である。
その代わりに、ラベル付きデータをプロキシとして使用してしきい値を決定する自動しきい値設定手法を提案し、手動チューニングの手間を軽減する。
関連論文リスト
- InterBiasing: Boost Unseen Word Recognition through Biasing Intermediate Predictions [5.50485371072671]
本手法は,ラベルの修正による中間CTC予測に代えて,誤認識対象キーワードの認識精度を向上させる。
日本語を用いた実験により,未知語に対するF1スコアの改善が得られた。
論文 参考訳(メタデータ) (2024-06-21T06:25:10Z) - Exploiting Completeness and Uncertainty of Pseudo Labels for Weakly
Supervised Video Anomaly Detection [149.23913018423022]
弱教師付きビデオ異常検出は、ビデオレベルのラベルのみを用いて、ビデオ内の異常事象を特定することを目的としている。
2段階の自己学習法は擬似ラベルの自己生成によって著しく改善されている。
本稿では,自己学習のための完全性と不確実性を利用した強化フレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-08T05:53:53Z) - Filter and evolve: progressive pseudo label refining for semi-supervised
automatic speech recognition [5.735000563764309]
低品質の擬似ラベルは、決定境界を誤認し、性能を低下させる。
本稿では,低品質な擬似ラベルをフィルタする簡易かつ効果的な手法を提案する。
LibriSpeechの実験では、これらのフィルターされたサンプルにより、洗練されたモデルによりより正確な予測が得られることが示されている。
論文 参考訳(メタデータ) (2022-10-28T16:15:58Z) - Pseudo-Label Noise Suppression Techniques for Semi-Supervised Semantic
Segmentation [21.163070161951868]
半消費学習(SSL)は、教師なしデータをトレーニングに組み込むことで、大きなラベル付きデータセットの必要性を減らすことができる。
現在のSSLアプローチでは、初期教師付きトレーニングモデルを使用して、擬似ラベルと呼ばれる未ラベル画像の予測を生成する。
擬似ラベルノイズと誤りを3つのメカニズムで制御する。
論文 参考訳(メタデータ) (2022-10-19T09:46:27Z) - Seq-UPS: Sequential Uncertainty-aware Pseudo-label Selection for
Semi-Supervised Text Recognition [21.583569162994277]
最も一般的なSSLアプローチの1つは擬似ラベル(PL)である。
PL法はノイズによって著しく劣化し、ノイズの多いラベルに過度に適合する傾向がある。
テキスト認識のための擬似ラベル生成と不確実性に基づくデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2022-08-31T02:21:02Z) - Two Wrongs Don't Make a Right: Combating Confirmation Bias in Learning
with Label Noise [6.303101074386922]
Robust Label Refurbishment (Robust LR) は、擬似ラベルと信頼度推定技術を組み込んだ新しいハイブリッド手法である。
本手法はラベルノイズと確認バイアスの両方の損傷を軽減できることを示す。
例えば、Robust LRは、実世界のノイズデータセットであるWebVisionにおいて、以前の最高値よりも最大4.5%の絶対的トップ1精度の向上を実現している。
論文 参考訳(メタデータ) (2021-12-06T12:10:17Z) - S3: Supervised Self-supervised Learning under Label Noise [53.02249460567745]
本稿では,ラベルノイズの存在下での分類の問題に対処する。
提案手法の核心は,サンプルのアノテートラベルと特徴空間内のその近傍のラベルの分布との整合性に依存するサンプル選択機構である。
提案手法は,CIFARCIFAR100とWebVisionやANIMAL-10Nなどの実環境ノイズデータセットの両方で,従来の手法をはるかに上回っている。
論文 参考訳(メタデータ) (2021-11-22T15:49:20Z) - Rethinking Pseudo Labels for Semi-Supervised Object Detection [84.697097472401]
物体検出に適した確実な擬似ラベルを導入する。
我々は,クラス不均衡問題を緩和するために,各カテゴリの擬似ラベルと再重み付き損失関数を生成するために使用する閾値を動的に調整する。
提案手法では,COCOのラベル付きデータのみを用いて,教師付きベースラインを最大10%改善する。
論文 参考訳(メタデータ) (2021-06-01T01:32:03Z) - In Defense of Pseudo-Labeling: An Uncertainty-Aware Pseudo-label
Selection Framework for Semi-Supervised Learning [53.1047775185362]
Pseudo-labeling (PL) は一般的な SSL アプローチで、この制約はありませんが、当初の処方では比較的不十分です。
PLは不整合モデルからの誤った高い信頼度予測により性能が低下していると論じる。
そこで本研究では,疑似ラベリング精度を向上させるための不確実性認識型擬似ラベル選択(ups)フレームワークを提案する。
論文 参考訳(メタデータ) (2021-01-15T23:29:57Z) - Learning to Purify Noisy Labels via Meta Soft Label Corrector [49.92310583232323]
最近のディープニューラルネットワーク(DNN)は、ノイズラベルによるバイアス付きトレーニングデータに容易に適合する。
ラベル修正戦略はこの問題を軽減するために一般的に用いられる。
メタ学習モデルを提案する。
論文 参考訳(メタデータ) (2020-08-03T03:25:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。