論文の概要: Semi-Supervised Speech Recognition via Graph-based Temporal
Classification
- arxiv url: http://arxiv.org/abs/2010.15653v2
- Date: Tue, 16 Feb 2021 16:51:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-01 22:27:20.732268
- Title: Semi-Supervised Speech Recognition via Graph-based Temporal
Classification
- Title(参考訳): グラフに基づく時間分類による半教師あり音声認識
- Authors: Niko Moritz, Takaaki Hori, Jonathan Le Roux
- Abstract要約: 半教師付き学習は自己学習による自動音声認識において有望な結果を示した。
このアプローチの有効性は、主に擬似ラベルの精度に依存する。
N-bestリストの別のASR仮説は、ラベルなしの発話に対してより正確なラベルを提供することができる。
- 参考スコア(独自算出の注目度): 59.58318952000571
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semi-supervised learning has demonstrated promising results in automatic
speech recognition (ASR) by self-training using a seed ASR model with
pseudo-labels generated for unlabeled data. The effectiveness of this approach
largely relies on the pseudo-label accuracy, for which typically only the
1-best ASR hypothesis is used. However, alternative ASR hypotheses of an N-best
list can provide more accurate labels for an unlabeled speech utterance and
also reflect uncertainties of the seed ASR model. In this paper, we propose a
generalized form of the connectionist temporal classification (CTC) objective
that accepts a graph representation of the training labels. The newly proposed
graph-based temporal classification (GTC) objective is applied for
self-training with WFST-based supervision, which is generated from an N-best
list of pseudo-labels. In this setup, GTC is used to learn not only a temporal
alignment, similarly to CTC, but also a label alignment to obtain the optimal
pseudo-label sequence from the weighted graph. Results show that this approach
can effectively exploit an N-best list of pseudo-labels with associated scores,
considerably outperforming standard pseudo-labeling, with ASR results
approaching an oracle experiment in which the best hypotheses of the N-best
lists are selected manually.
- Abstract(参考訳): 半教師付き学習は、ラベルなしデータに擬似ラベルを用いたシードasrモデルを用いた自己学習による自動音声認識(asr)において有望な結果を示している。
このアプローチの有効性は、通常、1-best ASR仮説のみを使用する擬似ラベルの精度に大きく依存する。
しかし、N-bestリストの代替ASR仮説は、ラベルなし音声のラベルをより正確に提供し、シードASRモデルの不確実性を反映することができる。
本稿では,学習ラベルのグラフ表現を受け入れるコネクショニスト時間分類(CTC)の汎用形式を提案する。
新たに提案したグラフベース時間分類(GTC)は,擬似ラベルのN-bestリストから生成したWFSTによる自己学習に応用される。
この設定では、gtcはctcと同様に時間的アライメントだけでなく、重み付きグラフから最適な擬似ラベル配列を得るためのラベルアライメントを学ぶために使われる。
提案手法は,N-bestリストの最良の仮説を手動で選択するオラクル実験にアプローチすることで,標準的な擬似ラベルよりもかなり優れたスコアを持つN-bestリストを効果的に活用できることを示す。
関連論文リスト
- Prompt-based Pseudo-labeling Strategy for Sample-Efficient Semi-Supervised Extractive Summarization [12.582774521907227]
半教師付き学習(SSL)は、ラベル付きデータが不足し、ラベルなしデータが豊富であるシナリオで広く使われているテクニックである。
標準SSLメソッドは、まず分類モデルをトレーニングし、次に分類器の信頼性値を使用して擬似ラベルを選択するために教師-学生パラダイムに従う。
より正確な擬似ラベルでラベルなしのサンプルを抽出するLLMを用いたプロンプトベースの擬似ラベル方式を提案する。
論文 参考訳(メタデータ) (2023-11-16T04:29:41Z) - Neighbour Consistency Guided Pseudo-Label Refinement for Unsupervised
Person Re-Identification [80.98291772215154]
教師なしの人物再識別(ReID)は、アノテーションを使わずに人物検索のための識別的アイデンティティの特徴を学習することを目的としている。
近年の進歩はクラスタリングに基づく擬似ラベルを活用することで実現されている。
本稿では, Pseudo Label Refinement フレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-30T09:39:57Z) - Seq-UPS: Sequential Uncertainty-aware Pseudo-label Selection for
Semi-Supervised Text Recognition [21.583569162994277]
最も一般的なSSLアプローチの1つは擬似ラベル(PL)である。
PL法はノイズによって著しく劣化し、ノイズの多いラベルに過度に適合する傾向がある。
テキスト認識のための擬似ラベル生成と不確実性に基づくデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2022-08-31T02:21:02Z) - Dash: Semi-Supervised Learning with Dynamic Thresholding [72.74339790209531]
我々は、ラベルのない例を使ってモデルをトレーニングする半教師付き学習(SSL)アプローチを提案する。
提案手法であるDashは、ラベルなしデータ選択の観点から適応性を享受する。
論文 参考訳(メタデータ) (2021-09-01T23:52:29Z) - A Unified Generative Adversarial Network Training via Self-Labeling and
Self-Attention [38.31735499785227]
本稿では,任意のレベルのラベリングを統一的に処理できる新しいGANトレーニング手法を提案する。
提案手法では,手動で定義したラベルを組み込むことができる人工ラベル方式を導入する。
我々は, CIFAR-10, STL-10, SVHNに対するアプローチを評価し, 自己ラベルと自己アテンションの両方が生成データの品質を継続的に向上することを示す。
論文 参考訳(メタデータ) (2021-06-18T04:40:26Z) - Distribution-Aware Semantics-Oriented Pseudo-label for Imbalanced
Semi-Supervised Learning [80.05441565830726]
本稿では,疑似ラベルの重み付けがモデル性能に悪影響を及ぼすような,不均衡な半教師付き学習に対処する。
本稿では,この観測の動機となるバイアスに対処する,一般的な擬似ラベルフレームワークを提案する。
不均衡SSLのための新しい擬似ラベルフレームワークを、DASO(Distributed-Aware Semantics-Oriented Pseudo-label)と呼ぶ。
論文 参考訳(メタデータ) (2021-06-10T11:58:25Z) - Cycle Self-Training for Domain Adaptation [85.14659717421533]
Cycle Self-Training (CST) は、ドメイン間の一般化に擬似ラベルを強制する、原則付き自己学習アルゴリズムである。
CSTは目標の真理を回復し、不変の機能学習とバニラ自己訓練の両方が失敗する。
実験結果から,標準的なUDAベンチマークでは,CSTは先行技術よりも大幅に改善されていることが示唆された。
論文 参考訳(メタデータ) (2021-03-05T10:04:25Z) - In Defense of Pseudo-Labeling: An Uncertainty-Aware Pseudo-label
Selection Framework for Semi-Supervised Learning [53.1047775185362]
Pseudo-labeling (PL) は一般的な SSL アプローチで、この制約はありませんが、当初の処方では比較的不十分です。
PLは不整合モデルからの誤った高い信頼度予測により性能が低下していると論じる。
そこで本研究では,疑似ラベリング精度を向上させるための不確実性認識型擬似ラベル選択(ups)フレームワークを提案する。
論文 参考訳(メタデータ) (2021-01-15T23:29:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。