論文の概要: SlimIPL: Language-Model-Free Iterative Pseudo-Labeling
- arxiv url: http://arxiv.org/abs/2010.11524v5
- Date: Mon, 30 Aug 2021 02:29:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 05:13:27.009439
- Title: SlimIPL: Language-Model-Free Iterative Pseudo-Labeling
- Title(参考訳): SlimIPL: 言語モデルなしイテレーティブな擬似ラベル
- Authors: Tatiana Likhomanenko, Qiantong Xu, Jacob Kahn, Gabriel Synnaeve, Ronan
Collobert
- Abstract要約: Iterative Pseudo-Labeling (IPL) は、モデルが学習するにつれて、擬似ラベルを使って連続的に1つのモデルをトレーニングする。
我々は、このアプローチをLanguage-Model-Free IPL (slimIPL)と呼び、CTCベースのモデルによる低リソース設定のためのトレーニングセットを提供する。
- 参考スコア(独自算出の注目度): 32.39921686482643
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent results in end-to-end automatic speech recognition have demonstrated
the efficacy of pseudo-labeling for semi-supervised models trained both with
Connectionist Temporal Classification (CTC) and Sequence-to-Sequence (seq2seq)
losses. Iterative Pseudo-Labeling (IPL), which continuously trains a single
model using pseudo-labels iteratively re-generated as the model learns, has
been shown to further improve performance in ASR. We improve upon the IPL
algorithm: as the model learns, we propose to iteratively re-generate
transcriptions with hard labels (the most probable tokens), that is, without a
language model. We call this approach Language-Model-Free IPL (slimIPL) and
give a resultant training setup for low-resource settings with CTC-based
models. slimIPL features a dynamic cache for pseudo-labels which reduces
sensitivity to changes in relabeling hyperparameters and results in improves
training stability. slimIPL is also highly-efficient and requires 3.5-4x fewer
computational resources to converge than other state-of-the-art
semi/self-supervised approaches. With only 10 hours of labeled audio, slimIPL
is competitive with self-supervised approaches, and is state-of-the-art with
100 hours of labeled audio without the use of a language model both at test
time and during pseudo-label generation.
- Abstract(参考訳): 近年,コネクショニスト時間分類(CTC)とシーケンス・ツー・シーケンス(Sequence-to-Sequence,seq2seq)を併用した半教師付きモデルに対する擬似ラベルの有効性が実証されている。
擬似ラベルを用いて1つのモデルを連続的に訓練する反復擬似ラベルラベル (IPL) は, ASRの性能向上を図っている。
モデルが学習するにつれて、言語モデル無しで、ハードラベル(最も可能性の高いトークン)で反復的に書き起こしを再生成することを提案する。
我々は、このアプローチをLanguage-Model-Free IPL (slimIPL)と呼び、CTCベースのモデルで低リソース設定をトレーニングする。
slimiplは擬似ラベル用の動的キャッシュを備えており、relabelingハイパーパラメータの変更に対する感度が低下し、トレーニング安定性が向上する。
slimIPLは高効率で、他の最先端の半自己管理手法よりも3.5-4倍少ない計算資源を必要とする。
ラベル付きオーディオが10時間しか持たないSlimIPLは、セルフ教師付きアプローチと競合し、テスト時間と擬似ラベル生成の両方で言語モデルを用いることなく、100時間ラベル付きオーディオと最先端の競合する。
関連論文リスト
- Co-training for Low Resource Scientific Natural Language Inference [65.37685198688538]
遠隔教師付きラベルに分類器のトレーニング力学に基づいて重みを割り当てる新しいコトレーニング手法を提案する。
予測された信頼度に対する任意のしきい値に基づいてサンプルをフィルタリングするのではなく、重要重みを割り当てることにより、自動ラベル付きデータの使用を最大化する。
提案手法は、遠隔監視ベースラインに対するマクロF1の1.5%の改善と、他の強力なSSLベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-06-20T18:35:47Z) - Uncertainty-aware Sampling for Long-tailed Semi-supervised Learning [89.98353600316285]
擬似ラベルサンプリングのモデル化プロセスに不確実性を導入し、各クラスにおけるモデル性能が異なる訓練段階によって異なることを考慮した。
このアプローチにより、モデルは異なる訓練段階における擬似ラベルの不確かさを認識でき、それによって異なるクラスの選択閾値を適応的に調整できる。
FixMatchのような他の手法と比較して、UDTSは自然シーン画像データセットの精度を少なくとも5.26%、1.75%、9.96%、1.28%向上させる。
論文 参考訳(メタデータ) (2024-01-09T08:59:39Z) - Scalable Learning of Latent Language Structure With Logical Offline
Cycle Consistency [71.42261918225773]
概念的には、LOCCOは、トレーニング対象のセマンティクスを使用してラベルなしテキストのアノテーションを生成する、自己学習の一形態と見なすことができる。
追加ボーナスとして、LOCCOによって生成されたアノテーションは、神経テキスト生成モデルをトレーニングするために自明に再利用することができる。
論文 参考訳(メタデータ) (2023-05-31T16:47:20Z) - Continuous Soft Pseudo-Labeling in ASR [32.19655911858698]
連続擬似ラベル(PL)アルゴリズムは,音声認識における半教師あり学習の強力な戦略として登場した。
ソフトラベルのターゲットは、フレーム毎に縮退したトークン分布にモデルを崩壊させることで、トレーニングのばらつきにつながる可能性がある。
論文 参考訳(メタデータ) (2022-11-11T05:16:18Z) - Improving Low-Resource Speech Recognition with Pretrained Speech Models:
Continued Pretraining vs. Semi-Supervised Training [6.523198497365586]
wav2vec 2.0やHuBERTのような自己教師型トランスフォーマーベースモデルは、音声認識(ASR)に対する既存のアプローチよりも大幅に改善されている。
単語誤り率 (WER) は半教師あり訓練 (SST) よりも若干優れていた。
さらに, 擬似ラベル付けにCoPTモデルを用い, これらのラベルをSSTで使用することにより, WERのさらなる改善がもたらされることを示す。
論文 参考訳(メタデータ) (2022-07-01T21:02:51Z) - Momentum Pseudo-Labeling for Semi-Supervised Speech Recognition [55.362258027878966]
本稿では,半教師付き音声認識のための簡易かつ効果的な手法として,モーメント擬似ラベル(MPL)を提案する。
MPLは、平均的な教師メソッドにインスパイアされて、相互に相互作用し、学習するオンラインとオフラインの2つのモデルで構成されている。
実験の結果,MPLはベースモデルよりも効果的に改善され,様々な半教師付きシナリオに拡張可能であることが示された。
論文 参考訳(メタデータ) (2021-06-16T16:24:55Z) - In Defense of Pseudo-Labeling: An Uncertainty-Aware Pseudo-label
Selection Framework for Semi-Supervised Learning [53.1047775185362]
Pseudo-labeling (PL) は一般的な SSL アプローチで、この制約はありませんが、当初の処方では比較的不十分です。
PLは不整合モデルからの誤った高い信頼度予測により性能が低下していると論じる。
そこで本研究では,疑似ラベリング精度を向上させるための不確実性認識型擬似ラベル選択(ups)フレームワークを提案する。
論文 参考訳(メタデータ) (2021-01-15T23:29:57Z) - Semi-Supervised Speech Recognition via Graph-based Temporal
Classification [59.58318952000571]
半教師付き学習は自己学習による自動音声認識において有望な結果を示した。
このアプローチの有効性は、主に擬似ラベルの精度に依存する。
N-bestリストの別のASR仮説は、ラベルなしの発話に対してより正確なラベルを提供することができる。
論文 参考訳(メタデータ) (2020-10-29T14:56:56Z) - Iterative Pseudo-Labeling for Speech Recognition [35.48685001317295]
Pseudo-labelingは、最近、エンドツーエンド自動音声認識(ASR)において有望であることを示す。
非ラベルデータに対して擬似ラベルの繰り返しを効率的に行う半教師付きアルゴリズムであるIterative Pseudo-Labeling (IPL)について検討する。
論文 参考訳(メタデータ) (2020-05-19T07:56:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。