論文の概要: InterMPL: Momentum Pseudo-Labeling with Intermediate CTC Loss
- arxiv url: http://arxiv.org/abs/2211.00795v1
- Date: Wed, 2 Nov 2022 00:18:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-03 14:06:50.444582
- Title: InterMPL: Momentum Pseudo-Labeling with Intermediate CTC Loss
- Title(参考訳): InterMPL:中間CTC損失を伴うモーメントム擬似ラベル
- Authors: Yosuke Higuchi, Tetsuji Ogawa, Tetsunori Kobayashi, Shinji Watanabe
- Abstract要約: Momentum PL (MPL) は、ラベルのないデータに基づいてコネクショニスト時間分類 (CTC) に基づくモデルを訓練する。
CTCは、単純かつ高速な推論アルゴリズムと崩壊ラベルの生成に対する堅牢性のため、MPLやPLベースの半教師付きASRによく適している。
CTCに基づくモデリングの最近の進歩に触発されて、中間損失を導入し、MPLを強化することを提案する。
- 参考スコア(独自算出の注目度): 43.39035144463951
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents InterMPL, a semi-supervised learning method of end-to-end
automatic speech recognition (ASR) that performs pseudo-labeling (PL) with
intermediate supervision. Momentum PL (MPL) trains a connectionist temporal
classification (CTC)-based model on unlabeled data by continuously generating
pseudo-labels on the fly and improving their quality. In contrast to
autoregressive formulations, such as the attention-based encoder-decoder and
transducer, CTC is well suited for MPL, or PL-based semi-supervised ASR in
general, owing to its simple/fast inference algorithm and robustness against
generating collapsed labels. However, CTC generally yields inferior performance
than the autoregressive models due to the conditional independence assumption,
thereby limiting the performance of MPL. We propose to enhance MPL by
introducing intermediate loss, inspired by the recent advances in CTC-based
modeling. Specifically, we focus on self-conditional and hierarchical
conditional CTC, that apply auxiliary CTC losses to intermediate layers such
that the conditional independence assumption is explicitly relaxed. We also
explore how pseudo-labels should be generated and used as supervision for
intermediate losses. Experimental results in different semi-supervised settings
demonstrate that the proposed approach outperforms MPL and improves an ASR
model by up to a 12.1% absolute performance gain. In addition, our detailed
analysis validates the importance of the intermediate loss.
- Abstract(参考訳): 本稿では,Puse-labeling(PL)を中間的監視で行う,エンドツーエンド自動音声認識(ASR)の半教師付き学習手法であるInterMPLを提案する。
Momentum PL (MPL) は、コネクショニストの時間分類(CTC)ベースのモデルを未ラベルのデータに基づいて訓練し、フライ時に擬似ラベルを連続的に生成し、その品質を向上させる。
注意ベースのエンコーダデコーダやトランスデューサのような自己回帰的な定式化とは対照的に、CTCは、単純かつ高速な推論アルゴリズムと崩壊ラベルの生成に対する堅牢性のため、MPLやPLベースの半教師付きASRに適している。
しかし、CTCは条件付き独立仮定により自己回帰モデルよりも性能が劣るため、MPLの性能は制限される。
CTCに基づくモデリングの最近の進歩に触発されて、中間損失を導入してMPLを強化することを提案する。
具体的には,条件付き独立仮定が明示的に緩和されるような中間層に補助的なCTC損失を与える,自己条件型および階層型CTCに焦点を当てる。
また、擬似ラベルを生成し、中間損失の監督として使用する方法についても検討する。
半教師付き設定の異なる実験結果から、提案手法はMPLを上回り、ASRモデルを最大12.1%向上させることを示した。
さらに,中間損失の重要性を詳細な分析により検証した。
関連論文リスト
- CRMSP: A Semi-supervised Approach for Key Information Extraction with Class-Rebalancing and Merged Semantic Pseudo-Labeling [10.886757419138343]
CRMSP(Semantic Pseudo-Labeling)によるクラスリバランシングとマージされたセマンティックPseudo-Labeling)によるKIEのための新しい半教師付きアプローチを提案する。
CRPモジュールは、擬似ラベルを再バランスするために再重み付け要素を導入し、テールクラスに注意を向ける。
MSPモジュールはMerged Prototypes (MP) にサンプルを割り当てることでラベルなしデータのテール特徴をクラスタ化する
論文 参考訳(メタデータ) (2024-07-19T07:41:26Z) - A Channel-ensemble Approach: Unbiased and Low-variance Pseudo-labels is Critical for Semi-supervised Classification [61.473485511491795]
半教師付き学習(SSL)はコンピュータビジョンにおける実践的な課題である。
Pseudo-label (PL) メソッド、例えば FixMatch や FreeMatch は SSL で State of The Art (SOTA) のパフォーマンスを取得する。
本稿では,複数の下位PLを理論的に保証された非偏りと低分散のPLに集約する,軽量なチャネルベースアンサンブル法を提案する。
論文 参考訳(メタデータ) (2024-03-27T09:49:37Z) - Self-distillation Regularized Connectionist Temporal Classification Loss
for Text Recognition: A Simple Yet Effective Approach [14.69981874614434]
損失関数の観点から、テキスト認識モデルの最適化方法を示す。
CTCに基づく手法は、性能と推論速度のバランスが良いため、実際は広く用いられているが、それでも精度は低下している。
本稿では,CTCモデルを用いた自己蒸留方式を提案し,この問題に対処する。
論文 参考訳(メタデータ) (2023-08-17T06:32:57Z) - Learning in Imperfect Environment: Multi-Label Classification with
Long-Tailed Distribution and Partial Labels [53.68653940062605]
新しいタスク, 部分ラベリングとLong-Tailed Multi-Label Classification (PLT-MLC) を導入する。
その結果,ほとんどのLT-MLCとPL-MLCは劣化MLCの解決に失敗していることがわかった。
textbfCOrrection $rightarrow$ textbfModificattextbfIon $rightarrow$ balantextbfCe。
論文 参考訳(メタデータ) (2023-04-20T20:05:08Z) - Improving CTC-based ASR Models with Gated Interlayer Collaboration [9.930655347717932]
本稿では,モデルにコンテキスト情報を導入するGated Interlayer Collaboration機構を提案する。
我々は,中間層の確率分布がソフトラベル配列として自然に機能するモデルの層間出力によって計算された中間CTC損失でモデルを訓練する。
論文 参考訳(メタデータ) (2022-05-25T03:21:27Z) - Layer Pruning on Demand with Intermediate CTC [50.509073206630994]
我々はコネクショニスト時間分類(CTC)に基づくASRの訓練と刈り取り方法を提案する。
本稿では,Transformer-CTCモデルをオンデマンドで様々な深さでプルーニングできることを示し,GPU上でのリアルタイム係数を0.005から0.002に改善した。
論文 参考訳(メタデータ) (2021-06-17T02:40:18Z) - Momentum Pseudo-Labeling for Semi-Supervised Speech Recognition [55.362258027878966]
本稿では,半教師付き音声認識のための簡易かつ効果的な手法として,モーメント擬似ラベル(MPL)を提案する。
MPLは、平均的な教師メソッドにインスパイアされて、相互に相互作用し、学習するオンラインとオフラインの2つのモデルで構成されている。
実験の結果,MPLはベースモデルよりも効果的に改善され,様々な半教師付きシナリオに拡張可能であることが示された。
論文 参考訳(メタデータ) (2021-06-16T16:24:55Z) - Relaxing the Conditional Independence Assumption of CTC-based ASR by
Conditioning on Intermediate Predictions [14.376418789524783]
我々は,最終層におけるCTC損失に加えて,中間層におけるCTC損失を補助するCTCベースのASRモデルを訓練する。
提案手法は実装が容易で,単純なモデルアーキテクチャと高速復号化速度という,CTCベースのASRの利点を保っている。
論文 参考訳(メタデータ) (2021-04-06T18:00:03Z) - Intermediate Loss Regularization for CTC-based Speech Recognition [58.33721897180646]
本稿では,コネクショニスト時間分類(CTC)の目的に基づいて,自動音声認識(ASR)のための簡易かつ効率的な補助的損失関数を提案する。
提案手法は,WSJコーパスの単語誤り率(WER)9.9%,AISHELL-1コーパスの文字誤り率(CER)5.2%である。
論文 参考訳(メタデータ) (2021-02-05T15:01:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。