論文の概要: Contrastive Semi-supervised Learning for ASR
- arxiv url: http://arxiv.org/abs/2103.05149v1
- Date: Tue, 9 Mar 2021 00:20:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-10 15:01:32.887902
- Title: Contrastive Semi-supervised Learning for ASR
- Title(参考訳): ASRのためのコントラスト半教師付き学習
- Authors: Alex Xiao, Christian Fuegen, Abdelrahman Mohamed
- Abstract要約: 視覚オブジェクトの教師あり学習のためのコントラスト半教師学習(CSL)を提案する。
CSLは教師生成の擬似ラベルを直接予測し、ポジティブな例とネガティブな例を選択する。
監視データの10hrを使用して75,000hrのビデオをアノテートする場合、標準のクロスエントロピー擬似ラベル(CE-PL)と比較してWERを8%削減します。
- 参考スコア(独自算出の注目度): 16.070972355201253
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pseudo-labeling is the most adopted method for pre-training automatic speech
recognition (ASR) models. However, its performance suffers from the supervised
teacher model's degrading quality in low-resource setups and under domain
transfer. Inspired by the successes of contrastive representation learning for
computer vision and speech applications, and more recently for supervised
learning of visual objects, we propose Contrastive Semi-supervised Learning
(CSL). CSL eschews directly predicting teacher-generated pseudo-labels in favor
of utilizing them to select positive and negative examples. In the challenging
task of transcribing public social media videos, using CSL reduces the WER by
8% compared to the standard Cross-Entropy pseudo-labeling (CE-PL) when 10hr of
supervised data is used to annotate 75,000hr of videos. The WER reduction jumps
to 19% under the ultra low-resource condition of using 1hr labels for teacher
supervision. CSL generalizes much better in out-of-domain conditions, showing
up to 17% WER reduction compared to the best CE-PL pre-trained model.
- Abstract(参考訳): Pseudo-labelingは、自動音声認識(ASR)モデルを事前トレーニングする最も採用されている方法です。
しかし、そのパフォーマンスは教師モデルの低リソース設定とドメイン転送における品質の低下によって損なわれます。
コンピュータビジョンや音声アプリケーションにおけるコントラスト表現学習の成功に触発され,さらに最近では視覚オブジェクトの教師付き学習に応用され,コントラスト型半教師付き学習(csl)を提案する。
CSLは教師生成の擬似ラベルを直接予測し、ポジティブな例とネガティブな例を選択する。
公共のソーシャルメディアビデオを翻訳する困難なタスクでは、CSLを使用することで、監視データの10hrを使用して75,000hrのビデオをアノテートする場合、標準のCross-Entropy疑似ラベル(CE-PL)と比較してWERを8%削減します。
WER削減は教師の監督のために1hrラベルを使用する超低リソース条件の下で19%にジャンプします。
CSLはドメイン外の条件において、CE-PL事前訓練モデルと比較して最大17%のWER削減を示す。
関連論文リスト
- A Self-Supervised Learning Pipeline for Demographically Fair Facial Attribute Classification [3.5092955099876266]
本稿では,人口統計学的に公平な顔属性分類のための完全自己教師付きパイプラインを提案する。
我々は、事前訓練されたエンコーダ、多様なデータキュレーション技術、メタラーニングに基づく重み付きコントラスト学習を通じて、完全にラベル付けされていないデータを活用する。
論文 参考訳(メタデータ) (2024-07-14T07:11:57Z) - Co-training for Low Resource Scientific Natural Language Inference [65.37685198688538]
遠隔教師付きラベルに分類器のトレーニング力学に基づいて重みを割り当てる新しいコトレーニング手法を提案する。
予測された信頼度に対する任意のしきい値に基づいてサンプルをフィルタリングするのではなく、重要重みを割り当てることにより、自動ラベル付きデータの使用を最大化する。
提案手法は、遠隔監視ベースラインに対するマクロF1の1.5%の改善と、他の強力なSSLベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-06-20T18:35:47Z) - Towards Supervised Performance on Speaker Verification with Self-Supervised Learning by Leveraging Large-Scale ASR Models [0.0]
大規模ASRモデルからの音声表現には、貴重な話者情報が含まれる。
本稿では,事前学習したWavLMを教師付き損失で微調整することにより,SSLコンテキストで話者表現を学習するフレームワークを提案する。
提案手法はVoxCeleb1-O上で0.99%のEERを達成し,自己教師型SVにおける新たな最先端技術を確立する。
論文 参考訳(メタデータ) (2024-06-04T12:58:19Z) - Reinforcement Learning-Guided Semi-Supervised Learning [20.599506122857328]
本稿では,SSLを片腕バンディット問題として定式化する新しい強化学習ガイド型SSL手法 RLGSSL を提案する。
RLGSSLは、ラベル付きデータとラベルなしデータのバランスを保ち、一般化性能を向上させるために、慎重に設計された報酬関数を組み込んでいる。
我々は,複数のベンチマークデータセットに対する広範な実験を通じてRCGSSLの有効性を実証し,我々の手法が最先端のSSL手法と比較して一貫した優れた性能を実現することを示す。
論文 参考訳(メタデータ) (2024-05-02T21:52:24Z) - Evaluating Fairness in Self-supervised and Supervised Models for
Sequential Data [10.626503137418636]
自己教師型学習(SSL)は,大規模モデルのデファクトトレーニングパラダイムとなっている。
本研究では,事前学習と微調整が公正性に及ぼす影響について検討する。
論文 参考訳(メタデータ) (2024-01-03T09:31:43Z) - On Higher Adversarial Susceptibility of Contrastive Self-Supervised
Learning [104.00264962878956]
コントラスト型自己教師学習(CSL)は,画像と映像の分類において,教師あり学習のパフォーマンスに適合するか上回っている。
2つの学習パラダイムによって誘導される表現の性質が似ているかどうかは、いまだに不明である。
我々は,CSL表現空間における単位超球面上のデータ表現の均一分布を,この現象の鍵となる要因として同定する。
CSLトレーニングでモデルロバスト性を改善するのにシンプルだが有効である戦略を考案する。
論文 参考訳(メタデータ) (2022-07-22T03:49:50Z) - Supervision-Guided Codebooks for Masked Prediction in Speech
Pre-training [102.14558233502514]
自己教師型学習(SSL)における事前学習のマズード予測は,音声認識における顕著な進歩をみせている。
本稿では,自動音声認識(ASR)の性能向上のための2つの教師付きコードブック生成手法を提案する。
論文 参考訳(メタデータ) (2022-06-21T06:08:30Z) - Masked Unsupervised Self-training for Zero-shot Image Classification [98.23094305347709]
Masked Unsupervised Self-Training (MUST)は、疑似ラベルと生画像という2つの異なる、補完的な監督源を活用する新しいアプローチである。
MUSTはCLIPを大きなマージンで改善し、教師なしと教師なしの分類のパフォーマンスギャップを狭める。
論文 参考訳(メタデータ) (2022-06-07T02:03:06Z) - Class-Aware Contrastive Semi-Supervised Learning [51.205844705156046]
本研究では,擬似ラベル品質を向上し,実環境におけるモデルの堅牢性を高めるため,CCSSL(Class-Aware Contrastive Semi-Supervised Learning)と呼ばれる一般的な手法を提案する。
提案するCCSSLは,標準データセットCIFAR100とSTL10の最先端SSLメソッドに対して,大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2022-03-04T12:18:23Z) - Exploiting Large-scale Teacher-Student Training for On-device Acoustic
Models [15.237992590162593]
音響モデル(AM)の半教師付き学習(SSL)におけるAlexa音声チームの結果を示す。
少数のフットプリント設定でAMのSSLについて議論し、100万時間の教師なしデータで訓練されたより小さなキャパシティモデルが、14.3%のワードエラー率削減(WERR)によってベースライン監視システムより優れていることを示した。
教師なしデータによる学習効率が高い一方で、学生モデルはそのような設定で教師モデルよりも優れています。
論文 参考訳(メタデータ) (2021-06-11T02:23:40Z) - Task Aligned Generative Meta-learning for Zero-shot Learning [64.16125851588437]
ゼロショット学習のためのタスク整合型ジェネラティブメタラーニングモデル(TGMZ)の提案
TGMZはバイアスのあるトレーニングを緩和し、メタZSLが多様な分布を含む現実世界のデータセットに対応できるようにする。
最先端アルゴリズムとの比較により,awa1,awa2,cub,apyデータセット上でtgmzが達成した2.1%,3.0%,2.5%,7.6%の改善が示された。
論文 参考訳(メタデータ) (2021-03-03T05:18:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。