論文の概要: Supervision-Guided Codebooks for Masked Prediction in Speech
Pre-training
- arxiv url: http://arxiv.org/abs/2206.10125v1
- Date: Tue, 21 Jun 2022 06:08:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-22 18:45:22.545839
- Title: Supervision-Guided Codebooks for Masked Prediction in Speech
Pre-training
- Title(参考訳): 音声事前学習におけるマスキング予測のための教師案内コードブック
- Authors: Chengyi Wang, Yiming Wang, Yu Wu, Sanyuan Chen, Jinyu Li, Shujie Liu,
Furu Wei
- Abstract要約: 自己教師型学習(SSL)における事前学習のマズード予測は,音声認識における顕著な進歩をみせている。
本稿では,自動音声認識(ASR)の性能向上のための2つの教師付きコードブック生成手法を提案する。
- 参考スコア(独自算出の注目度): 102.14558233502514
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, masked prediction pre-training has seen remarkable progress in
self-supervised learning (SSL) for speech recognition. It usually requires a
codebook obtained in an unsupervised way, making it less accurate and difficult
to interpret. We propose two supervision-guided codebook generation approaches
to improve automatic speech recognition (ASR) performance and also the
pre-training efficiency, either through decoding with a hybrid ASR system to
generate phoneme-level alignments (named PBERT), or performing clustering on
the supervised speech features extracted from an end-to-end CTC model (named
CTC clustering). Both the hybrid and CTC models are trained on the same small
amount of labeled speech as used in fine-tuning. Experiments demonstrate
significant superiority of our methods to various SSL and self-training
baselines, with up to 17.0% relative WER reduction. Our pre-trained models also
show good transferability in a non-ASR speech task.
- Abstract(参考訳): 近年,音声認識のための自己教師型学習(SSL)が目覚ましい進歩を遂げている。
通常、教師なしの方法で得られるコードブックを必要とするため、正確性が低く、解釈が難しい。
本稿では,音素レベルアライメント(PBERT)を生成するためのハイブリッドASRシステムとのデコードや,エンドツーエンドのCTCモデル(CTCクラスタリング)から抽出した教師付き音声特徴のクラスタリングによって,自動音声認識(ASR)性能と事前学習効率を向上させるための2つの教師付きコードブック生成手法を提案する。
ハイブリッドモデルとCTCモデルの両方は、微調整で使用される少量のラベル付き音声で訓練される。
実験により,提案手法のSSLおよび自己学習ベースラインに対して,最大17.0%の相対的なWER削減効果が得られた。
事前学習したモデルでは,非asr音声タスクにおける転送性も良好である。
関連論文リスト
- Scalable Learning of Latent Language Structure With Logical Offline
Cycle Consistency [71.42261918225773]
概念的には、LOCCOは、トレーニング対象のセマンティクスを使用してラベルなしテキストのアノテーションを生成する、自己学習の一形態と見なすことができる。
追加ボーナスとして、LOCCOによって生成されたアノテーションは、神経テキスト生成モデルをトレーニングするために自明に再利用することができる。
論文 参考訳(メタデータ) (2023-05-31T16:47:20Z) - Improved Consistency Training for Semi-Supervised Sequence-to-Sequence
ASR via Speech Chain Reconstruction and Self-Transcribing [21.049557187137776]
半教師付きS2S ASRの整合性訓練パラダイムを提案する。
音声連鎖再構成を弱い拡張として利用し,高品質な擬似ラベルを生成する。
改良されたパラダイムは、単一話者設定で12.2%のCER改善、マルチ話者設定で38.6%を実現している。
論文 参考訳(メタデータ) (2022-05-14T04:26:13Z) - Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo
Languages [58.43299730989809]
本稿では,音声データに対するエンコーダ・デコーダモデルの両部分を事前学習するための,最初の自己教師型アプローチであるWav2Seqを紹介する。
我々は、コンパクトな離散表現として擬似言語を誘導し、自己教師付き擬似音声認識タスクを定式化する。
このプロセスは独自のものであり、低コストの第2段階のトレーニングとして適用することができる。
論文 参考訳(メタデータ) (2022-05-02T17:59:02Z) - Tokenwise Contrastive Pretraining for Finer Speech-to-BERT Alignment in
End-to-End Speech-to-Intent Systems [31.18865184576272]
この作業は、音声の埋め込みとBERTの埋め込みをトークン単位で整列させる、ずっと効率的できめ細かな方法で、これを行うためのステップです。
音声エンコーダからトークンレベルのコンテキスト埋め込みを抽出するために,クロスモーダルアテンション機構を用いた,シンプルながら斬新な手法を提案する。
音声を用いて意図認識を行うための事前訓練モデルの微調整により、2つの広く使用されているSLUデータセット上での最先端の性能が直接得られる。
論文 参考訳(メタデータ) (2022-04-11T15:24:25Z) - Combining Unsupervised and Text Augmented Semi-Supervised Learning for
Low Resourced Autoregressive Speech Recognition [7.067186994804316]
我々は教師なしの方法で最先端のコンフォーマーモデルを事前訓練する。
追加のテキストデータは、外部言語モデルによって組み込まれている。
最終的なパフォーマンスは、半教師付きトレーニングにCTCベースのデコードを使用する場合、2%向上した絶対値である。
論文 参考訳(メタデータ) (2021-10-29T14:59:18Z) - WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech
Processing [102.45426364965887]
そこで本研究では,フルスタックダウンストリーム音声タスクを解決するための,事前学習型モデルWavLMを提案する。
WavLMはHuBERTフレームワークに基づいて構築されており、音声コンテンツモデリングと話者アイデンティティ保存の両方に重点を置いている。
トレーニングデータセットを60k時間から94k時間までの公開オーディオデータにスケールアップし、そのトレーニング手順を最適化して表現抽出を改善する。
論文 参考訳(メタデータ) (2021-10-26T17:55:19Z) - COCO-LM: Correcting and Contrasting Text Sequences for Language Model
Pretraining [59.169836983883656]
COCO-LMは、チャレンジングなエラーとテキストシーケンスの変換によって言語モデルを事前学習する新しい自己監視学習フレームワークです。
COCO-LMは、オリジナルのテキストシーケンスでマスク&予測トークンに補助言語モデルを採用しています。
分析の結果,coco-lmのアドバンテージは,困難なトレーニング信号,よりコンテキスト化されたトークン表現,正規化されたシーケンス表現であることがわかった。
論文 参考訳(メタデータ) (2021-02-16T22:24:29Z) - Joint Masked CPC and CTC Training for ASR [29.41599824919278]
ラベル付きデータとラベル付きデータの両方を利用するASRモデルの単段階トレーニングを実演する。
本研究では、教師なしデータを用いた下流ASRタスクにおいて、この共同学習手法が直接最適化されていることを示す。
論文 参考訳(メタデータ) (2020-10-30T20:28:20Z) - Semi-Supervised Spoken Language Understanding via Self-Supervised Speech
and Language Model Pretraining [64.35907499990455]
そこで本稿では,音声から意味論を直接学習するフレームワークを提案する。
我々のフレームワークは、事前訓練されたエンドツーエンド(E2E)ASRとBERTのような自己教師型言語モデルに基づいて構築されている。
並行して,SLUモデルを評価するための重要な基準として,環境騒音汚染度とE2Eセマンティクス評価の2つがあげられる。
論文 参考訳(メタデータ) (2020-10-26T18:21:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。