論文の概要: Guided contrastive self-supervised pre-training for automatic speech
recognition
- arxiv url: http://arxiv.org/abs/2210.12335v1
- Date: Sat, 22 Oct 2022 02:38:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 18:50:27.281854
- Title: Guided contrastive self-supervised pre-training for automatic speech
recognition
- Title(参考訳): 自動音声認識のための指導的自己教師付き事前学習
- Authors: Aparna Khare, Minhua Wu, Saurabhchand Bhati, Jasha Droppo, Roland Maas
- Abstract要約: コントラスト予測符号化(Contrastive Predictive Coding, CPC)は、中間潜在表現と与えられたモデルの出力の相互情報を最大化する表現学習法である。
GCPC ( Guided Contrastive Predictive Coding) と呼ばれる新しいCPCの修正について述べる。
提案手法は,事前知識モデルからの表現と事前学習中のモデルの出力との相互情報を最大化し,事前学習時の事前知識注入を可能にする。
- 参考スコア(独自算出の注目度): 16.038298927903632
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contrastive Predictive Coding (CPC) is a representation learning method that
maximizes the mutual information between intermediate latent representations
and the output of a given model. It can be used to effectively initialize the
encoder of an Automatic Speech Recognition (ASR) model. We present a novel
modification of CPC called Guided Contrastive Predictive Coding (GCPC). Our
proposed method maximizes the mutual information between representations from a
prior-knowledge model and the output of the model being pre-trained, allowing
prior knowledge injection during pre-training. We validate our method on 3 ASR
tasks: German, French and English. Our method outperforms CPC pre-training on
all three datasets, reducing the Word Error Rate (WER) by 4.44%, 6.55% and
15.43% relative on the German, French and English (Librispeech) tasks
respectively, compared to training from scratch, while CPC pre-training only
brings 2.96%, 1.01% and 14.39% relative WER reduction respectively.
- Abstract(参考訳): コントラスト予測符号化(cpc)は、中間的潜在表現と与えられたモデルの出力の間の相互情報を最大化する表現学習手法である。
自動音声認識(ASR)モデルのエンコーダを効果的に初期化するために使用できる。
本稿では,GCPC ( Guided Contrastive Predictive Coding) と呼ばれる新しいCPCの修正について述べる。
提案手法は,事前知識モデルからの表現と事前学習中のモデルの出力との相互情報を最大化し,事前学習時の事前知識注入を可能にする。
提案手法をドイツ語,フランス語,英語の3つのASRタスクで検証する。
本手法は,3つのデータセットの事前学習よりも優れており,単語誤り率(WER)がドイツ語,フランス語,英語(Librispeech)のタスクに対してそれぞれ4.44%,6.55%,15.43%,CPC事前学習が2.96%,1.01%,14.39%であった。
関連論文リスト
- Unveiling the Role of Pretraining in Direct Speech Translation [14.584351239812394]
我々は,事前学習エンコーダを用いたシステムのトレーニング力学,従来のアプローチ,スクラッチからトレーニングしたシステムを比較した。
学習を通して、ランダムモデルがその予測のために音声入力からの情報を組み込むのに苦労していることを観察する。
本稿では,デコーダのクロスアテンションを微妙に変化させ,トレーニングの初期の段階からソース情報を統合することを提案する。
論文 参考訳(メタデータ) (2024-09-26T16:46:46Z) - Unsupervised Pre-training with Language-Vision Prompts for Low-Data Instance Segmentation [105.23631749213729]
低データ体制における教師なし事前学習のための新しい手法を提案する。
最近成功したプロンプト技術に触発されて,言語ビジョンプロンプトを用いた教師なし事前学習法を導入した。
提案手法は,低データ方式のCNNモデルよりも高速に収束し,性能がよいことを示す。
論文 参考訳(メタデータ) (2024-05-22T06:48:43Z) - Headless Language Models: Learning without Predicting with Contrastive
Weight Tying [0.11510009152620666]
言語モデルの自己教師付き事前訓練は通常、広範囲なトークン語彙上の確率分布を予測する。
確率予測から脱却し、コンストラッシブウェイトタイリング(CWT)を介してコントラッシブな方法で入力埋め込みを再構築することに焦点を当てた革新的な手法を提案する。
同様の計算予算における古典的 LM と比較して, 有意な +1.6 GLUE スコアの増加と, 顕著な +2.7 LAMBADA の精度向上が観察された。
論文 参考訳(メタデータ) (2023-09-15T12:20:00Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z) - Zero-Shot Automatic Pronunciation Assessment [19.971348810774046]
本稿では,事前学習した音響モデル HuBERT に基づく新しいゼロショットAPA法を提案する。
speechocean762の実験結果から,提案手法は教師付き回帰ベースラインに匹敵する性能を示した。
論文 参考訳(メタデータ) (2023-05-31T05:17:17Z) - Supervision-Guided Codebooks for Masked Prediction in Speech
Pre-training [102.14558233502514]
自己教師型学習(SSL)における事前学習のマズード予測は,音声認識における顕著な進歩をみせている。
本稿では,自動音声認識(ASR)の性能向上のための2つの教師付きコードブック生成手法を提案する。
論文 参考訳(メタデータ) (2022-06-21T06:08:30Z) - A Method to Reveal Speaker Identity in Distributed ASR Training, and How
to Counter It [3.18475216176047]
学習発話の話者の同一性を明らかにするための第1の手法を,勾配のみへのアクセスで設計する。
我々は、LibriSpeechデータセット上で34%のトップ1精度(51%のトップ5精度)で話者の身元を明らかにすることができることを示した。
論文 参考訳(メタデータ) (2021-04-15T23:15:12Z) - You Do Not Need More Data: Improving End-To-End Speech Recognition by
Text-To-Speech Data Augmentation [59.31769998728787]
我々は、ASRトレーニングデータベース上にTSシステムを構築し、合成音声でデータを拡張し、認識モデルを訓練する。
テストクリーンはWER 4.3%,他のテストクリーンは13.5%で、このシステムはLibriSpeechトレインクリーン100で訓練されたエンドツーエンドASRの競争結果を確立している。
論文 参考訳(メタデータ) (2020-05-14T17:24:57Z) - Incremental Learning for End-to-End Automatic Speech Recognition [41.297106772785206]
エンドツーエンド自動音声認識(ASR)のための漸進的学習法を提案する。
本稿では, ASRモデルに対する新しい説明可能性に基づく知識蒸留を設計し, 応答に基づく知識蒸留と組み合わせて, 元のモデルの予測と予測の「理性」を維持する。
多段階連続訓練タスクの結果,提案手法は忘れを緩和する上で,既存の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-05-11T08:18:08Z) - Recall and Learn: Fine-tuning Deep Pretrained Language Models with Less
Forgetting [66.45372974713189]
本稿では,マルチタスク学習の概念を取り入れたリコール・アンド・ラーニング機構を提案し,事前学習タスクと下流タスクを共同で学習する。
実験により,本手法はGLUEベンチマークの最先端性能を実現することが示された。
我々はオープンソースのRecAdamを提供し、提案されたメカニズムをAdamに統合し、NLPコミュニティを施設化する。
論文 参考訳(メタデータ) (2020-04-27T08:59:57Z) - The Right Tool for the Job: Matching Model and Instance Complexities [62.95183777679024]
NLPモデルが大きくなればなるほど、訓練されたモデルを実行するには、金銭的・環境的なコストを発生させる重要な計算資源が必要である。
我々は、推論中、早期(かつ高速)の"exit"を可能にする文脈表現微調整の修正を提案する。
3つのテキスト分類データセットと2つの自然言語推論ベンチマークの2つのタスクで、5つの異なるデータセットに対して提案した修正を検証した。
論文 参考訳(メタデータ) (2020-04-16T04:28:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。