論文の概要: Comparing CTC and LFMMI for out-of-domain adaptation of wav2vec 2.0
acoustic model
- arxiv url: http://arxiv.org/abs/2104.02558v1
- Date: Tue, 6 Apr 2021 14:56:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-07 13:48:30.801486
- Title: Comparing CTC and LFMMI for out-of-domain adaptation of wav2vec 2.0
acoustic model
- Title(参考訳): wav2vec 2.0音響モデルの領域外適応のためのCTCとLFMMIの比較
- Authors: Apoorv Vyas, Srikanth Madikeri, Herv\'e Bourlard
- Abstract要約: wav2vec 2.0自己監督プリトレーニングが、接続主義の時系列分類におけるオーバーフィット問題を緩和するのに役立つかどうかを検討する。
wav2vec 2.0モデルの教師付き適応には、E2E-LFMMIとCTCの両方が同様の結果を得る。
babel言語では,スワヒリ語では26%,スワヒリ語では23%,タガログ語では17%,タガログ語では17%の相対的改善が得られた。
- 参考スコア(独自算出の注目度): 6.338178373376447
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we investigate if the wav2vec 2.0 self-supervised pretraining
helps mitigate the overfitting issues with connectionist temporal
classification (CTC) training to reduce its performance gap with flat-start
lattice-free MMI (E2E-LFMMI) for automatic speech recognition with limited
training data. Towards that objective, we use the pretrained wav2vec 2.0 BASE
model and fine-tune it on three different datasets including out-of-domain
(Switchboard) and cross-lingual (Babel) scenarios. Our results show that for
supervised adaptation of the wav2vec 2.0 model, both E2E-LFMMI and CTC achieve
similar results; significantly outperforming the baselines trained only with
supervised data. Fine-tuning the wav2vec 2.0 model with E2E-LFMMI and CTC we
obtain the following relative WER improvements over the supervised baseline
trained with E2E-LFMMI. We get relative improvements of 40% and 44% on the
clean-set and 64% and 58% on the test set of Librispeech (100h) respectively.
On Switchboard (300h) we obtain relative improvements of 33% and 35%
respectively. Finally, for Babel languages, we obtain relative improvements of
26% and 23% on Swahili (38h) and 18% and 17% on Tagalog (84h) respectively.
- Abstract(参考訳): 本稿では,wav2vec 2.0の自己教師付き事前学習が,コネクショニスト時相分類(ctc)訓練における過剰適合問題を緩和し,学習データに制限のある自動音声認識のためのフラットスタートラッチフリーmmi(e2e-lfmmi)による性能ギャップを低減できるかどうかについて検討する。
その目的に向けて、事前訓練されたwav2vec 2.0 BASEモデルを使用し、ドメイン外(Switchboard)とクロスランガル(Babel)シナリオを含む3つの異なるデータセットでそれを微調整します。
以上の結果から,wav2vec 2.0モデルの教師付き適応において,E2E-LFMMIとCTCはともに同様の結果が得られた。
E2E-LFMMIとCTCによるwav2vec 2.0モデルの微調整を行い、E2E-LFMMIでトレーニングした教師ベースラインに対して、以下の相対的なWERの改善を得た。
クリーンセットの40%と44%,テストセットのLibrispeech(100h)の64%と58%の相対的な改善が得られました。
スイッチボード(300h)では,それぞれ33%,35%の相対的改善が得られた。
最後に,バベル言語では,スワヒリ語では26%,スワヒリ語では23%,タガログ語では17%,タガログ語では17%の相対的改善が得られた。
関連論文リスト
- Stuttering Detection Using Speaker Representations and Self-supervised
Contextual Embeddings [7.42741711946564]
本稿では,大規模音声データセットを訓練した事前学習したディープラーニングモデルから抽出した音声埋め込みの適用について紹介する。
限られたSEP-28kデータセットでのみトレーニングされた標準SDシステムと比較して、ベースラインを上回る平均リコール(UAR)で12.08%、28.71%、37.9%の相対的な改善が得られた。
論文 参考訳(メタデータ) (2023-06-01T14:00:47Z) - Exploring Self-supervised Pre-trained ASR Models For Dysarthric and
Elderly Speech Recognition [57.31233839489528]
本稿では,TDNN と Conformer ASR システムにドメイン適応型SSL事前訓練モデルを統合する手法について検討する。
論文 参考訳(メタデータ) (2023-02-28T13:39:17Z) - Audio-Visual Efficient Conformer for Robust Speech Recognition [91.3755431537592]
本稿では,近年提案されている高能率コンバータ接続性時間分類アーキテクチャの雑音を,音声と視覚の両方を処理して改善することを提案する。
実験の結果,音声と視覚のモダリティを用いることで,環境騒音の存在下での音声の認識が向上し,トレーニングが大幅に加速し,WERが4倍のトレーニングステップで低下することが確認された。
論文 参考訳(メタデータ) (2023-01-04T05:36:56Z) - Adapted Multimodal BERT with Layer-wise Fusion for Sentiment Analysis [84.12658971655253]
本稿では,マルチモーダルタスクのためのBERTベースのアーキテクチャであるAdapted Multimodal BERTを提案する。
アダプタはタスクの事前訓練された言語モデルを手動で調整し、融合層はタスク固有の層ワイドな音声視覚情報とテキストBERT表現を融合させる。
われわれは、このアプローチがより効率的なモデルにつながり、微調整されたモデルよりも優れ、ノイズの入力に堅牢であることを示した。
論文 参考訳(メタデータ) (2022-12-01T17:31:42Z) - CCC-wav2vec 2.0: Clustering aided Cross Contrastive Self-supervised
learning of speech representations [1.2031796234206138]
本稿では,クラスタリングと拡張に基づくクロスコントラスト損失を自己管理対象とする,ccc-wav2vec 2.0という新たな事前学習戦略を提案する。
ccc-wav2vec 2.0は、言語モデルを用いることなく、それぞれLibriSpeechのテストクリーンおよびテスト他のセットのベースラインwav2vec 2.0に対する15.6%と12.7%の相対的なWER改善を実現している。
論文 参考訳(メタデータ) (2022-10-05T22:44:35Z) - Alexa Teacher Model: Pretraining and Distilling Multi-Billion-Parameter
Encoders for Natural Language Understanding Systems [63.713297451300086]
本研究では,700Mから9.3Bまでの非埋め込みパラメータ数を持つ事前学習エンコーダの大規模実験結果について述べる。
その後、17M-170Mパラメータからより小さなモデルに蒸留し、仮想アシスタントシステムの自然言語理解(NLU)コンポーネントに応用した。
論文 参考訳(メタデータ) (2022-06-15T20:44:23Z) - On-demand compute reduction with stochastic wav2vec 2.0 [63.22845151306881]
本稿では、wav2vec 2.0(W2V2)モデルに対するオンデマンドの計算量削減のための圧縮を提案する。
960hのLibrispeechデータセットで事前学習し、10hの転写データに微調整を行った結果,同じモデルを用いて単語誤り率(WER)と推測時間とのスムーズなトレードオフが得られた。
論文 参考訳(メタデータ) (2022-04-25T19:25:46Z) - DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with
Gradient-Disentangled Embedding Sharing [117.41016786835452]
本稿では,DeBERTaモデルの改良を目的とした,事前学習型言語モデルDeBERTaV3を提案する。
ELECTRAでのバニラ埋め込み共有は、トレーニング効率とモデルパフォーマンスを損なう。
そこで本研究では、タグ・オブ・ウォーのダイナミクスを回避するために、新しい勾配距離の埋め込み方式を提案する。
論文 参考訳(メタデータ) (2021-11-18T06:48:00Z) - Performance-Efficiency Trade-offs in Unsupervised Pre-training for
Speech Recognition [32.61769580342906]
我々は、wav2vec 2.0にフォーカスし、モデルの性能と効率の両方に影響を与えるいくつかのアーキテクチャ設計を定式化します。
本稿では,性能と効率の両面で大幅な改善を施した事前学習型モデルアーキテクチャであるSEW(Squeezed and Efficient Wav2vec)を紹介する。
論文 参考訳(メタデータ) (2021-09-14T17:58:09Z) - Lattice-Free MMI Adaptation Of Self-Supervised Pretrained Acoustic
Models [6.338178373376447]
自己監督型事前訓練型音響モデルの教師付き適応のための格子フリーMMI(LFMMI)を提案する。
以上の結果から, LFMMIによる微調整により, 相対的なWER改善率が10%, 35.3%であることがわかった。
論文 参考訳(メタデータ) (2020-12-28T14:53:28Z) - Exploring wav2vec 2.0 on speaker verification and language
identification [9.047596226273495]
Wav2vec 2.0は、音声認識学習のための自己監視フレームワークである。
本稿では,wav2vec 2.0を話者照合と言語識別に拡張する。
話者検証のために、VoxCeleb1データセットで3.61%の新しい最新結果であるEqual Error Rate (EER)を取得します。
言語識別のために、1秒条件で12.02%のEERと、AP17-OLRデータセットの全長条件で3.47%のEERを得る。
論文 参考訳(メタデータ) (2020-12-11T08:22:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。