論文の概要: Lattice-Free MMI Adaptation Of Self-Supervised Pretrained Acoustic
Models
- arxiv url: http://arxiv.org/abs/2012.14252v2
- Date: Tue, 6 Apr 2021 14:41:54 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-19 10:53:30.543402
- Title: Lattice-Free MMI Adaptation Of Self-Supervised Pretrained Acoustic
Models
- Title(参考訳): 自己教師付き事前学習音響モデルの格子フリーMMI適応
- Authors: Apoorv Vyas and Srikanth Madikeri and Herv\'e Bourlard
- Abstract要約: 自己監督型事前訓練型音響モデルの教師付き適応のための格子フリーMMI(LFMMI)を提案する。
以上の結果から, LFMMIによる微調整により, 相対的なWER改善率が10%, 35.3%であることがわかった。
- 参考スコア(独自算出の注目度): 6.338178373376447
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we propose lattice-free MMI (LFMMI) for supervised adaptation
of self-supervised pretrained acoustic model. We pretrain a Transformer model
on thousand hours of untranscribed Librispeech data followed by supervised
adaptation with LFMMI on three different datasets. Our results show that
fine-tuning with LFMMI, we consistently obtain relative WER improvements of 10%
and 35.3% on the clean and other test sets of Librispeech (100h), 10.8% on
Switchboard (300h), and 4.3% on Swahili (38h) and 4.4% on Tagalog (84h)
compared to the baseline trained only with supervised data.
- Abstract(参考訳): 本研究では,自己教師付き事前学習音響モデルの教師付き適応のための格子フリーMMI(LFMMI)を提案する。
我々はトランスフォーマーモデルを無転写のLibrispeechデータから数千時間プレトレーニングし、3つの異なるデータセット上で LFMMI による教師付き適応を行った。
LFMMIによる微調整の結果, クリーンおよび他のテストセットであるLibrispeech (100h), 10.8%, Switchboard (300h), 4.3%, Swahili (38h), 4.4%, Tagalog (84h) の相対的なWER改善率は, 教師付きデータでのみ訓練されたベースラインと比較して一貫して10%, 35.3%であった。
関連論文リスト
- DataComp-LM: In search of the next generation of training sets for language models [200.5293181577585]
DataComp for Language Models (DCLM)は、制御されたデータセット実験のためのテストベッドであり、言語モデルを改善することを目的としている。
我々は、Common Crawlから抽出された240Tトークンの標準化コーパス、OpenLMフレームワークに基づく効果的な事前学習レシピ、53の下流評価スイートを提供する。
DCLMベンチマークの参加者は、412Mから7Bパラメータのモデルスケールでの重複、フィルタリング、データ混合などのデータキュレーション戦略を実験することができる。
論文 参考訳(メタデータ) (2024-06-17T17:42:57Z) - DigiRL: Training In-The-Wild Device-Control Agents with Autonomous Reinforcement Learning [61.10299147201369]
本稿では,Wild デバイス制御エージェントをトレーニングするための新しい自律型 RL 手法である DigiRL を提案する。
VLMベースの評価器を備えた,スケーラブルで並列化可能なAndroid学習環境を構築する。
我々はAndroid-in-the-Wildデータセットを使用してDigiRLの有効性を実証し、RLでトレーニングした1.3B VLMは49.5%の絶対改善を実現した。
論文 参考訳(メタデータ) (2024-06-14T17:49:55Z) - SLYKLatent: A Learning Framework for Gaze Estimation Using Deep Facial Feature Learning [0.0]
SLYKLatentは、データセットの外観不安定性問題に対処することで、視線推定を向上するための新しいアプローチである。
SLYKLatentは、自己教師付き学習を使用して、表情データセットでの初期トレーニングを行い、その後、パッチベースのトリブランチネットワークで改善する。
ベンチマークデータセットの評価では、Gaze360が10.9%改善され、トップMPIIFaceGazeの3.8%に取って代わられ、ETH-XGazeのサブセットが11.6%向上した。
論文 参考訳(メタデータ) (2024-02-02T16:47:18Z) - Self-Supervised Pretraining Improves Performance and Inference
Efficiency in Multiple Lung Ultrasound Interpretation Tasks [65.23740556896654]
肺超音波検査における複数分類課題に適用可能なニューラルネットワーク特徴抽出器を,自己指導型プレトレーニングで作成できるかどうかを検討した。
3つの肺超音波のタスクを微調整すると、事前訓練されたモデルにより、各テストセットの受信操作曲線(AUC)における平均クロスタスク面積は、それぞれ0.032と0.061に改善された。
論文 参考訳(メタデータ) (2023-09-05T21:36:42Z) - Speech separation with large-scale self-supervised learning [41.96634125460265]
WavLMのような自己教師付き学習(SSL)手法は、小規模なシミュレーションに基づく実験において、有望な音声分離(SS)結果を示している。
トレーニング済みデータ(300K時間以上)と微調整データ(10K時間以上)の両方を大規模にスケールアップすることで、SSLベースのSSの探索を拡張します。
論文 参考訳(メタデータ) (2022-11-09T20:00:21Z) - Improving the Training Recipe for a Robust Conformer-based Hybrid Model [46.78701739177677]
コンバータベース音響モデル(AM)の特徴空間アプローチに基づく話者適応訓練(SAT)の様々な手法について検討する。
本稿では,コンバータAMのマルチヘッド自己アテンションモジュールの入力に重み付き話者情報ベクトルを追加する重み付きSimple-Addを提案する。
Switchboard 300h Hub5'00データセットのワードエラーレート(WER)で11%の相対的な改善を実現したレシピを拡張して改善する。
論文 参考訳(メタデータ) (2022-06-26T20:01:08Z) - Alexa Teacher Model: Pretraining and Distilling Multi-Billion-Parameter
Encoders for Natural Language Understanding Systems [63.713297451300086]
本研究では,700Mから9.3Bまでの非埋め込みパラメータ数を持つ事前学習エンコーダの大規模実験結果について述べる。
その後、17M-170Mパラメータからより小さなモデルに蒸留し、仮想アシスタントシステムの自然言語理解(NLU)コンポーネントに応用した。
論文 参考訳(メタデータ) (2022-06-15T20:44:23Z) - DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with
Gradient-Disentangled Embedding Sharing [117.41016786835452]
本稿では,DeBERTaモデルの改良を目的とした,事前学習型言語モデルDeBERTaV3を提案する。
ELECTRAでのバニラ埋め込み共有は、トレーニング効率とモデルパフォーマンスを損なう。
そこで本研究では、タグ・オブ・ウォーのダイナミクスを回避するために、新しい勾配距離の埋め込み方式を提案する。
論文 参考訳(メタデータ) (2021-11-18T06:48:00Z) - Exploiting Large-scale Teacher-Student Training for On-device Acoustic
Models [15.237992590162593]
音響モデル(AM)の半教師付き学習(SSL)におけるAlexa音声チームの結果を示す。
少数のフットプリント設定でAMのSSLについて議論し、100万時間の教師なしデータで訓練されたより小さなキャパシティモデルが、14.3%のワードエラー率削減(WERR)によってベースライン監視システムより優れていることを示した。
教師なしデータによる学習効率が高い一方で、学生モデルはそのような設定で教師モデルよりも優れています。
論文 参考訳(メタデータ) (2021-06-11T02:23:40Z) - Comparing CTC and LFMMI for out-of-domain adaptation of wav2vec 2.0
acoustic model [6.338178373376447]
wav2vec 2.0自己監督プリトレーニングが、接続主義の時系列分類におけるオーバーフィット問題を緩和するのに役立つかどうかを検討する。
wav2vec 2.0モデルの教師付き適応には、E2E-LFMMIとCTCの両方が同様の結果を得る。
babel言語では,スワヒリ語では26%,スワヒリ語では23%,タガログ語では17%,タガログ語では17%の相対的改善が得られた。
論文 参考訳(メタデータ) (2021-04-06T14:56:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。