論文の概要: A Further Study of Unsupervised Pre-training for Transformer Based
Speech Recognition
- arxiv url: http://arxiv.org/abs/2005.09862v2
- Date: Tue, 23 Jun 2020 03:57:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-01 05:58:43.698529
- Title: A Further Study of Unsupervised Pre-training for Transformer Based
Speech Recognition
- Title(参考訳): 変圧器に基づく音声認識のための教師なし事前学習の検討
- Authors: Dongwei Jiang, Wubo Li, Ruixiong Zhang, Miao Cao, Ne Luo, Yang Han,
Wei Zou, Xiangang Li
- Abstract要約: Masked Predictive Codingは、BERTライクなMasked Reconstructionの損失とTransformerのバックボーンによる音声認識データセットを大幅に改善した。
本稿では、事前学習したデータ発話スタイルの効果、ストリーミングモデルの拡張、学習した知識を事前学習段階から下流タスクへ伝達する方法の3つの重要な側面に焦点を当てる。
- 参考スコア(独自算出の注目度): 19.415695923461342
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Building a good speech recognition system usually requires large amounts of
transcribed data, which is expensive to collect. To tackle this problem, many
unsupervised pre-training methods have been proposed. Among these methods,
Masked Predictive Coding achieved significant improvements on various speech
recognition datasets with BERT-like Masked Reconstruction loss and Transformer
backbone. However, many aspects of MPC have not been fully investigated. In
this paper, we conduct a further study on MPC and focus on three important
aspects: the effect of pre-training data speaking style, its extension on
streaming model, and how to better transfer learned knowledge from pre-training
stage to downstream tasks. Experiments reveled that pre-training data with
matching speaking style is more useful on downstream recognition tasks. A
unified training objective with APC and MPC provided 8.46% relative error
reduction on streaming model trained on HKUST. Also, the combination of target
data adaption and layer-wise discriminative training helped the knowledge
transfer of MPC, which achieved 3.99% relative error reduction on AISHELL over
a strong baseline.
- Abstract(参考訳): 優れた音声認識システムを構築するには、通常大量の書き起こしデータを必要とする。
この問題に対処するために,教師なし事前学習法が多数提案されている。
これらの手法のうち、マスキング予測符号化はbert様のマスキング再構成損失とトランスフォーマーバックボーンを持つ様々な音声認識データセットにおいて著しく改善された。
しかし、mpcの多くの側面は十分に調査されていない。
本稿では,mpcに関するさらなる研究を行い,データスピーキングスタイルがストリーミングモデルに与える影響,学習知識を事前学習段階から下流タスクに伝達する方法,という3つの重要な側面に注目した。
実験では、会話スタイルに合わせた事前学習データが下流認識タスクでより有用であることを示した。
APCとMPCの統合トレーニング目標により、HKUSTでトレーニングされたストリーミングモデルに対して、相対誤差が8.46%削減された。
また、ターゲットデータ適応と層単位での識別訓練を組み合わせることで、MPCの知識伝達に寄与し、AISHELLを強力なベースラインで3.99%の相対誤差削減を達成した。
関連論文リスト
- Contrastive Augmentation: An Unsupervised Learning Approach for Keyword Spotting in Speech Technology [4.080686348274667]
教師なしコントラスト学習と拡張一意的手法を組み合わせた新しい手法を提案する。
我々の方法では、ニューラルネットワークがラベルのないデータセットでトレーニングすることができ、下流タスクのパフォーマンスが向上する可能性がある。
本稿では,ボトルネック層の特徴と音声再構成情報との類似性を利用した音声強化に基づく教師なし学習手法を提案する。
論文 参考訳(メタデータ) (2024-08-31T05:40:37Z) - What to Remember: Self-Adaptive Continual Learning for Audio Deepfake
Detection [53.063161380423715]
既存の検出モデルは、既知のディープフェイク音声を識別することに成功したが、新しい攻撃タイプに遭遇する際には苦労している。
本稿では,Radian Weight Modification (RWM) と呼ばれる連続的な学習手法を提案する。
論文 参考訳(メタデータ) (2023-12-15T09:52:17Z) - Selectivity Drives Productivity: Efficient Dataset Pruning for Enhanced
Transfer Learning [66.20311762506702]
データセットプルーニング(DP)は、データ効率を改善する効果的な方法として登場した。
本稿では,ラベルマッピングと特徴マッピングという2つの新しいDP手法を提案する。
ダウンストリーム性能を犠牲にすることなく、ソースデータクラスを最大40%まで刈り取ることができることを示す。
論文 参考訳(メタデータ) (2023-10-13T00:07:49Z) - Fast Machine Unlearning Without Retraining Through Selective Synaptic
Dampening [51.34904967046097]
Selective Synaptic Dampening (SSD)は高速で、訓練データの長期保存を必要としない。
高速で性能が高く,トレーニングデータの長期保存を必要としない,新しい2段階のポストホック,リトレーニングフリーなマシンアンラーニング手法を提案する。
論文 参考訳(メタデータ) (2023-08-15T11:30:45Z) - Guided contrastive self-supervised pre-training for automatic speech
recognition [16.038298927903632]
コントラスト予測符号化(Contrastive Predictive Coding, CPC)は、中間潜在表現と与えられたモデルの出力の相互情報を最大化する表現学習法である。
GCPC ( Guided Contrastive Predictive Coding) と呼ばれる新しいCPCの修正について述べる。
提案手法は,事前知識モデルからの表現と事前学習中のモデルの出力との相互情報を最大化し,事前学習時の事前知識注入を可能にする。
論文 参考訳(メタデータ) (2022-10-22T02:38:43Z) - On monoaural speech enhancement for automatic recognition of real noisy
speech using mixture invariant training [33.79711018198589]
既存の混合不変訓練基準を拡張して、未ペア音声と実雑音データの両方を利用する。
実雑音音声から分離した音声の品質を向上させるためには, 未ペアクリーン音声が不可欠であることがわかった。
提案手法は、処理成果物を軽減するために、処理された信号と処理されていない信号のリミックスも行う。
論文 参考訳(メタデータ) (2022-05-03T19:37:58Z) - Improved Speech Emotion Recognition using Transfer Learning and
Spectrogram Augmentation [56.264157127549446]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な役割を果たす課題である。
SERの主な課題の1つは、データの不足である。
本稿では,スペクトログラム拡張と併用した移動学習戦略を提案する。
論文 参考訳(メタデータ) (2021-08-05T10:39:39Z) - Streaming end-to-end speech recognition with jointly trained neural
feature enhancement [20.86554979122057]
そこで本研究では,MoCha(Motonic Chunkwise Attention)を用いたストリーミングエンドツーエンド音声認識モデルを提案する。
GAEF(Gradual Application of Enhanced Features)とGREL(Gradual Reduction of Enhanced Loss)の2つのトレーニング戦略を導入する。
論文 参考訳(メタデータ) (2021-05-04T02:25:41Z) - Improving speech recognition models with small samples for air traffic
control systems [9.322392779428505]
本研究では, 小さなトレーニングサンプルの課題に対処すべく, 事前学習とトランスファー学習に基づく新しいトレーニング手法を提案する。
3つの実際のATCデータセットを使用して、提案されたASRモデルとトレーニング戦略を検証する。
実験の結果,ASRの性能は3つのデータセットで大幅に向上した。
論文 参考訳(メタデータ) (2021-02-16T08:28:52Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z) - Recall and Learn: Fine-tuning Deep Pretrained Language Models with Less
Forgetting [66.45372974713189]
本稿では,マルチタスク学習の概念を取り入れたリコール・アンド・ラーニング機構を提案し,事前学習タスクと下流タスクを共同で学習する。
実験により,本手法はGLUEベンチマークの最先端性能を実現することが示された。
我々はオープンソースのRecAdamを提供し、提案されたメカニズムをAdamに統合し、NLPコミュニティを施設化する。
論文 参考訳(メタデータ) (2020-04-27T08:59:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。