論文の概要: Data Augmentation based Consistency Contrastive Pre-training for
Automatic Speech Recognition
- arxiv url: http://arxiv.org/abs/2112.12522v1
- Date: Thu, 23 Dec 2021 13:23:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-24 16:31:55.507589
- Title: Data Augmentation based Consistency Contrastive Pre-training for
Automatic Speech Recognition
- Title(参考訳): データ強化に基づく自動音声認識のための一貫性コントラスト事前学習
- Authors: Changfeng Gao, Gaofeng Cheng, Yifan Guo, Qingwei Zhao, Pengyuan Zhang
- Abstract要約: 自動音声認識(ASR)タスクにおいて、自己教師付き音響事前学習は驚くべき結果を得た。
音響事前学習法の多くは、コントラスト学習を用いて音響表現を学習する。
本稿では,音声事前学習のためのデータ拡張を利用して,新しいコントラスト学習法(CCL)を設計する。
- 参考スコア(独自算出の注目度): 18.303072203996347
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised acoustic pre-training has achieved amazing results on the
automatic speech recognition (ASR) task. Most of the successful acoustic
pre-training methods use contrastive learning to learn the acoustic
representations by distinguish the representations from different time steps,
ignoring the speaker and environment robustness. As a result, the pre-trained
model could show poor performance when meeting out-of-domain data during
fine-tuning. In this letter, we design a novel consistency contrastive learning
(CCL) method by utilizing data augmentation for acoustic pre-training.
Different kinds of augmentation are applied on the original audios and then the
augmented audios are fed into an encoder. The encoder should not only contrast
the representations within one audio but also maximize the measurement of the
representations across different augmented audios. By this way, the pre-trained
model can learn a text-related representation method which is more robust with
the change of the speaker or the environment.Experiments show that by applying
the CCL method on the Wav2Vec2.0, better results can be realized both on the
in-domain data and the out-of-domain data. Especially for noisy out-of-domain
data, more than 15% relative improvement can be obtained.
- Abstract(参考訳): 自動音声認識(asr)タスクにおいて,自己教師付き音響事前学習は驚くべき結果を得た。
音響前訓練法の成功のほとんどは、異なる時間ステップから表現を区別し、話者を無視し、環境の頑健さを学習するために対照的な学習を用いる。
その結果、事前訓練されたモデルでは、微調整中にドメイン外のデータに合う場合の性能が低下する可能性がある。
本稿では,音声事前学習のためのデータ拡張を利用して,新しいコントラスト学習法(CCL)を設計する。
元のオーディオに異なる種類の拡張が適用され、拡張されたオーディオがエンコーダに入力される。
エンコーダは1つのオーディオ内の表現をコントラストするだけでなく、異なる拡張オーディオ間の表現の測定を最大化する。
このように、事前学習したモデルは、話者や環境の変化に対してより堅牢なテキスト関連表現法を学習することができ、実験により、Wav2Vec2.0にCCL法を適用することにより、ドメイン内データとドメイン外データの両方でより良い結果が得られることを示す。
特にノイズの多いドメイン外データの場合、15%以上の相対的な改善が得られる。
関連論文リスト
- AV2Wav: Diffusion-Based Re-synthesis from Continuous Self-supervised Features for Audio-Visual Speech Enhancement [18.193191170754744]
AV2Wavは再合成に基づく音声視覚音声強調手法である。
我々は、韻律や話者情報を保持するために、離散表現よりも連続表現を用いる。
提案手法は,自動計測と人間の聴取テストの両方の観点から,マスキングベースのベースラインよりも優れている。
論文 参考訳(メタデータ) (2023-09-14T21:07:53Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - Self-Supervised Learning for Audio-Based Emotion Recognition [1.7598252755538808]
自己教師付き学習は、教師付きラベルの不足にもかかわらず学習できる方法のファミリーである。
我々は,CMU-MOSEIの音響モダリティからの感情の分類に自己教師付き学習事前学習を適用した。
自己教師型学習は、すべてのメトリクスにわたるモデルの性能を一貫して改善する。
論文 参考訳(メタデータ) (2023-07-23T14:40:50Z) - Anomalous Sound Detection using Audio Representation with Machine ID
based Contrastive Learning Pretraining [52.191658157204856]
コントラスト学習を用いて、各音声サンプルではなく、各機械IDの音声表現を洗練する。
提案手法では、コントラスト学習を用いて音声表現モデルを事前学習する。
実験の結果,本手法はコントラスト学習や自己教師型分類を用いて最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-04-07T11:08:31Z) - SPADE: Self-supervised Pretraining for Acoustic DisEntanglement [2.294014185517203]
室内音響を音声から切り離す自己教師型手法を提案する。
提案手法は,ラベル付きトレーニングデータが少ない場合に,ベースライン上での性能を著しく向上することを示す。
論文 参考訳(メタデータ) (2023-02-03T01:36:38Z) - BEATs: Audio Pre-Training with Acoustic Tokenizers [77.8510930885778]
自己教師付き学習(SSL)は、ここ数年、言語、ビジョン、スピーチ、オーディオドメインで目撃されてきた。
本稿では、音声変換器から双方向表現を学習するための反復型オーディオ事前学習フレームワークBEATを提案する。
最初のイテレーションでは、ランダムプロジェクションを音響トークンとして使用し、マスクとラベル予測の方法でオーディオSSLモデルをトレーニングする。
そこで,本研究では,事前学習あるいは微調整した音声SSLモデルから意味知識を抽出することにより,次のイテレーションのための音響トークン化装置を訓練する。
論文 参考訳(メタデータ) (2022-12-18T10:41:55Z) - Fully Automated End-to-End Fake Audio Detection [57.78459588263812]
本稿では,完全自動エンドツーエンド音声検出手法を提案する。
まず、wav2vec事前学習モデルを用いて、音声の高レベル表現を得る。
ネットワーク構造には, Light-DARTS という異種アーキテクチャサーチ (DARTS) の修正版を用いる。
論文 参考訳(メタデータ) (2022-08-20T06:46:55Z) - Learning Phone Recognition from Unpaired Audio and Phone Sequences Based
on Generative Adversarial Network [58.82343017711883]
そこで本研究では,不適切な音声系列や発話から直接学習する方法について検討する。
GAN訓練を第1段階に導入し,無声音声と音声シーケンスのマッピング関係を求める。
第2段階では、発電機の出力からトレーニングするために別のHMMモデルが導入され、性能が向上する。
論文 参考訳(メタデータ) (2022-07-29T09:29:28Z) - Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo
Languages [58.43299730989809]
本稿では,音声データに対するエンコーダ・デコーダモデルの両部分を事前学習するための,最初の自己教師型アプローチであるWav2Seqを紹介する。
我々は、コンパクトな離散表現として擬似言語を誘導し、自己教師付き擬似音声認識タスクを定式化する。
このプロセスは独自のものであり、低コストの第2段階のトレーニングとして適用することができる。
論文 参考訳(メタデータ) (2022-05-02T17:59:02Z) - Recognizing More Emotions with Less Data Using Self-supervised Transfer
Learning [0.0]
本稿では,音声認識のための新しい伝達学習手法を提案する。
感情のクラス毎の125のサンプルでは、8倍のデータでトレーニングされた強いベースラインよりも高い精度を達成できたのです。
論文 参考訳(メタデータ) (2020-11-11T06:18:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。