論文の概要: An Exploration of Self-Supervised Pretrained Representations for
End-to-End Speech Recognition
- arxiv url: http://arxiv.org/abs/2110.04590v1
- Date: Sat, 9 Oct 2021 15:06:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-12 19:21:20.773828
- Title: An Exploration of Self-Supervised Pretrained Representations for
End-to-End Speech Recognition
- Title(参考訳): エンドツーエンド音声認識のための自己教師付き事前訓練表現の探索
- Authors: Xuankai Chang, Takashi Maekaku, Pengcheng Guo, Jing Shi, Yen-Ju Lu,
Aswin Shanmugam Subramanian, Tianzi Wang, Shu-wen Yang, Yu Tsao, Hung-yi Lee,
Shinji Watanabe
- Abstract要約: 本稿では,事前訓練された音声表現の一般応用,高度なエンドツーエンド自動音声認識(E2E-ASR)モデルに焦点をあてる。
いくつかの事前訓練された音声表現を選択し、E2E-ASRのための様々なオープンソースおよび公開コーパスの実験結果を示す。
- 参考スコア(独自算出の注目度): 98.70304981174748
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised pretraining on speech data has achieved a lot of progress.
High-fidelity representation of the speech signal is learned from a lot of
untranscribed data and shows promising performance. Recently, there are several
works focusing on evaluating the quality of self-supervised pretrained
representations on various tasks without domain restriction, e.g. SUPERB.
However, such evaluations do not provide a comprehensive comparison among many
ASR benchmark corpora. In this paper, we focus on the general applications of
pretrained speech representations, on advanced end-to-end automatic speech
recognition (E2E-ASR) models. We select several pretrained speech
representations and present the experimental results on various open-source and
publicly available corpora for E2E-ASR. Without any modification of the
back-end model architectures or training strategy, some of the experiments with
pretrained representations, e.g., WSJ, WSJ0-2mix with HuBERT, reach or
outperform current state-of-the-art (SOTA) recognition performance. Moreover,
we further explore more scenarios for whether the pretraining representations
are effective, such as the cross-language or overlapped speech. The scripts,
configuratons and the trained models have been released in ESPnet to let the
community reproduce our experiments and improve them.
- Abstract(参考訳): 音声データの自己教師付き事前学習は、多くの進歩を遂げた。
音声信号の忠実度表現は、多くの未書き込みデータから学習され、有望な性能を示す。
近年, ドメイン制限を伴わない, 様々なタスクにおける自己教師付き事前学習表現の品質評価に焦点をあてた研究がいくつかある。
しかし、この評価は多くのasrベンチマークコーパスを包括的に比較するものではない。
本稿では,事前訓練された音声表現の一般応用,高度なエンドツーエンド自動音声認識(E2E-ASR)モデルに焦点をあてる。
いくつかの事前訓練された音声表現を選択し、E2E-ASRのための様々なオープンソースおよび公開コーパスの実験結果を示す。
バックエンドモデルアーキテクチャやトレーニング戦略を変更することなく、例えば、WSJ、WSJ0-2mix with HuBERT、現在のSOTA(State-of-the-art)認識性能に到達または向上する実験を行う。
さらに,事前学習表現が有効であるか,あるいは重複する音声など,さらに多くのシナリオについて検討する。
スクリプト、コンフィグラトン、トレーニングされたモデルがespnetでリリースされ、コミュニティが実験を再現し、改善できるようにしました。
関連論文リスト
- Exploring Self-Supervised Multi-view Contrastive Learning for Speech Emotion Recognition with Limited Annotations [1.6008229267455227]
本稿では,大規模な音声モデルから生成されるものを含む,さまざまな音声表現に適用可能なマルチビューSSL事前学習手法を提案する。
我々の実験は、wav2vec 2.0に基づくスペクトルおよびパラ言語の特徴に基づいて、提案したフレームワークが、Unweighted Average Recallにおいて最大10%SER性能を向上することを示した。
論文 参考訳(メタデータ) (2024-06-12T06:06:55Z) - A Comparative Study of Pre-trained Speech and Audio Embeddings for
Speech Emotion Recognition [0.0]
音声感情認識(SER)には、カスタマーコールの動的分析、メンタルヘルスアセスメント、パーソナライズされた言語学習など、幅広い応用がある。
事前学習されたモデル(PTM)は、音声と音声の領域において大きな可能性を秘めている。これらのモデルから活用された埋め込みは、様々な下流タスクにおけるアプリケーションによるアルゴリズム学習のインプットとして機能する。
本研究では,4つの音声感情データセット(CREMA-D,TESS,SAVEE,Emo-DB)を用いて3つのアルゴリズムを学習し,実験的な分析を行った。
本研究の結果から, 組込みを訓練したアルゴリズムにより, 最高の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-04-22T19:56:35Z) - SPADE: Self-supervised Pretraining for Acoustic DisEntanglement [2.294014185517203]
室内音響を音声から切り離す自己教師型手法を提案する。
提案手法は,ラベル付きトレーニングデータが少ない場合に,ベースライン上での性能を著しく向上することを示す。
論文 参考訳(メタデータ) (2023-02-03T01:36:38Z) - Masked Autoencoders As The Unified Learners For Pre-Trained Sentence
Representation [77.47617360812023]
我々は、最近提案されたMAEスタイルの事前学習戦略であるRetroMAEを拡張し、幅広い文表現タスクをサポートする。
最初のステージでは、ベースモデルが学習されるWikipedia、BookCorpusなど、一般的なコーパス上でRetroMAEを実行する。
第2段階はドメイン固有のデータ、例えばMS MARCOやNLIで行われ、ベースモデルはRetroMAEとコントラスト学習に基づいて継続的に訓練される。
論文 参考訳(メタデータ) (2022-07-30T14:34:55Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo
Languages [58.43299730989809]
本稿では,音声データに対するエンコーダ・デコーダモデルの両部分を事前学習するための,最初の自己教師型アプローチであるWav2Seqを紹介する。
我々は、コンパクトな離散表現として擬似言語を誘導し、自己教師付き擬似音声認識タスクを定式化する。
このプロセスは独自のものであり、低コストの第2段階のトレーニングとして適用することができる。
論文 参考訳(メタデータ) (2022-05-02T17:59:02Z) - Representative Subset Selection for Efficient Fine-Tuning in
Self-Supervised Speech Recognition [6.450618373898492]
ASRのための自己教師型音声モデルにおいて、効率的な微調整を行うために最適なデータのサブセットを同定する作業を検討する。
自己教師型ASRにおける代表サブセット選択のためのCOWERAGEアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-03-18T10:12:24Z) - WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech
Processing [102.45426364965887]
そこで本研究では,フルスタックダウンストリーム音声タスクを解決するための,事前学習型モデルWavLMを提案する。
WavLMはHuBERTフレームワークに基づいて構築されており、音声コンテンツモデリングと話者アイデンティティ保存の両方に重点を置いている。
トレーニングデータセットを60k時間から94k時間までの公開オーディオデータにスケールアップし、そのトレーニング手順を最適化して表現抽出を改善する。
論文 参考訳(メタデータ) (2021-10-26T17:55:19Z) - Self-supervised Text-independent Speaker Verification using Prototypical
Momentum Contrastive Learning [58.14807331265752]
モーメントの対比学習によって話者埋め込みがより良く学習できることを示す。
自己監視フレームワークを、データのごく一部しかラベル付けされない半監視シナリオに一般化します。
論文 参考訳(メタデータ) (2020-12-13T23:23:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。