論文の概要: Continual-wav2vec2: an Application of Continual Learning for
Self-Supervised Automatic Speech Recognition
- arxiv url: http://arxiv.org/abs/2107.13530v1
- Date: Mon, 26 Jul 2021 10:39:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-30 02:35:45.203002
- Title: Continual-wav2vec2: an Application of Continual Learning for
Self-Supervised Automatic Speech Recognition
- Title(参考訳): 連続型wav2vec2:自己教師付き自動音声認識への連続学習の適用
- Authors: Samuel Kessler, Bethan Thomas, Salah Karout
- Abstract要約: 自己教師付き学習(SSL)を用いた複数言語における音声表現の連続学習法を提案する。
Wav2vecモデルは、事前トレーニングフェーズで生オーディオ上でSSLを実行し、アノテートされた少数のデータに対して微調整を行う。
新しい言語タスクの事前学習を高速化するために、継続学習からのアイデアを、以前のタスクから知識を伝達するために使用します。
- 参考スコア(独自算出の注目度): 0.23872611575805824
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a method for continual learning of speech representations for
multiple languages using self-supervised learning (SSL) and applying these for
automatic speech recognition. There is an abundance of unannotated speech, so
creating self-supervised representations from raw audio and finetuning on a
small annotated datasets is a promising direction to build speech recognition
systems. Wav2vec models perform SSL on raw audio in a pretraining phase and
then finetune on a small fraction of annotated data. SSL models have produced
state of the art results for ASR. However, these models are very expensive to
pretrain with self-supervision. We tackle the problem of learning new language
representations continually from audio without forgetting a previous language
representation. We use ideas from continual learning to transfer knowledge from
a previous task to speed up pretraining a new language task. Our
continual-wav2vec2 model can decrease pretraining times by 32% when learning a
new language task, and learn this new audio-language representation without
forgetting previous language representation.
- Abstract(参考訳): 本稿では,自己教師付き学習(ssl)を用いた複数言語用音声表現の連続学習手法を提案し,これらを自動音声認識に適用する。
注釈なしの音声は豊富であり、生の音声から自己教師付き表現を作成し、小さな注釈付きデータセットで微調整することは、音声認識システムを構築するための有望な方向である。
wav2vecモデルは、プリトレーニングフェーズで生オーディオ上でsslを実行し、少量の注釈付きデータで微調整する。
SSLモデルは、ASRのアート結果の状態を生んでいる。
しかし、これらのモデルは自己スーパービジョンで事前訓練するために非常に高価である。
従来の言語表現を忘れずに音声から新しい言語表現を継続的に学習する問題に取り組む。
新しい言語タスクの事前学習を高速化するために、継続学習からのアイデアを用いて、以前のタスクから知識を伝達する。
連続型wav2vec2モデルは,新しい言語タスクを学習する場合,事前学習時間を32%削減し,この新たな音声言語表現を以前の言語表現を忘れずに学習できる。
関連論文リスト
- Efficient Training for Multilingual Visual Speech Recognition: Pre-training with Discretized Visual Speech Representation [55.15299351110525]
本稿では,1つの訓練されたモデルで異なる言語を認識可能な文レベル多言語視覚音声認識(VSR)について検討する。
視覚音声単位を用いた新しい学習手法を提案する。
我々は、従来の言語固有のVSRモデルに匹敵する性能を達成し、最先端の多言語VSRのパフォーマンスを新たに設定した。
論文 参考訳(メタデータ) (2024-01-18T08:46:02Z) - Multilingual self-supervised speech representations improve the speech
recognition of low-resource African languages with codeswitching [65.74653592668743]
微細な自己教師型多言語表現は絶対単語誤り率を最大20%削減する。
訓練データに制限のある状況では、自己教師付き表現を微調整することが、より良いパフォーマンスと実行可能なソリューションである。
論文 参考訳(メタデータ) (2023-11-25T17:05:21Z) - Teach me with a Whisper: Enhancing Large Language Models for Analyzing
Spoken Transcripts using Speech Embeddings [8.660203441911554]
本稿では,音声データを利用した言語モデルの学習手法を提案する。
これにより、テスト時のオーディオ処理オーバーヘッドを回避しつつ、音声書き起こしを解析するための言語モデルが改善される。
本実験では, 従来の言語モデルに対して, 音声書き起こし解析のタスクにおいて一貫した改善が達成された。
論文 参考訳(メタデータ) (2023-11-13T01:53:12Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - Learning Cross-lingual Visual Speech Representations [108.68531445641769]
言語横断的な自己監督型視覚表現学習は、ここ数年、研究トピックとして成長している。
我々は最近提案したRAVEn(Raw Audio-Visual Speechs)フレームワークを用いて,未ラベルデータを用いた音声-視覚モデルの事前学習を行う。
1)データ量が多いマルチ言語モデルはモノリンガルモデルよりも優れているが、データの量を維持すると、モノリンガルモデルの性能が向上する傾向にある。
論文 参考訳(メタデータ) (2023-03-14T17:05:08Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Mandarin-English Code-switching Speech Recognition with Self-supervised
Speech Representation Models [55.82292352607321]
コードスイッチング(英: Code-switching, CS)は、複数の言語が文内で使用される日常会話において一般的である。
本稿では、最近成功した自己教師付き学習(SSL)手法を用いて、CSを使わずに多くのラベルなし音声データを活用する。
論文 参考訳(メタデータ) (2021-10-07T14:43:35Z) - CSTNet: Contrastive Speech Translation Network for Self-Supervised
Speech Representation Learning [11.552745999302905]
7000の言語のうち、半数以上が絶滅の危機にさらされている。
音声に対応するテキスト翻訳は比較的容易である。
音声から言語表現を抽出できる畳み込みニューラルネットワークオーディオエンコーダを構築する。
論文 参考訳(メタデータ) (2020-06-04T12:21:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。