論文の概要: Replay to Remember: Continual Layer-Specific Fine-tuning for German
Speech Recognition
- arxiv url: http://arxiv.org/abs/2307.07280v2
- Date: Wed, 18 Oct 2023 10:36:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-19 13:10:52.159741
- Title: Replay to Remember: Continual Layer-Specific Fine-tuning for German
Speech Recognition
- Title(参考訳): リプレイ・トゥ・メモリ:ドイツ音声認識のための連続層特異的微調整
- Authors: Theresa Pekarek Rosin, Stefan Wermter
- Abstract要約: 大規模ASRモデルの性能は,より小さな領域に対してどのように近似できるかを検討する。
本研究では,ASRモデルの頑健性を高めるために,連続学習に経験リプレイを適用した。
- 参考スコア(独自算出の注目度): 19.635428830237842
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While Automatic Speech Recognition (ASR) models have shown significant
advances with the introduction of unsupervised or self-supervised training
techniques, these improvements are still only limited to a subsection of
languages and speakers. Transfer learning enables the adaptation of large-scale
multilingual models to not only low-resource languages but also to more
specific speaker groups. However, fine-tuning on data from new domains is
usually accompanied by a decrease in performance on the original domain.
Therefore, in our experiments, we examine how well the performance of
large-scale ASR models can be approximated for smaller domains, with our own
dataset of German Senior Voice Commands (SVC-de), and how much of the general
speech recognition performance can be preserved by selectively freezing parts
of the model during training. To further increase the robustness of the ASR
model to vocabulary and speakers outside of the fine-tuned domain, we apply
Experience Replay for continual learning. By adding only a fraction of data
from the original domain, we are able to reach Word-Error-Rates (WERs) below
5\% on the new domain, while stabilizing performance for general speech
recognition at acceptable WERs.
- Abstract(参考訳): 自動音声認識(ASR)モデルは、教師なしまたは教師なしの訓練技術の導入によって大きな進歩を見せているが、これらの改善は言語と話者のサブセクションに限られている。
転送学習により、大規模多言語モデルの低リソース言語だけでなく、より特定の話者グループにも適応することができる。
しかし、新しいドメインからのデータの微調整は通常、元のドメインのパフォーマンスが低下する。
そこで本研究では,大規模asrモデルの性能を,ドイツ上級音声コマンド(svc-de)のデータセットを用いて,より小さな領域で近似し,訓練中にモデルを選択的に凍結することにより,一般音声認識性能がどの程度保持できるかを検証した。
細調整領域外の語彙や話者に対するASRモデルの堅牢性をさらに高めるため,連続学習にエクスペリエンス・リプレイを適用した。
元のドメインからほんのわずかなデータを追加することで、新しいドメインで単語誤り率(wers)が5\%未満になると同時に、許容可能なwerで一般的な音声認識のパフォーマンスを安定させることができる。
関連論文リスト
- SER Evals: In-domain and Out-of-domain Benchmarking for Speech Emotion Recognition [3.4355593397388597]
音声感情認識(SER)は、強力な自己教師付き学習(SSL)モデルの出現に大きく貢献している。
本稿では,最先端SERモデルの堅牢性と適応性を評価するための大規模ベンチマークを提案する。
主に音声認識用に設計されたWhisperモデルは,言語横断SERにおいて,専用SSLモデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-08-14T23:33:10Z) - Reduce, Reuse, Recycle: Is Perturbed Data better than Other Language augmentation for Low Resource Self-Supervised Speech Models [48.44820587495038]
自己教師付き表現学習(SSRL)は、音素認識を含むタスクの教師付きモデルよりも優れた性能を示した。
SSRLモデルのトレーニングは、十分な事前学習データが入手できない低リソース言語にとって課題となる。
本稿では,低リソース環境下でのSSRLモデルの事前学習にピッチ変動,雑音付加,アクセント付きターゲット言語,その他の言語音声を用いることを提案し,音素認識の評価を行う。
論文 参考訳(メタデータ) (2023-09-22T10:09:09Z) - Improving Accented Speech Recognition with Multi-Domain Training [2.28438857884398]
我々は、4つの異なるフランス語アクセントを表す音声を用いて、事前訓練されたASRモデルの堅牢性を改善する微調整データセットを作成する。
数値実験により,アフリカやベルギーのアクセントに対して,誤り率を最大25%(相対的に)下げることができた。
論文 参考訳(メタデータ) (2023-03-14T14:10:16Z) - From English to More Languages: Parameter-Efficient Model Reprogramming
for Cross-Lingual Speech Recognition [50.93943755401025]
言語間音声認識のためのニューラルモデル再プログラミングに基づく新しいパラメータ効率学習フレームワークを提案する。
我々は、学習可能な事前学習機能強化に焦点を当てた、異なる補助的ニューラルネットワークアーキテクチャを設計する。
提案手法は,既存のASRチューニングアーキテクチャとその拡張性能を自己監督的損失で向上させる。
論文 参考訳(メタデータ) (2023-01-19T02:37:56Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - ASR data augmentation in low-resource settings using cross-lingual
multi-speaker TTS and cross-lingual voice conversion [49.617722668505834]
提案手法は,モデル学習中に1つの話者のみを用いて音声合成と音声変換を行い,ASRシステムの改善を可能にする。
対象言語における1つの実話者のみを用いてデータ拡張法を用いて、有望なASRトレーニング結果を得ることが可能である。
論文 参考訳(メタデータ) (2022-03-29T11:55:30Z) - Visual Speech Recognition for Multiple Languages in the Wild [64.52593130370757]
より優れたVSRモデルを設計することが、より大きなトレーニングセットを使用する上でも同様に重要であることを示す。
VSRモデルに予測に基づく補助タスクを追加することを提案する。
このようなモデルは、異なる言語で動作し、公開データセット上でトレーニングされたこれまでのすべてのメソッドを大きなマージンで上回ることを示す。
論文 参考訳(メタデータ) (2022-02-26T07:21:00Z) - An Exploration of Self-Supervised Pretrained Representations for
End-to-End Speech Recognition [98.70304981174748]
本稿では,事前訓練された音声表現の一般応用,高度なエンドツーエンド自動音声認識(E2E-ASR)モデルに焦点をあてる。
いくつかの事前訓練された音声表現を選択し、E2E-ASRのための様々なオープンソースおよび公開コーパスの実験結果を示す。
論文 参考訳(メタデータ) (2021-10-09T15:06:09Z) - Multi-Staged Cross-Lingual Acoustic Model Adaption for Robust Speech
Recognition in Real-World Applications -- A Case Study on German Oral History
Interviews [21.47857960919014]
本稿では,言語横断的,多段階的手法により,対象領域へのロバストな音響モデル適応を実現する手法を提案する。
我々のアプローチは、同じ言語と他の言語の両方で、他のドメインからの大規模なトレーニングデータの利用を可能にします。
論文 参考訳(メタデータ) (2020-05-26T08:05:25Z) - Phoneme Boundary Detection using Learnable Segmental Features [31.203969460341817]
音素境界検出は様々な音声処理アプリケーションにおいて重要な第一歩となる。
本稿では,音素境界検出タスクのセグメント表現を学習するために,パラメータ化された構造的損失関数と結合したニューラルアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-02-11T14:03:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。