論文の概要: Sequence-level self-learning with multiple hypotheses
- arxiv url: http://arxiv.org/abs/2112.05826v1
- Date: Fri, 10 Dec 2021 20:47:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-18 18:35:16.069648
- Title: Sequence-level self-learning with multiple hypotheses
- Title(参考訳): 複数の仮説を用いたシーケンスレベルの自己学習
- Authors: Kenichi Kumatani, Dimitrios Dimitriadis, Yashesh Gaur, Robert Gmyr,
Sefik Emre Eskimez, Jinyu Li and Michael Zeng
- Abstract要約: 我々は、自動音声認識(ASR)のためのアテンションベースシーケンス・ツー・シーケンス(seq2seq)モデルを用いた新しい自己学習手法を開発した。
従来の教師なし学習手法とは対照的に,我々はEmphmulti-task Learning(MTL)フレームワークを採用する。
実験の結果,本手法は,英語データのみを用いてトレーニングしたベースラインモデルと比較して,英文音声データのWERを14.55%から10.36%に削減できることがわかった。
- 参考スコア(独自算出の注目度): 53.04725240411895
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we develop new self-learning techniques with an attention-based
sequence-to-sequence (seq2seq) model for automatic speech recognition (ASR).
For untranscribed speech data, the hypothesis from an ASR system must be used
as a label. However, the imperfect ASR result makes unsupervised learning
difficult to consistently improve recognition performance especially in the
case that multiple powerful teacher models are unavailable. In contrast to
conventional unsupervised learning approaches, we adopt the \emph{multi-task
learning} (MTL) framework where the $n$-th best ASR hypothesis is used as the
label of each task. The seq2seq network is updated through the MTL framework so
as to find the common representation that can cover multiple hypotheses. By
doing so, the effect of the \emph{hard-decision} errors can be alleviated.
We first demonstrate the effectiveness of our self-learning methods through
ASR experiments in an accent adaptation task between the US and British English
speech. Our experiment results show that our method can reduce the WER on the
British speech data from 14.55\% to 10.36\% compared to the baseline model
trained with the US English data only. Moreover, we investigate the effect of
our proposed methods in a federated learning scenario.
- Abstract(参考訳): 本研究では,自動音声認識(asr)のための注意に基づくsequence-to-sequence(seq2seq)モデルを用いた新しい自己学習手法を開発した。
非転写音声データの場合、ASRシステムからの仮説をラベルとして使用する必要がある。
しかし, 教師なし学習では, 複数の教師モデルが利用できない場合には, 教師なし学習による認識性能の向上が困難となる。
従来の教師なし学習手法とは対照的に,我々は,$n$-thest ASR仮説を各タスクのラベルとして使用する,emph{multi-task learning} (MTL) フレームワークを採用している。
seq2seqネットワークはMTLフレームワークを通じて更新され、複数の仮説をカバーする共通の表現を見つける。
これにより、emph{hard-decision}エラーの効果を緩和することができる。
まず,米国と英国英語音声のアクセント適応タスクにおけるasr実験を通して,自己学習手法の有効性を実証する。
実験の結果,本手法は,米国英語データのみをトレーニングしたベースラインモデルと比較して,英語音声データの WER を 14.55 % から 10.36 % に削減できることがわかった。
さらに,フェデレーション学習シナリオにおける提案手法の効果について検討した。
関連論文リスト
- ML-LMCL: Mutual Learning and Large-Margin Contrastive Learning for
Improving ASR Robustness in Spoken Language Understanding [55.39105863825107]
本稿では,ML-LMCL(Multual Learning and Large-Margin Contrastive Learning)を提案する。
微調整では、相互学習を適用し、手書き文字とASR文字の2つのSLUモデルを訓練する。
3つのデータセットの実験では、ML-LMCLは既存のモデルより優れ、新しい最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-11-19T16:53:35Z) - A Reference-less Quality Metric for Automatic Speech Recognition via
Contrastive-Learning of a Multi-Language Model with Self-Supervision [0.20999222360659603]
本研究は,音声データセット上での異なるASRモデルの性能を比較するための基準のない品質指標を提案する。
ASR仮説の質を推定するために、事前訓練された言語モデル(LM)を自己教師付き学習方式でコントラスト学習により微調整する。
提案した基準レス計量は、すべての実験において最先端の多言語LMからWERスコアとそれらのランクとの相関をはるかに高める。
論文 参考訳(メタデータ) (2023-06-21T21:33:39Z) - From English to More Languages: Parameter-Efficient Model Reprogramming
for Cross-Lingual Speech Recognition [50.93943755401025]
言語間音声認識のためのニューラルモデル再プログラミングに基づく新しいパラメータ効率学習フレームワークを提案する。
我々は、学習可能な事前学習機能強化に焦点を当てた、異なる補助的ニューラルネットワークアーキテクチャを設計する。
提案手法は,既存のASRチューニングアーキテクチャとその拡張性能を自己監督的損失で向上させる。
論文 参考訳(メタデータ) (2023-01-19T02:37:56Z) - Representative Subset Selection for Efficient Fine-Tuning in
Self-Supervised Speech Recognition [6.450618373898492]
ASRのための自己教師型音声モデルにおいて、効率的な微調整を行うために最適なデータのサブセットを同定する作業を検討する。
自己教師型ASRにおける代表サブセット選択のためのCOWERAGEアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-03-18T10:12:24Z) - RescoreBERT: Discriminative Speech Recognition Rescoring with BERT [21.763672436079872]
ASRにおける深層指向性事前学習モデルの微調整に差別的損失の改善を組み込むために,MWER損失を伴うBERTベースの再構成モデルをトレーニングする方法を示す。
我々はこのアプローチをRescoreBERTと名付け、LibriSpeechコーパスで評価し、BERTベースライン上のクリーン/他のテストセットに対して、差別的目的なくWERを6.6%/3.4%削減する。
論文 参考訳(メタデータ) (2022-02-02T15:45:26Z) - Revisiting Self-Training for Few-Shot Learning of Language Model [61.173976954360334]
ラベル付きデータにはタスク関連情報が豊富に含まれており、言語モデルの素早い学習に有用であることが証明されている。
本研究では,言語モデルファインチューニングのための自己学習手法を再検討し,最先端のプロンプトベースの少ショット学習者,SFLMを提案する。
論文 参考訳(メタデータ) (2021-10-04T08:51:36Z) - A bandit approach to curriculum generation for automatic speech
recognition [7.008190762572486]
本稿では,自動カリキュラム学習を用いて,学習データの欠如を緩和する手法を提案する。
このアプローチの目的は、難易度でランク付けされたミニバッチのトレーニングシーケンスを最適化することである。
我々は,本手法を真に低リソースな言語で検証し,ベースライン移行学習モデルに対して,帯域幅フレームワークが優れた改善を実現していることを示す。
論文 参考訳(メタデータ) (2021-02-06T20:32:10Z) - Improving Readability for Automatic Speech Recognition Transcription [50.86019112545596]
我々は、可読性のためのASRポストプロセッシング(APR)と呼ばれる新しいNLPタスクを提案する。
APRは、ノイズの多いASR出力を、話者の意味を保ちながら、人間や下流タスクのための読みやすいテキストに変換することを目的としている。
我々は,いくつかのオープンソースモデルと適応型事前学習モデルに基づく微調整モデルと,従来のパイプライン手法との比較を行った。
論文 参考訳(メタデータ) (2020-04-09T09:26:42Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。