論文の概要: A bandit approach to curriculum generation for automatic speech
recognition
- arxiv url: http://arxiv.org/abs/2102.03662v1
- Date: Sat, 6 Feb 2021 20:32:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-09 20:01:01.151235
- Title: A bandit approach to curriculum generation for automatic speech
recognition
- Title(参考訳): 自動音声認識のためのカリキュラム生成へのbanditアプローチ
- Authors: Anastasia Kuznetsova and Anurag Kumar and Francis M. Tyers
- Abstract要約: 本稿では,自動カリキュラム学習を用いて,学習データの欠如を緩和する手法を提案する。
このアプローチの目的は、難易度でランク付けされたミニバッチのトレーニングシーケンスを最適化することである。
我々は,本手法を真に低リソースな言語で検証し,ベースライン移行学習モデルに対して,帯域幅フレームワークが優れた改善を実現していることを示す。
- 参考スコア(独自算出の注目度): 7.008190762572486
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The Automated Speech Recognition (ASR) task has been a challenging domain
especially for low data scenarios with few audio examples. This is the main
problem in training ASR systems on the data from low-resource or marginalized
languages. In this paper we present an approach to mitigate the lack of
training data by employing Automated Curriculum Learning in combination with an
adversarial bandit approach inspired by Reinforcement learning. The goal of the
approach is to optimize the training sequence of mini-batches ranked by the
level of difficulty and compare the ASR performance metrics against the random
training sequence and discrete curriculum. We test our approach on a truly
low-resource language and show that the bandit framework has a good improvement
over the baseline transfer-learning model.
- Abstract(参考訳): ASR(Automated Speech Recognition)タスクは、特に低データシナリオにおいて、音声のサンプルがほとんどない難しい領域である。
これは、低リソースまたは限界言語のデータに関するASRシステムのトレーニングの主な問題です。
本論文では,自動カリキュラム学習と強化学習にインスパイアされた敵対的バンディットアプローチを組み合わせることで,トレーニングデータの不足を緩和する手法を提案する。
このアプローチの目的は、難易度レベルによってランク付けされたミニバッチのトレーニングシーケンスを最適化し、ASRのパフォーマンスメトリクスをランダムなトレーニングシーケンスと離散的なカリキュラムと比較することです。
我々は、真にローソースな言語でこのアプローチをテストし、banditフレームワークがベースライン転送学習モデルよりも優れた改善があることを示す。
関連論文リスト
- Unified Speech Recognition: A Single Model for Auditory, Visual, and Audiovisual Inputs [73.74375912785689]
本稿では,音声認識システムのための統合学習戦略を提案する。
3つのタスクの1つのモデルをトレーニングすることで、VSRとAVSRの性能が向上することを示す。
また,非ラベル標本をより効果的に活用するために,強欲な擬似ラベリング手法を導入する。
論文 参考訳(メタデータ) (2024-11-04T16:46:53Z) - Advancing African-Accented Speech Recognition: Epistemic Uncertainty-Driven Data Selection for Generalizable ASR Models [2.4654745083407175]
本稿では,アノテーションプロセスの自動化に不確実性を利用するマルチラウンド適応プロセスを提案する。
この手法はデータアノテーションを合理化し、モデルの不確実性に最も寄与するデータサンプルを戦略的に選択する。
以上の結果から,従来のベースラインよりも平均45%少ないデータを必要とする一方で,WERの相対的改善率は27%であることが示唆された。
論文 参考訳(メタデータ) (2023-06-03T13:11:37Z) - Supervision-Guided Codebooks for Masked Prediction in Speech
Pre-training [102.14558233502514]
自己教師型学習(SSL)における事前学習のマズード予測は,音声認識における顕著な進歩をみせている。
本稿では,自動音声認識(ASR)の性能向上のための2つの教師付きコードブック生成手法を提案する。
論文 参考訳(メタデータ) (2022-06-21T06:08:30Z) - Sequence-level self-learning with multiple hypotheses [53.04725240411895]
我々は、自動音声認識(ASR)のためのアテンションベースシーケンス・ツー・シーケンス(seq2seq)モデルを用いた新しい自己学習手法を開発した。
従来の教師なし学習手法とは対照的に,我々はEmphmulti-task Learning(MTL)フレームワークを採用する。
実験の結果,本手法は,英語データのみを用いてトレーニングしたベースラインモデルと比較して,英文音声データのWERを14.55%から10.36%に削減できることがわかった。
論文 参考訳(メタデータ) (2021-12-10T20:47:58Z) - Neural Model Reprogramming with Similarity Based Mapping for
Low-Resource Spoken Command Recognition [71.96870151495536]
低リソース音声コマンド認識(SCR)のための新しいAR手法を提案する。
ARプロシージャは、(対象領域から)音響信号を修正して、事前訓練されたSCRモデルを再利用することを目的としている。
提案したAR-SCRシステムについて,アラビア語,リトアニア語,マンダリン語を含む3つの低リソースSCRデータセットを用いて評価した。
論文 参考訳(メタデータ) (2021-10-08T05:07:35Z) - An Approach to Improve Robustness of NLP Systems against ASR Errors [39.57253455717825]
音声対応システムは通常、音声を自動音声認識モデルを介してテキストに変換し、テキストを下流の自然言語処理モジュールに供給します。
ASRシステムのエラーは、NLPモジュールの性能を著しく低下させる可能性がある。
これまでの研究では、トレーニングプロセス中にasrノイズを注入することにより、この問題を解決するためにデータ拡張手法を用いることが有効であることが示されている。
論文 参考訳(メタデータ) (2021-03-25T05:15:43Z) - Improving speech recognition models with small samples for air traffic
control systems [9.322392779428505]
本研究では, 小さなトレーニングサンプルの課題に対処すべく, 事前学習とトランスファー学習に基づく新しいトレーニング手法を提案する。
3つの実際のATCデータセットを使用して、提案されたASRモデルとトレーニング戦略を検証する。
実験の結果,ASRの性能は3つのデータセットで大幅に向上した。
論文 参考訳(メタデータ) (2021-02-16T08:28:52Z) - Incremental Learning for End-to-End Automatic Speech Recognition [41.297106772785206]
エンドツーエンド自動音声認識(ASR)のための漸進的学習法を提案する。
本稿では, ASRモデルに対する新しい説明可能性に基づく知識蒸留を設計し, 応答に基づく知識蒸留と組み合わせて, 元のモデルの予測と予測の「理性」を維持する。
多段階連続訓練タスクの結果,提案手法は忘れを緩和する上で,既存の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-05-11T08:18:08Z) - Improving Readability for Automatic Speech Recognition Transcription [50.86019112545596]
我々は、可読性のためのASRポストプロセッシング(APR)と呼ばれる新しいNLPタスクを提案する。
APRは、ノイズの多いASR出力を、話者の意味を保ちながら、人間や下流タスクのための読みやすいテキストに変換することを目的としている。
我々は,いくつかのオープンソースモデルと適応型事前学習モデルに基づく微調整モデルと,従来のパイプライン手法との比較を行った。
論文 参考訳(メタデータ) (2020-04-09T09:26:42Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。