Fugu-MT 論文翻訳(概要): A bandit approach to curriculum generation for automatic speech recognition

論文の概要: A bandit approach to curriculum generation for automatic speech recognition

arxiv url: http://arxiv.org/abs/2102.03662v1
Date: Sat, 6 Feb 2021 20:32:10 GMT
ステータス: 翻訳完了
システム内更新日: 2021-02-09 20:01:01.151235
Title: A bandit approach to curriculum generation for automatic speech recognition
Title（参考訳）: 自動音声認識のためのカリキュラム生成へのbanditアプローチ
Authors: Anastasia Kuznetsova and Anurag Kumar and Francis M. Tyers
Abstract要約: 本稿では,自動カリキュラム学習を用いて,学習データの欠如を緩和する手法を提案する。このアプローチの目的は、難易度でランク付けされたミニバッチのトレーニングシーケンスを最適化することである。我々は,本手法を真に低リソースな言語で検証し,ベースライン移行学習モデルに対して,帯域幅フレームワークが優れた改善を実現していることを示す。
参考スコア（独自算出の注目度）: 7.008190762572486
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: The Automated Speech Recognition (ASR) task has been a challenging domain especially for low data scenarios with few audio examples. This is the main problem in training ASR systems on the data from low-resource or marginalized languages. In this paper we present an approach to mitigate the lack of training data by employing Automated Curriculum Learning in combination with an adversarial bandit approach inspired by Reinforcement learning. The goal of the approach is to optimize the training sequence of mini-batches ranked by the level of difficulty and compare the ASR performance metrics against the random training sequence and discrete curriculum. We test our approach on a truly low-resource language and show that the bandit framework has a good improvement over the baseline transfer-learning model.
Abstract（参考訳）: ASR(Automated Speech Recognition)タスクは、特に低データシナリオにおいて、音声のサンプルがほとんどない難しい領域である。これは、低リソースまたは限界言語のデータに関するASRシステムのトレーニングの主な問題です。本論文では,自動カリキュラム学習と強化学習にインスパイアされた敵対的バンディットアプローチを組み合わせることで,トレーニングデータの不足を緩和する手法を提案する。このアプローチの目的は、難易度レベルによってランク付けされたミニバッチのトレーニングシーケンスを最適化し、ASRのパフォーマンスメトリクスをランダムなトレーニングシーケンスと離散的なカリキュラムと比較することです。我々は、真にローソースな言語でこのアプローチをテストし、banditフレームワークがベースライン転送学習モデルよりも優れた改善があることを示す。

関連論文リスト

Customizing Speech Recognition Model with Large Language Model Feedback [5.290365603660415]
教師なしドメイン適応のための強化学習に基づくアプローチを提案する。我々は、未ラベルデータを利用して転写品質、特にドメインミスマッチの影響を受ける名前付きエンティティを向上させる。提案手法は,従来の自己学習手法に比べて,エンティティ単語の誤り率を21%向上させる。
論文参考訳（メタデータ） (2025-06-05T18:42:57Z)
ESLM: Risk-Averse Selective Language Modeling for Efficient Pretraining [53.893792844055106]
大規模言語モデルの事前学習は計算集約的であるが、多くのトークンが学習にわずかに寄与し、非効率になる。 Selective Efficient Language Modelingは、オンライントークンレベルのバッチ選択を行うことで、トレーニング効率と分散ロバスト性を改善するリスク認識アルゴリズムである。 GPT-2プレトレーニング実験の結果、ESLMはベースラインに比べて複雑度と下流性能の両面を維持・改善しながら、トレーニングFLOPを著しく低減することが示された。
論文参考訳（メタデータ） (2025-05-26T12:23:26Z)
Unified Speech Recognition: A Single Model for Auditory, Visual, and Audiovisual Inputs [73.74375912785689]
本稿では,音声認識システムのための統合学習戦略を提案する。 3つのタスクの1つのモデルをトレーニングすることで、VSRとAVSRの性能が向上することを示す。また,非ラベル標本をより効果的に活用するために,強欲な擬似ラベリング手法を導入する。
論文参考訳（メタデータ） (2024-11-04T16:46:53Z)
SMILE: Speech Meta In-Context Learning for Low-Resource Language Automatic Speech Recognition [55.2480439325792]
音声メタインコンテキスト学習(SMILE)は、メタラーニングと音声インコンテキスト学習(SICL)を組み合わせた革新的なフレームワークである SMILEは、トレーニング不要な多言語ASRタスクにおいて、ベースライン手法よりも一貫して優れていることを示す。
論文参考訳（メタデータ） (2024-09-16T16:04:16Z)
Advancing African-Accented Speech Recognition: Epistemic Uncertainty-Driven Data Selection for Generalizable ASR Models [2.4654745083407175]
本稿では,アノテーションプロセスの自動化に不確実性を利用するマルチラウンド適応プロセスを提案する。この手法はデータアノテーションを合理化し、モデルの不確実性に最も寄与するデータサンプルを戦略的に選択する。以上の結果から,従来のベースラインよりも平均45%少ないデータを必要とする一方で,WERの相対的改善率は27%であることが示唆された。
論文参考訳（メタデータ） (2023-06-03T13:11:37Z)
Supervision-Guided Codebooks for Masked Prediction in Speech Pre-training [102.14558233502514]
自己教師型学習(SSL)における事前学習のマズード予測は,音声認識における顕著な進歩をみせている。本稿では,自動音声認識(ASR)の性能向上のための2つの教師付きコードブック生成手法を提案する。
論文参考訳（メタデータ） (2022-06-21T06:08:30Z)
Sequence-level self-learning with multiple hypotheses [53.04725240411895]
我々は、自動音声認識(ASR)のためのアテンションベースシーケンス・ツー・シーケンス(seq2seq)モデルを用いた新しい自己学習手法を開発した。従来の教師なし学習手法とは対照的に,我々はEmphmulti-task Learning(MTL)フレームワークを採用する。実験の結果,本手法は,英語データのみを用いてトレーニングしたベースラインモデルと比較して,英文音声データのWERを14.55%から10.36%に削減できることがわかった。
論文参考訳（メタデータ） (2021-12-10T20:47:58Z)
Neural Model Reprogramming with Similarity Based Mapping for Low-Resource Spoken Command Recognition [71.96870151495536]
低リソース音声コマンド認識(SCR)のための新しいAR手法を提案する。 ARプロシージャは、(対象領域から)音響信号を修正して、事前訓練されたSCRモデルを再利用することを目的としている。提案したAR-SCRシステムについて,アラビア語,リトアニア語,マンダリン語を含む3つの低リソースSCRデータセットを用いて評価した。
論文参考訳（メタデータ） (2021-10-08T05:07:35Z)
An Approach to Improve Robustness of NLP Systems against ASR Errors [39.57253455717825]
音声対応システムは通常、音声を自動音声認識モデルを介してテキストに変換し、テキストを下流の自然言語処理モジュールに供給します。 ASRシステムのエラーは、NLPモジュールの性能を著しく低下させる可能性がある。これまでの研究では、トレーニングプロセス中にasrノイズを注入することにより、この問題を解決するためにデータ拡張手法を用いることが有効であることが示されている。
論文参考訳（メタデータ） (2021-03-25T05:15:43Z)
Improving speech recognition models with small samples for air traffic control systems [9.322392779428505]
本研究では, 小さなトレーニングサンプルの課題に対処すべく, 事前学習とトランスファー学習に基づく新しいトレーニング手法を提案する。 3つの実際のATCデータセットを使用して、提案されたASRモデルとトレーニング戦略を検証する。実験の結果,ASRの性能は3つのデータセットで大幅に向上した。
論文参考訳（メタデータ） (2021-02-16T08:28:52Z)
Incremental Learning for End-to-End Automatic Speech Recognition [41.297106772785206]
エンドツーエンド自動音声認識(ASR)のための漸進的学習法を提案する。本稿では, ASRモデルに対する新しい説明可能性に基づく知識蒸留を設計し, 応答に基づく知識蒸留と組み合わせて, 元のモデルの予測と予測の「理性」を維持する。多段階連続訓練タスクの結果,提案手法は忘れを緩和する上で,既存の手法よりも優れていることが示された。
論文参考訳（メタデータ） (2020-05-11T08:18:08Z)
Improving Readability for Automatic Speech Recognition Transcription [50.86019112545596]
我々は、可読性のためのASRポストプロセッシング(APR)と呼ばれる新しいNLPタスクを提案する。 APRは、ノイズの多いASR出力を、話者の意味を保ちながら、人間や下流タスクのための読みやすいテキストに変換することを目的としている。我々は,いくつかのオープンソースモデルと適応型事前学習モデルに基づく微調整モデルと,従来のパイプライン手法との比較を行った。
論文参考訳（メタデータ） (2020-04-09T09:26:42Z)
Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文参考訳（メタデータ） (2020-01-28T22:09:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。