論文の概要: Adapting Pretrained ASR Models to Low-resource Clinical Speech using
Epistemic Uncertainty-based Data Selection
- arxiv url: http://arxiv.org/abs/2306.02105v1
- Date: Sat, 3 Jun 2023 13:11:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-06 20:04:20.740630
- Title: Adapting Pretrained ASR Models to Low-resource Clinical Speech using
Epistemic Uncertainty-based Data Selection
- Title(参考訳): てんかん不確実性に基づくデータ選択を用いた低リソース臨床音声への事前学習型ASRモデルの適用
- Authors: Bonaventure F. P. Dossou, Atnafu Lambebo Tonja, Chris Chinenye Emezue,
Tobi Olatunji, Naome A Etori, Salomey Osei, Tosin Adewumi, Sahib Singh
- Abstract要約: アフリカ中心の臨床ASRは、トレーニングデータセットの欠如のために調査されている。
本研究は,情報的不確実性に基づくデータ選択を通じて,アノテーションのコストを削減することでこの問題に対処することを目的とする。
- 参考スコア(独自算出の注目度): 0.7255908480712148
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While there has been significant progress in ASR, African-accented clinical
ASR has been understudied due to a lack of training datasets. Building robust
ASR systems in this domain requires large amounts of annotated or labeled data,
for a wide variety of linguistically and morphologically rich accents, which
are expensive to create. Our study aims to address this problem by reducing
annotation expenses through informative uncertainty-based data selection. We
show that incorporating epistemic uncertainty into our adaptation rounds
outperforms several baseline results, established using state-of-the-art (SOTA)
ASR models, while reducing the required amount of labeled data, and hence
reducing annotation costs. Our approach also improves out-of-distribution
generalization for very low-resource accents, demonstrating the viability of
our approach for building generalizable ASR models in the context of accented
African clinical ASR, where training datasets are predominantly scarce.
- Abstract(参考訳): ASRには大きな進歩があったが、トレーニングデータセットの欠如によりアフリカ系臨床ASRが検討されている。
この領域で堅牢なASRシステムを構築するには、多種多様な言語学的および形態学的に豊かなアクセントのために、大量の注釈付きまたはラベル付きデータを必要とする。
本研究の目的は,情報的不確実性に基づくデータ選択によるアノテーション費用の削減である。
適応ラウンドにエピステマティックな不確実性を組み込むことは、最先端(SOTA)のASRモデルを用いて確立され、ラベル付きデータの必要な量を削減し、アノテーションコストを低減できることを示す。
我々のアプローチは、非常に低リソースのアクセントに対するアウト・オブ・ディストリビューションの一般化を改善し、トレーニングデータセットがほとんどないアフリカクリニカルASRの文脈で、一般化可能なASRモデルを構築するためのアプローチの有効性を示す。
関連論文リスト
- Boosting Continual Learning of Vision-Language Models via Mixture-of-Experts Adapters [65.15700861265432]
本稿では,視覚言語モデルを用いた漸進的学習における長期的忘れを緩和するパラメータ効率の連続学習フレームワークを提案する。
提案手法では,Mixture-of-Experts (MoE)アダプタの統合により,事前学習したCLIPモデルの動的拡張を行う。
視覚言語モデルのゼロショット認識能力を維持するために,分布判別オートセレクタを提案する。
論文 参考訳(メタデータ) (2024-03-18T08:00:23Z) - Unlearnable Algorithms for In-context Learning [36.895152458323764]
本稿では,事前訓練された大規模言語モデルのタスク適応フェーズに対する効率的なアンラーニング手法に着目した。
タスク適応のための文脈内学習を行うLLMの能力は、タスク適応トレーニングデータの効率的なアンラーニングを可能にする。
本稿では,様々な推論コストを考慮に入れた非学習コストの包括的尺度を提案する。
論文 参考訳(メタデータ) (2024-02-01T16:43:04Z) - Improving Generalization of Alignment with Human Preferences through
Group Invariant Learning [56.19242260613749]
Reinforcement Learning from Human Feedback (RLHF) は、人間の好みに合わせた反応の生成を可能にする。
以前の研究は、強化学習(RL)がしばしばショートカットを利用して高い報酬を獲得し、挑戦的なサンプルを見落としていることを示している。
本稿では,複数のデータグループやドメインにまたがる一貫したポリシをRLで学習する,新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-10-18T13:54:15Z) - Enabling Language Models to Implicitly Learn Self-Improvement [49.16868302881804]
大規模言語モデル(LLM)は、オープンエンドテキスト生成タスクにおいて顕著な機能を示した。
我々は、人間の嗜好データから改善目標を暗黙的に学習するImPlicit Self-ImprovemenT(PIT)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-02T04:29:40Z) - Reduce, Reuse, Recycle: Is Perturbed Data better than Other Language augmentation for Low Resource Self-Supervised Speech Models [48.44820587495038]
自己教師付き表現学習(SSRL)は、音素認識を含むタスクの教師付きモデルよりも優れた性能を示した。
SSRLモデルのトレーニングは、十分な事前学習データが入手できない低リソース言語にとって課題となる。
本稿では,低リソース環境下でのSSRLモデルの事前学習にピッチ変動,雑音付加,アクセント付きターゲット言語,その他の言語音声を用いることを提案し,音素認識の評価を行う。
論文 参考訳(メタデータ) (2023-09-22T10:09:09Z) - A Novel Self-training Approach for Low-resource Speech Recognition [15.612232220719653]
低リソース環境における自動音声認識(ASR)のための自己学習手法を提案する。
提案手法は単語誤り率を大幅に改善し,14.94%の相対的な改善を実現した。
提案手法は,Common Voice Punjabiデータセットの最良の結果を報告する。
論文 参考訳(メタデータ) (2023-08-10T01:02:45Z) - Using External Off-Policy Speech-To-Text Mappings in Contextual
End-To-End Automated Speech Recognition [19.489794740679024]
本稿では,外部知識の活用の可能性について検討する。
提案手法では,音声の音声埋め込みと意味的テキスト埋め込みを併用して,ASRに偏りを生じさせる。
LibiriSpeechと社内音声アシスタント/検索データセットの実験により、提案手法により、最大1KのGPU時間でドメイン適応時間を短縮できることが示された。
論文 参考訳(メタデータ) (2023-01-06T22:32:50Z) - A bandit approach to curriculum generation for automatic speech
recognition [7.008190762572486]
本稿では,自動カリキュラム学習を用いて,学習データの欠如を緩和する手法を提案する。
このアプローチの目的は、難易度でランク付けされたミニバッチのトレーニングシーケンスを最適化することである。
我々は,本手法を真に低リソースな言語で検証し,ベースライン移行学習モデルに対して,帯域幅フレームワークが優れた改善を実現していることを示す。
論文 参考訳(メタデータ) (2021-02-06T20:32:10Z) - Ranking Creative Language Characteristics in Small Data Scenarios [52.00161818003478]
DirectRankerを適用して、小さなデータでクリエイティブ言語をランク付けするための、新しいディープモデルを提供します。
スパーストレーニングデータを用いた実験により、標準的なニューラルネットワークのランク付け手法の性能は小さなデータセットで崩壊するが、DirectRankerは依然として有効であることがわかった。
論文 参考訳(メタデータ) (2020-10-23T18:57:47Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。