論文の概要: Adapting Pretrained ASR Models to Low-resource Clinical Speech using
Epistemic Uncertainty-based Data Selection
- arxiv url: http://arxiv.org/abs/2306.02105v1
- Date: Sat, 3 Jun 2023 13:11:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-06 20:04:20.740630
- Title: Adapting Pretrained ASR Models to Low-resource Clinical Speech using
Epistemic Uncertainty-based Data Selection
- Title(参考訳): てんかん不確実性に基づくデータ選択を用いた低リソース臨床音声への事前学習型ASRモデルの適用
- Authors: Bonaventure F. P. Dossou, Atnafu Lambebo Tonja, Chris Chinenye Emezue,
Tobi Olatunji, Naome A Etori, Salomey Osei, Tosin Adewumi, Sahib Singh
- Abstract要約: アフリカ中心の臨床ASRは、トレーニングデータセットの欠如のために調査されている。
本研究は,情報的不確実性に基づくデータ選択を通じて,アノテーションのコストを削減することでこの問題に対処することを目的とする。
- 参考スコア(独自算出の注目度): 0.7255908480712148
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While there has been significant progress in ASR, African-accented clinical
ASR has been understudied due to a lack of training datasets. Building robust
ASR systems in this domain requires large amounts of annotated or labeled data,
for a wide variety of linguistically and morphologically rich accents, which
are expensive to create. Our study aims to address this problem by reducing
annotation expenses through informative uncertainty-based data selection. We
show that incorporating epistemic uncertainty into our adaptation rounds
outperforms several baseline results, established using state-of-the-art (SOTA)
ASR models, while reducing the required amount of labeled data, and hence
reducing annotation costs. Our approach also improves out-of-distribution
generalization for very low-resource accents, demonstrating the viability of
our approach for building generalizable ASR models in the context of accented
African clinical ASR, where training datasets are predominantly scarce.
- Abstract(参考訳): ASRには大きな進歩があったが、トレーニングデータセットの欠如によりアフリカ系臨床ASRが検討されている。
この領域で堅牢なASRシステムを構築するには、多種多様な言語学的および形態学的に豊かなアクセントのために、大量の注釈付きまたはラベル付きデータを必要とする。
本研究の目的は,情報的不確実性に基づくデータ選択によるアノテーション費用の削減である。
適応ラウンドにエピステマティックな不確実性を組み込むことは、最先端(SOTA)のASRモデルを用いて確立され、ラベル付きデータの必要な量を削減し、アノテーションコストを低減できることを示す。
我々のアプローチは、非常に低リソースのアクセントに対するアウト・オブ・ディストリビューションの一般化を改善し、トレーニングデータセットがほとんどないアフリカクリニカルASRの文脈で、一般化可能なASRモデルを構築するためのアプローチの有効性を示す。
関連論文リスト
- AccentFold: A Journey through African Accents for Zero-Shot ASR
Adaptation to Target Accents [5.746007214645182]
本稿では、学習したアクセント埋め込み間の空間的関係を利用して自動音声認識(ASR)を改善するAccentFoldを提案する。
100以上のアフリカのアクセントを表す音声埋め込みの探索分析により,興味深い空間的アクセント関係が明らかとなった。
本研究は,言語的関係を活用して,ターゲットアクセントへのASR適応を改善する可能性を強調した。
論文 参考訳(メタデータ) (2024-02-02T05:38:59Z) - Accented Speech Recognition With Accent-specific Codebooks [53.288874858671576]
音声アクセントは最先端の自動音声認識(ASR)システムに重大な課題をもたらす。
あまり表現されないアクセントによる性能低下は、ASRの包括的採用に対する深刻な抑止力である。
トレーニング可能なコードブックを用いたクロスアテンションを用いた,エンドツーエンドのASRシステムに対するアクセント適応手法を提案する。
論文 参考訳(メタデータ) (2023-10-24T16:10:58Z) - Reduce, Reuse, Recycle: Is Perturbed Data better than Other Language
augmentation for Low Resource Self-Supervised Speech Models [52.92618442300405]
自己教師付き表現学習(SSRL)は、教師付きモデルと比較して下流音素認識の性能を改善した。
SSRLモデルのトレーニングには大量の事前学習データが必要である。
本稿では,低リソース条件下でのSSRLモデルの事前学習に音声拡張を用い,音素認識をダウンストリームタスクとして評価する。
論文 参考訳(メタデータ) (2023-09-22T10:09:09Z) - A Novel Self-training Approach for Low-resource Speech Recognition [15.612232220719653]
低リソース環境における自動音声認識(ASR)のための自己学習手法を提案する。
提案手法は単語誤り率を大幅に改善し,14.94%の相対的な改善を実現した。
提案手法は,Common Voice Punjabiデータセットの最良の結果を報告する。
論文 参考訳(メタデータ) (2023-08-10T01:02:45Z) - Synthetic Cross-accent Data Augmentation for Automatic Speech
Recognition [18.154258453839066]
我々は、ネイティブな米国英語音声をアクセント付き発音に変換するアクセント変換モデル(ACM)を改善した。
我々はACM訓練に音声知識を取り入れ、合成波形における発音パターンの再現性について正確なフィードバックを提供する。
ネイティブ・イングリッシュ・データセットと非ネイティブ・イングリッシュ・データセットに対する我々のアプローチを評価し、合成アクセント付きデータにより、アクセントの出現した音声をよりよく理解できるようになったことを発見した。
論文 参考訳(メタデータ) (2023-03-01T20:05:19Z) - Data Augmentation for Low-Resource Quechua ASR Improvement [2.260916274164351]
ディープラーニングの手法により、英語のASRでは単語エラー率が5%未満のシステムをデプロイできるようになった。
いわゆる低リソース言語では,既存のリソースに基づいて新たなリソースを作成する手法が検討されている。
本稿では,低リソースおよび凝集度言語に対するASRモデルの結果を改善するためのデータ拡張手法について述べる。
論文 参考訳(メタデータ) (2022-07-14T12:49:15Z) - A bandit approach to curriculum generation for automatic speech
recognition [7.008190762572486]
本稿では,自動カリキュラム学習を用いて,学習データの欠如を緩和する手法を提案する。
このアプローチの目的は、難易度でランク付けされたミニバッチのトレーニングシーケンスを最適化することである。
我々は,本手法を真に低リソースな言語で検証し,ベースライン移行学習モデルに対して,帯域幅フレームワークが優れた改善を実現していることを示す。
論文 参考訳(メタデータ) (2021-02-06T20:32:10Z) - Adversarial Meta Sampling for Multilingual Low-Resource Speech
Recognition [159.9312272042253]
多言語メタラーニングASR(MML-ASR)を改善するための新しい逆メタサンプリング(AMS)アプローチを開発しています。
AMSは、各ソース言語のタスクサンプリング確率を適応的に決定する。
MML-ASRにAMSを適用すると、2つの多言語データセットの実験結果が大幅にパフォーマンス向上します。
論文 参考訳(メタデータ) (2020-12-22T09:33:14Z) - Black-box Adaptation of ASR for Accented Speech [52.63060669715216]
我々は,ターゲットアクセントからの音声にブラックボックス,クラウドベースのASRシステムを適用する問題を紹介した。
そこで我々は,オープンソースアクセント調整型ローカルモデルとブラックボックスサービスとの結合を新たに提案する。
本アルゴリズムは,既存の単語レベルの組み合わせ手法よりもアクセントエラーの修正が優れている。
論文 参考訳(メタデータ) (2020-06-24T07:07:49Z) - Improving Readability for Automatic Speech Recognition Transcription [50.86019112545596]
我々は、可読性のためのASRポストプロセッシング(APR)と呼ばれる新しいNLPタスクを提案する。
APRは、ノイズの多いASR出力を、話者の意味を保ちながら、人間や下流タスクのための読みやすいテキストに変換することを目的としている。
我々は,いくつかのオープンソースモデルと適応型事前学習モデルに基づく微調整モデルと,従来のパイプライン手法との比較を行った。
論文 参考訳(メタデータ) (2020-04-09T09:26:42Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。