Fugu-MT 論文翻訳(概要): Adapting Pretrained ASR Models to Low-resource Clinical Speech using Epistemic Uncertainty-based Data Selection

論文の概要: Adapting Pretrained ASR Models to Low-resource Clinical Speech using Epistemic Uncertainty-based Data Selection

arxiv url: http://arxiv.org/abs/2306.02105v1
Date: Sat, 3 Jun 2023 13:11:37 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-06 20:04:20.740630
Title: Adapting Pretrained ASR Models to Low-resource Clinical Speech using Epistemic Uncertainty-based Data Selection
Title（参考訳）: てんかん不確実性に基づくデータ選択を用いた低リソース臨床音声への事前学習型ASRモデルの適用
Authors: Bonaventure F. P. Dossou, Atnafu Lambebo Tonja, Chris Chinenye Emezue, Tobi Olatunji, Naome A Etori, Salomey Osei, Tosin Adewumi, Sahib Singh
Abstract要約: アフリカ中心の臨床ASRは、トレーニングデータセットの欠如のために調査されている。本研究は,情報的不確実性に基づくデータ選択を通じて,アノテーションのコストを削減することでこの問題に対処することを目的とする。
参考スコア（独自算出の注目度）: 0.7255908480712148
License: http://creativecommons.org/licenses/by/4.0/
Abstract: While there has been significant progress in ASR, African-accented clinical ASR has been understudied due to a lack of training datasets. Building robust ASR systems in this domain requires large amounts of annotated or labeled data, for a wide variety of linguistically and morphologically rich accents, which are expensive to create. Our study aims to address this problem by reducing annotation expenses through informative uncertainty-based data selection. We show that incorporating epistemic uncertainty into our adaptation rounds outperforms several baseline results, established using state-of-the-art (SOTA) ASR models, while reducing the required amount of labeled data, and hence reducing annotation costs. Our approach also improves out-of-distribution generalization for very low-resource accents, demonstrating the viability of our approach for building generalizable ASR models in the context of accented African clinical ASR, where training datasets are predominantly scarce.
Abstract（参考訳）: ASRには大きな進歩があったが、トレーニングデータセットの欠如によりアフリカ系臨床ASRが検討されている。この領域で堅牢なASRシステムを構築するには、多種多様な言語学的および形態学的に豊かなアクセントのために、大量の注釈付きまたはラベル付きデータを必要とする。本研究の目的は,情報的不確実性に基づくデータ選択によるアノテーション費用の削減である。適応ラウンドにエピステマティックな不確実性を組み込むことは、最先端(SOTA)のASRモデルを用いて確立され、ラベル付きデータの必要な量を削減し、アノテーションコストを低減できることを示す。我々のアプローチは、非常に低リソースのアクセントに対するアウト・オブ・ディストリビューションの一般化を改善し、トレーニングデータセットがほとんどないアフリカクリニカルASRの文脈で、一般化可能なASRモデルを構築するためのアプローチの有効性を示す。

関連論文リスト

Leveraging LLM and Self-Supervised Training Models for Speech Recognition in Chinese Dialects: A Comparative Analysis [4.774607166378613]
自己教師付き事前トレーニングと大規模言語モデル(LLM)を組み合わせることで、低リソースシナリオにおけるASRのパフォーマンスを効果的に向上させることができる。我々は、ラベル付き方言とアクセント付き音声データの30,000時間でData2vec2モデルを事前訓練し、教師付きデータセット上で4万時間アライメントトレーニングを行う。
論文参考訳（メタデータ） (2025-05-27T12:50:55Z)
Advancing Arabic Speech Recognition Through Large-Scale Weakly Supervised Learning [0.0]
弱教師付き学習を用いて、コンフォーマーアーキテクチャを用いてアラビアASRモデルを訓練する。我々のモデルは、現代標準アラビア語(MSA)と方言アラビア語(DA)の両方をカバーする弱注釈音声データを15,000時間スクラッチから訓練する。
論文参考訳（メタデータ） (2025-04-16T17:05:14Z)
Whispering in Amharic: Fine-tuning Whisper for Low-resource Language [3.2858851789879595]
本研究は,AmharicにおけるOpenAIのWhisper自動音声認識モデルについて検討する。 Mozilla Common Voice、FLEURS、BDU-speechデータセットといったデータセットを使って微調整します。最高のパフォーマンスモデルであるWhispersmall-amは、既存のFLEURSデータと新しい、目に見えないAmharicデータセットの混合を微調整することで、大幅に改善される。
論文参考訳（メタデータ） (2025-03-24T09:39:41Z)
How to Learn a New Language? An Efficient Solution for Self-Supervised Learning Models Unseen Languages Adaption in Low-Resource Scenario [72.02391485962127]
音声認識(ASR)における音声自己監視学習(SSL)モデルの性能向上低リソース言語 ASR では、事前訓練された言語と低リソース言語のドメインミスマッチ問題に遭遇する。これらの問題に対処するためのアダプタに基づく従来型の効率的な微調整手法を拡張した。
論文参考訳（メタデータ） (2024-11-27T10:51:00Z)
SMILE: Speech Meta In-Context Learning for Low-Resource Language Automatic Speech Recognition [55.2480439325792]
音声メタインコンテキスト学習(SMILE)は、メタラーニングと音声インコンテキスト学習(SICL)を組み合わせた革新的なフレームワークである SMILEは、トレーニング不要な多言語ASRタスクにおいて、ベースライン手法よりも一貫して優れていることを示す。
論文参考訳（メタデータ） (2024-09-16T16:04:16Z)
Accelerating Large Language Model Pretraining via LFR Pedagogy: Learn, Focus, and Review [50.78587571704713]
Learn-Focus-Review(LFR)は、モデルの学習進捗に適応する動的トレーニングアプローチである。 LFRは、データブロック(トークンのシーケンス)にわたるモデルの学習パフォーマンスを追跡し、データセットの困難な領域を再検討する。フルデータセットでトレーニングされたベースラインモデルと比較して、LFRは一貫して低いパープレキシティと高い精度を達成した。
論文参考訳（メタデータ） (2024-09-10T00:59:18Z)
Boosting Continual Learning of Vision-Language Models via Mixture-of-Experts Adapters [65.15700861265432]
本稿では,視覚言語モデルを用いた漸進的学習における長期的忘れを緩和するパラメータ効率の連続学習フレームワークを提案する。提案手法では,Mixture-of-Experts (MoE)アダプタの統合により,事前学習したCLIPモデルの動的拡張を行う。視覚言語モデルのゼロショット認識能力を維持するために,分布判別オートセレクタを提案する。
論文参考訳（メタデータ） (2024-03-18T08:00:23Z)
Unlearnable Algorithms for In-context Learning [36.895152458323764]
本稿では,事前訓練された大規模言語モデルのタスク適応フェーズに対する効率的なアンラーニング手法に着目した。タスク適応のための文脈内学習を行うLLMの能力は、タスク適応トレーニングデータの効率的なアンラーニングを可能にする。本稿では,様々な推論コストを考慮に入れた非学習コストの包括的尺度を提案する。
論文参考訳（メタデータ） (2024-02-01T16:43:04Z)
Improving Generalization of Alignment with Human Preferences through Group Invariant Learning [56.19242260613749]
Reinforcement Learning from Human Feedback (RLHF) は、人間の好みに合わせた反応の生成を可能にする。以前の研究は、強化学習(RL)がしばしばショートカットを利用して高い報酬を獲得し、挑戦的なサンプルを見落としていることを示している。本稿では,複数のデータグループやドメインにまたがる一貫したポリシをRLで学習する,新しいアプローチを提案する。
論文参考訳（メタデータ） (2023-10-18T13:54:15Z)
Enabling Language Models to Implicitly Learn Self-Improvement [49.16868302881804]
大規模言語モデル(LLM)は、オープンエンドテキスト生成タスクにおいて顕著な機能を示した。我々は、人間の嗜好データから改善目標を暗黙的に学習するImPlicit Self-ImprovemenT(PIT)フレームワークを提案する。
論文参考訳（メタデータ） (2023-10-02T04:29:40Z)
Reduce, Reuse, Recycle: Is Perturbed Data better than Other Language augmentation for Low Resource Self-Supervised Speech Models [48.44820587495038]
自己教師付き表現学習(SSRL)は、音素認識を含むタスクの教師付きモデルよりも優れた性能を示した。 SSRLモデルのトレーニングは、十分な事前学習データが入手できない低リソース言語にとって課題となる。本稿では,低リソース環境下でのSSRLモデルの事前学習にピッチ変動,雑音付加,アクセント付きターゲット言語,その他の言語音声を用いることを提案し,音素認識の評価を行う。
論文参考訳（メタデータ） (2023-09-22T10:09:09Z)
A Novel Self-training Approach for Low-resource Speech Recognition [15.612232220719653]
低リソース環境における自動音声認識(ASR)のための自己学習手法を提案する。提案手法は単語誤り率を大幅に改善し,14.94%の相対的な改善を実現した。提案手法は,Common Voice Punjabiデータセットの最良の結果を報告する。
論文参考訳（メタデータ） (2023-08-10T01:02:45Z)
Using External Off-Policy Speech-To-Text Mappings in Contextual End-To-End Automated Speech Recognition [19.489794740679024]
本稿では,外部知識の活用の可能性について検討する。提案手法では,音声の音声埋め込みと意味的テキスト埋め込みを併用して,ASRに偏りを生じさせる。 LibiriSpeechと社内音声アシスタント/検索データセットの実験により、提案手法により、最大1KのGPU時間でドメイン適応時間を短縮できることが示された。
論文参考訳（メタデータ） (2023-01-06T22:32:50Z)
A bandit approach to curriculum generation for automatic speech recognition [7.008190762572486]
本稿では,自動カリキュラム学習を用いて,学習データの欠如を緩和する手法を提案する。このアプローチの目的は、難易度でランク付けされたミニバッチのトレーニングシーケンスを最適化することである。我々は,本手法を真に低リソースな言語で検証し,ベースライン移行学習モデルに対して,帯域幅フレームワークが優れた改善を実現していることを示す。
論文参考訳（メタデータ） (2021-02-06T20:32:10Z)
Ranking Creative Language Characteristics in Small Data Scenarios [52.00161818003478]
DirectRankerを適用して、小さなデータでクリエイティブ言語をランク付けするための、新しいディープモデルを提供します。スパーストレーニングデータを用いた実験により、標準的なニューラルネットワークのランク付け手法の性能は小さなデータセットで崩壊するが、DirectRankerは依然として有効であることがわかった。
論文参考訳（メタデータ） (2020-10-23T18:57:47Z)
Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文参考訳（メタデータ） (2020-01-28T22:09:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。