Fugu-MT 論文翻訳(概要): Advancing African-Accented Speech Recognition: Epistemic Uncertainty-Driven Data Selection for Generalizable ASR Models

論文の概要: Advancing African-Accented Speech Recognition: Epistemic Uncertainty-Driven Data Selection for Generalizable ASR Models

arxiv url: http://arxiv.org/abs/2306.02105v6
Date: Wed, 5 Jun 2024 00:10:06 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-07 04:36:49.828917
Title: Advancing African-Accented Speech Recognition: Epistemic Uncertainty-Driven Data Selection for Generalizable ASR Models
Title（参考訳）: アフリカ中心音声認識の強化:一般化可能なASRモデルのための認識不確実性駆動型データ選択
Authors: Bonaventure F. P. Dossou,
Abstract要約: 本稿では,アノテーションプロセスの自動化に不確実性を利用するマルチラウンド適応プロセスを提案する。この手法はデータアノテーションを合理化し、モデルの不確実性に最も寄与するデータサンプルを戦略的に選択する。以上の結果から,従来のベースラインよりも平均45%少ないデータを必要とする一方で,WERの相対的改善率は27%であることが示唆された。
参考スコア（独自算出の注目度）: 2.4654745083407175
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Accents play a pivotal role in shaping human communication, enhancing our ability to convey and comprehend messages with clarity and cultural nuance. While there has been significant progress in Automatic Speech Recognition (ASR), African-accented English ASR has been understudied due to a lack of training datasets, which are often expensive to create and demand colossal human labor. Combining several active learning paradigms and the core-set approach, we propose a new multi-rounds adaptation process that uses epistemic uncertainty to automate the annotation process, significantly reducing the associated costs and human labor. This novel method streamlines data annotation and strategically selects data samples contributing most to model uncertainty, enhancing training efficiency. We define a new U-WER metric to track model adaptation to hard accents. We evaluate our approach across several domains, datasets, and high-performing speech models. Our results show that our approach leads to a 27\% WER relative average improvement while requiring on average 45\% less data than established baselines. Our approach also improves out-of-distribution generalization for very low-resource accents, demonstrating its viability for building generalizable ASR models in the context of accented African ASR. We open-source the code here: https://github.com/bonaventuredossou/active_learning_african_asr.
Abstract（参考訳）: アクセントは人間のコミュニケーションを形作る上で重要な役割を担い、明確さと文化的ニュアンスでメッセージを伝え、理解する能力を高める。自動音声認識(ASR)の進歩は著しいが、アフリカ系英語のASRは、訓練データセットが不足しているために検討されている。いくつかのアクティブな学習パラダイムとコアセットのアプローチを組み合わせることで,認識の不確実性を利用してアノテーションプロセスを自動化するマルチラウンド適応プロセスを提案し,関連するコストと人的労力を大幅に削減する。本手法は,データアノテーションを合理化し,モデル不確実性に最も寄与するデータサンプルを戦略的に選択し,訓練効率を向上する。我々は、ハードアクセントへのモデル適応を追跡するために、新しいU-WERメトリックを定義する。提案手法は,複数の領域,データセット,高性能音声モデルにまたがって評価する。以上の結果から,提案手法はWERの相対的改善率を27 %に抑えつつ,既存のベースラインよりも平均45 %少ないデータを必要とすることがわかった。また,非常に低リソースのアクセントに対する分布外一般化を改良し,アクセント付きアフリカASRの文脈で一般化可能なASRモデルを構築する可能性を示した。 https://github.com/bonaventuredossou/active_learning_african_asr.com/。

関連論文リスト

Leveraging LLM and Self-Supervised Training Models for Speech Recognition in Chinese Dialects: A Comparative Analysis [4.774607166378613]
自己教師付き事前トレーニングと大規模言語モデル(LLM)を組み合わせることで、低リソースシナリオにおけるASRのパフォーマンスを効果的に向上させることができる。我々は、ラベル付き方言とアクセント付き音声データの30,000時間でData2vec2モデルを事前訓練し、教師付きデータセット上で4万時間アライメントトレーニングを行う。
論文参考訳（メタデータ） (2025-05-27T12:50:55Z)
Advancing Arabic Speech Recognition Through Large-Scale Weakly Supervised Learning [0.0]
弱教師付き学習を用いて、コンフォーマーアーキテクチャを用いてアラビアASRモデルを訓練する。我々のモデルは、現代標準アラビア語(MSA)と方言アラビア語(DA)の両方をカバーする弱注釈音声データを15,000時間スクラッチから訓練する。
論文参考訳（メタデータ） (2025-04-16T17:05:14Z)
Whispering in Amharic: Fine-tuning Whisper for Low-resource Language [3.2858851789879595]
本研究は,AmharicにおけるOpenAIのWhisper自動音声認識モデルについて検討する。 Mozilla Common Voice、FLEURS、BDU-speechデータセットといったデータセットを使って微調整します。最高のパフォーマンスモデルであるWhispersmall-amは、既存のFLEURSデータと新しい、目に見えないAmharicデータセットの混合を微調整することで、大幅に改善される。
論文参考訳（メタデータ） (2025-03-24T09:39:41Z)
How to Learn a New Language? An Efficient Solution for Self-Supervised Learning Models Unseen Languages Adaption in Low-Resource Scenario [72.02391485962127]
音声認識(ASR)における音声自己監視学習(SSL)モデルの性能向上低リソース言語 ASR では、事前訓練された言語と低リソース言語のドメインミスマッチ問題に遭遇する。これらの問題に対処するためのアダプタに基づく従来型の効率的な微調整手法を拡張した。
論文参考訳（メタデータ） (2024-11-27T10:51:00Z)
SMILE: Speech Meta In-Context Learning for Low-Resource Language Automatic Speech Recognition [55.2480439325792]
音声メタインコンテキスト学習(SMILE)は、メタラーニングと音声インコンテキスト学習(SICL)を組み合わせた革新的なフレームワークである SMILEは、トレーニング不要な多言語ASRタスクにおいて、ベースライン手法よりも一貫して優れていることを示す。
論文参考訳（メタデータ） (2024-09-16T16:04:16Z)
Accelerating Large Language Model Pretraining via LFR Pedagogy: Learn, Focus, and Review [50.78587571704713]
Learn-Focus-Review(LFR)は、モデルの学習進捗に適応する動的トレーニングアプローチである。 LFRは、データブロック(トークンのシーケンス)にわたるモデルの学習パフォーマンスを追跡し、データセットの困難な領域を再検討する。フルデータセットでトレーニングされたベースラインモデルと比較して、LFRは一貫して低いパープレキシティと高い精度を達成した。
論文参考訳（メタデータ） (2024-09-10T00:59:18Z)
Boosting Continual Learning of Vision-Language Models via Mixture-of-Experts Adapters [65.15700861265432]
本稿では,視覚言語モデルを用いた漸進的学習における長期的忘れを緩和するパラメータ効率の連続学習フレームワークを提案する。提案手法では,Mixture-of-Experts (MoE)アダプタの統合により,事前学習したCLIPモデルの動的拡張を行う。視覚言語モデルのゼロショット認識能力を維持するために,分布判別オートセレクタを提案する。
論文参考訳（メタデータ） (2024-03-18T08:00:23Z)
Unlearnable Algorithms for In-context Learning [36.895152458323764]
本稿では,事前訓練された大規模言語モデルのタスク適応フェーズに対する効率的なアンラーニング手法に着目した。タスク適応のための文脈内学習を行うLLMの能力は、タスク適応トレーニングデータの効率的なアンラーニングを可能にする。本稿では,様々な推論コストを考慮に入れた非学習コストの包括的尺度を提案する。
論文参考訳（メタデータ） (2024-02-01T16:43:04Z)
Improving Generalization of Alignment with Human Preferences through Group Invariant Learning [56.19242260613749]
Reinforcement Learning from Human Feedback (RLHF) は、人間の好みに合わせた反応の生成を可能にする。以前の研究は、強化学習(RL)がしばしばショートカットを利用して高い報酬を獲得し、挑戦的なサンプルを見落としていることを示している。本稿では,複数のデータグループやドメインにまたがる一貫したポリシをRLで学習する,新しいアプローチを提案する。
論文参考訳（メタデータ） (2023-10-18T13:54:15Z)
Enabling Language Models to Implicitly Learn Self-Improvement [49.16868302881804]
大規模言語モデル(LLM)は、オープンエンドテキスト生成タスクにおいて顕著な機能を示した。我々は、人間の嗜好データから改善目標を暗黙的に学習するImPlicit Self-ImprovemenT(PIT)フレームワークを提案する。
論文参考訳（メタデータ） (2023-10-02T04:29:40Z)
Reduce, Reuse, Recycle: Is Perturbed Data better than Other Language augmentation for Low Resource Self-Supervised Speech Models [48.44820587495038]
自己教師付き表現学習(SSRL)は、音素認識を含むタスクの教師付きモデルよりも優れた性能を示した。 SSRLモデルのトレーニングは、十分な事前学習データが入手できない低リソース言語にとって課題となる。本稿では,低リソース環境下でのSSRLモデルの事前学習にピッチ変動,雑音付加,アクセント付きターゲット言語,その他の言語音声を用いることを提案し,音素認識の評価を行う。
論文参考訳（メタデータ） (2023-09-22T10:09:09Z)
A Novel Self-training Approach for Low-resource Speech Recognition [15.612232220719653]
低リソース環境における自動音声認識(ASR)のための自己学習手法を提案する。提案手法は単語誤り率を大幅に改善し,14.94%の相対的な改善を実現した。提案手法は,Common Voice Punjabiデータセットの最良の結果を報告する。
論文参考訳（メタデータ） (2023-08-10T01:02:45Z)
Using External Off-Policy Speech-To-Text Mappings in Contextual End-To-End Automated Speech Recognition [19.489794740679024]
本稿では,外部知識の活用の可能性について検討する。提案手法では,音声の音声埋め込みと意味的テキスト埋め込みを併用して,ASRに偏りを生じさせる。 LibiriSpeechと社内音声アシスタント/検索データセットの実験により、提案手法により、最大1KのGPU時間でドメイン適応時間を短縮できることが示された。
論文参考訳（メタデータ） (2023-01-06T22:32:50Z)
A bandit approach to curriculum generation for automatic speech recognition [7.008190762572486]
本稿では,自動カリキュラム学習を用いて,学習データの欠如を緩和する手法を提案する。このアプローチの目的は、難易度でランク付けされたミニバッチのトレーニングシーケンスを最適化することである。我々は,本手法を真に低リソースな言語で検証し,ベースライン移行学習モデルに対して,帯域幅フレームワークが優れた改善を実現していることを示す。
論文参考訳（メタデータ） (2021-02-06T20:32:10Z)
Ranking Creative Language Characteristics in Small Data Scenarios [52.00161818003478]
DirectRankerを適用して、小さなデータでクリエイティブ言語をランク付けするための、新しいディープモデルを提供します。スパーストレーニングデータを用いた実験により、標準的なニューラルネットワークのランク付け手法の性能は小さなデータセットで崩壊するが、DirectRankerは依然として有効であることがわかった。
論文参考訳（メタデータ） (2020-10-23T18:57:47Z)
Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文参考訳（メタデータ） (2020-01-28T22:09:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。