Fugu-MT 論文翻訳(概要): Advancing African-Accented Speech Recognition: Epistemic Uncertainty-Driven Data Selection for Generalizable ASR Models

論文の概要: Advancing African-Accented Speech Recognition: Epistemic Uncertainty-Driven Data Selection for Generalizable ASR Models

arxiv url: http://arxiv.org/abs/2306.02105v3
Date: Sun, 5 May 2024 15:51:31 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-08 01:26:19.604819
Title: Advancing African-Accented Speech Recognition: Epistemic Uncertainty-Driven Data Selection for Generalizable ASR Models
Title（参考訳）: アフリカ中心音声認識の強化:一般化可能なASRモデルのための認識不確実性駆動型データ選択
Authors: Bonaventure F. P. Dossou, Atnafu Lambebo Tonja, Chris Chinenye Emezue, Tobi Olatunji, Naome A Etori, Salomey Osei, Tosin Adewumi, Sahib Singh,
Abstract要約: アノテーションプロセスの自動化と,情報的不確実性に基づくデータ選択によるアノテーション関連費用の削減を行う。我々のアプローチは69.44%のWER改善をもたらし、既存のベースラインよりも平均45%少ないデータを必要とする。提案手法はアフリカ中心のASRの即時問題に対処し,他の未表現および低リソース言語やアクセントに対するASRシステムの改善に広範な意味を持つことを示す。
参考スコア（独自算出の注目度）: 4.737011294851092
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Accents are crucial in human communication as they help us understand others and allow us to communicate intelligibly in a way others understand us. While there has been significant progress in ASR, African-accented ASR has been understudied due to a lack of training datasets which are often expensive to create and demand colossal human labor. Our study aims to address this problem by automating the annotation process and reducing annotation-related expenses through informative uncertainty-based data selection. We propose a new multi-rounds adaptation process that uses epistemic uncertainty and evaluate it across several domains, datasets, and high-performing ASR models. Our results show that our approach leads to a 69.44\% WER improvement while requiring on average 45\% less data than established baselines. Our approach also improves out-of-distribution generalization for very low-resource accents, demonstrating its viability for building generalizable ASR models in the context of accented African ASR. Moreover, the results of our active learning experiments, simulating real-world settings, where there are no \textit{gold} transcriptions available, also demonstrate the ability of our approach to favor good quality real-life transcriptions. This indicates that our proposed approach addresses the immediate issue of African-accented ASR and has broader implications for improving ASR systems for other underrepresented and low-resource languages and accents. We open-source the code https://github.com/bonaventuredossou/active_learning_african_asr
Abstract（参考訳）: アクセントは、他人の理解を助け、他人の理解方法で知的なコミュニケーションを可能にするため、人間のコミュニケーションにおいて不可欠です。 ASRには大きな進歩があったが、アフリカ中心のASRは訓練データセットが不足しているため、労働力の創出と要求に費用がかかるため、研究が進められている。本研究の目的は、アノテーションプロセスの自動化と、情報的不確実性に基づくデータ選択によるアノテーション関連費用の削減により、この問題に対処することである。本稿では,複数の領域,データセット,高パフォーマンスASRモデルにまたがって,疫学的不確実性を利用した新しいマルチラウンド適応プロセスを提案する。以上の結果から,従来のベースラインよりも平均45倍少ないデータを必要とする一方で,69.44倍のWER改善を実現していることがわかった。また,非常に低リソースのアクセントに対する分布外一般化を改良し,アクセント付きアフリカASRの文脈で一般化可能なASRモデルを構築する可能性を示した。さらに, 実環境設定をシミュレートした能動的学習実験の結果から, 良質な実生活の書き起こしを好む方法が示された。提案手法はアフリカ中心のASRの即時問題に対処し,他の未表現および低リソース言語やアクセントに対するASRシステムの改善に広範な意味を持つことを示す。私たちはhttps://github.com/bonaventuredossou/active_learning_african_asrをオープンソースにしています。

関連論文リスト

Leveraging LLM and Self-Supervised Training Models for Speech Recognition in Chinese Dialects: A Comparative Analysis [4.774607166378613]
自己教師付き事前トレーニングと大規模言語モデル(LLM)を組み合わせることで、低リソースシナリオにおけるASRのパフォーマンスを効果的に向上させることができる。我々は、ラベル付き方言とアクセント付き音声データの30,000時間でData2vec2モデルを事前訓練し、教師付きデータセット上で4万時間アライメントトレーニングを行う。
論文参考訳（メタデータ） (2025-05-27T12:50:55Z)
Advancing Arabic Speech Recognition Through Large-Scale Weakly Supervised Learning [0.0]
弱教師付き学習を用いて、コンフォーマーアーキテクチャを用いてアラビアASRモデルを訓練する。我々のモデルは、現代標準アラビア語(MSA)と方言アラビア語(DA)の両方をカバーする弱注釈音声データを15,000時間スクラッチから訓練する。
論文参考訳（メタデータ） (2025-04-16T17:05:14Z)
Whispering in Amharic: Fine-tuning Whisper for Low-resource Language [3.2858851789879595]
本研究は,AmharicにおけるOpenAIのWhisper自動音声認識モデルについて検討する。 Mozilla Common Voice、FLEURS、BDU-speechデータセットといったデータセットを使って微調整します。最高のパフォーマンスモデルであるWhispersmall-amは、既存のFLEURSデータと新しい、目に見えないAmharicデータセットの混合を微調整することで、大幅に改善される。
論文参考訳（メタデータ） (2025-03-24T09:39:41Z)
How to Learn a New Language? An Efficient Solution for Self-Supervised Learning Models Unseen Languages Adaption in Low-Resource Scenario [72.02391485962127]
音声認識(ASR)における音声自己監視学習(SSL)モデルの性能向上低リソース言語 ASR では、事前訓練された言語と低リソース言語のドメインミスマッチ問題に遭遇する。これらの問題に対処するためのアダプタに基づく従来型の効率的な微調整手法を拡張した。
論文参考訳（メタデータ） (2024-11-27T10:51:00Z)
SMILE: Speech Meta In-Context Learning for Low-Resource Language Automatic Speech Recognition [55.2480439325792]
音声メタインコンテキスト学習(SMILE)は、メタラーニングと音声インコンテキスト学習(SICL)を組み合わせた革新的なフレームワークである SMILEは、トレーニング不要な多言語ASRタスクにおいて、ベースライン手法よりも一貫して優れていることを示す。
論文参考訳（メタデータ） (2024-09-16T16:04:16Z)
Accelerating Large Language Model Pretraining via LFR Pedagogy: Learn, Focus, and Review [50.78587571704713]
Learn-Focus-Review(LFR)は、モデルの学習進捗に適応する動的トレーニングアプローチである。 LFRは、データブロック(トークンのシーケンス)にわたるモデルの学習パフォーマンスを追跡し、データセットの困難な領域を再検討する。フルデータセットでトレーニングされたベースラインモデルと比較して、LFRは一貫して低いパープレキシティと高い精度を達成した。
論文参考訳（メタデータ） (2024-09-10T00:59:18Z)
Boosting Continual Learning of Vision-Language Models via Mixture-of-Experts Adapters [65.15700861265432]
本稿では,視覚言語モデルを用いた漸進的学習における長期的忘れを緩和するパラメータ効率の連続学習フレームワークを提案する。提案手法では,Mixture-of-Experts (MoE)アダプタの統合により,事前学習したCLIPモデルの動的拡張を行う。視覚言語モデルのゼロショット認識能力を維持するために,分布判別オートセレクタを提案する。
論文参考訳（メタデータ） (2024-03-18T08:00:23Z)
Unlearnable Algorithms for In-context Learning [36.895152458323764]
本稿では,事前訓練された大規模言語モデルのタスク適応フェーズに対する効率的なアンラーニング手法に着目した。タスク適応のための文脈内学習を行うLLMの能力は、タスク適応トレーニングデータの効率的なアンラーニングを可能にする。本稿では,様々な推論コストを考慮に入れた非学習コストの包括的尺度を提案する。
論文参考訳（メタデータ） (2024-02-01T16:43:04Z)
Improving Generalization of Alignment with Human Preferences through Group Invariant Learning [56.19242260613749]
Reinforcement Learning from Human Feedback (RLHF) は、人間の好みに合わせた反応の生成を可能にする。以前の研究は、強化学習(RL)がしばしばショートカットを利用して高い報酬を獲得し、挑戦的なサンプルを見落としていることを示している。本稿では,複数のデータグループやドメインにまたがる一貫したポリシをRLで学習する,新しいアプローチを提案する。
論文参考訳（メタデータ） (2023-10-18T13:54:15Z)
Enabling Language Models to Implicitly Learn Self-Improvement [49.16868302881804]
大規模言語モデル(LLM)は、オープンエンドテキスト生成タスクにおいて顕著な機能を示した。我々は、人間の嗜好データから改善目標を暗黙的に学習するImPlicit Self-ImprovemenT(PIT)フレームワークを提案する。
論文参考訳（メタデータ） (2023-10-02T04:29:40Z)
Reduce, Reuse, Recycle: Is Perturbed Data better than Other Language augmentation for Low Resource Self-Supervised Speech Models [48.44820587495038]
自己教師付き表現学習(SSRL)は、音素認識を含むタスクの教師付きモデルよりも優れた性能を示した。 SSRLモデルのトレーニングは、十分な事前学習データが入手できない低リソース言語にとって課題となる。本稿では,低リソース環境下でのSSRLモデルの事前学習にピッチ変動,雑音付加,アクセント付きターゲット言語,その他の言語音声を用いることを提案し,音素認識の評価を行う。
論文参考訳（メタデータ） (2023-09-22T10:09:09Z)
A Novel Self-training Approach for Low-resource Speech Recognition [15.612232220719653]
低リソース環境における自動音声認識(ASR)のための自己学習手法を提案する。提案手法は単語誤り率を大幅に改善し,14.94%の相対的な改善を実現した。提案手法は,Common Voice Punjabiデータセットの最良の結果を報告する。
論文参考訳（メタデータ） (2023-08-10T01:02:45Z)
Using External Off-Policy Speech-To-Text Mappings in Contextual End-To-End Automated Speech Recognition [19.489794740679024]
本稿では,外部知識の活用の可能性について検討する。提案手法では,音声の音声埋め込みと意味的テキスト埋め込みを併用して,ASRに偏りを生じさせる。 LibiriSpeechと社内音声アシスタント/検索データセットの実験により、提案手法により、最大1KのGPU時間でドメイン適応時間を短縮できることが示された。
論文参考訳（メタデータ） (2023-01-06T22:32:50Z)
A bandit approach to curriculum generation for automatic speech recognition [7.008190762572486]
本稿では,自動カリキュラム学習を用いて,学習データの欠如を緩和する手法を提案する。このアプローチの目的は、難易度でランク付けされたミニバッチのトレーニングシーケンスを最適化することである。我々は,本手法を真に低リソースな言語で検証し,ベースライン移行学習モデルに対して,帯域幅フレームワークが優れた改善を実現していることを示す。
論文参考訳（メタデータ） (2021-02-06T20:32:10Z)
Ranking Creative Language Characteristics in Small Data Scenarios [52.00161818003478]
DirectRankerを適用して、小さなデータでクリエイティブ言語をランク付けするための、新しいディープモデルを提供します。スパーストレーニングデータを用いた実験により、標準的なニューラルネットワークのランク付け手法の性能は小さなデータセットで崩壊するが、DirectRankerは依然として有効であることがわかった。
論文参考訳（メタデータ） (2020-10-23T18:57:47Z)
Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文参考訳（メタデータ） (2020-01-28T22:09:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。