論文の概要: Exploring the Impact of Data Quantity on ASR in Extremely Low-resource Languages
- arxiv url: http://arxiv.org/abs/2409.08872v1
- Date: Fri, 13 Sep 2024 14:35:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-16 16:09:45.280284
- Title: Exploring the Impact of Data Quantity on ASR in Extremely Low-resource Languages
- Title(参考訳): 極低リソース言語におけるデータ量とASRへの影響の探索
- Authors: Yao-Fei Cheng, Li-Wei Chen, Hung-Shin Lee, Hsin-Min Wang,
- Abstract要約: この研究は、2つの絶滅危惧言語であるAmisとSediqに焦点を当てている。
本稿では,多言語コーパスを利用して対象とする限られた言語データを増やす新しいデータ選択手法を提案する。
- 参考スコア(独自算出の注目度): 24.856817602140193
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study investigates the efficacy of data augmentation techniques for low-resource automatic speech recognition (ASR), focusing on two endangered Austronesian languages, Amis and Seediq. Recognizing the potential of self-supervised learning (SSL) in low-resource settings, we explore the impact of data volume on the continued pre-training of SSL models. We propose a novel data-selection scheme leveraging a multilingual corpus to augment the limited target language data. This scheme utilizes a language classifier to extract utterance embeddings and employs one-class classifiers to identify utterances phonetically and phonologically proximate to the target languages. Utterances are ranked and selected based on their decision scores, ensuring the inclusion of highly relevant data in the SSL-ASR pipeline. Our experimental results demonstrate the effectiveness of this approach, yielding substantial improvements in ASR performance for both Amis and Seediq. These findings underscore the feasibility and promise of data augmentation through cross-lingual transfer learning for low-resource language ASR.
- Abstract(参考訳): 本研究では,Amis と Seediq の2つの絶滅危惧言語に着目し,低リソース自動音声認識(ASR)におけるデータ拡張手法の有効性について検討した。
低リソース環境での自己教師型学習(SSL)の可能性を認識し、SSLモデルの継続的な事前トレーニングに対するデータボリュームの影響について検討する。
本稿では,多言語コーパスを利用して対象とする限られた言語データを増やす新しいデータ選択手法を提案する。
この方式では、言語分類器を用いて発話埋め込みを抽出し、一級分類器を用いて発話を音声的に識別し、音韻的に対象言語に接近する。
発話は、その決定スコアに基づいてランク付けされ、選択され、SSL-ASRパイプラインに高度に関連性の高いデータを含むことが保証される。
提案手法の有効性を実証し,Amis と Seediq のASR性能を大幅に改善した。
これらの知見は、低リソース言語ASRにおける言語間変換学習によるデータ拡張の実現可能性と可能性を裏付けるものである。
関連論文リスト
- Evaluating Standard and Dialectal Frisian ASR: Multilingual Fine-tuning and Language Identification for Improved Low-resource Performance [9.624005980086707]
最先端の手法では、大量のデータに事前訓練されたモデルをラベル付きデータを使って微調整する自己教師ありトランスファーラーニングをデプロイする。
我々は,多言語微調整データと補助言語識別タスクを用いて,Frisian ASRの性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2025-02-07T12:42:46Z) - Revisiting Projection-based Data Transfer for Cross-Lingual Named Entity Recognition in Low-Resource Languages [8.612181075294327]
本手法は, クロスリンガルNERに有効な手法であることを示す。
本稿では,対象候補を抽出したソースエンティティとマッチングする新しい形式化されたプロジェクション手法を提案する。
これらの知見は、低リソース言語におけるクロスリンガルなエンティティ認識のためのモデルベース手法の代替として、プロジェクションベースのデータ転送の堅牢性を強調している。
論文 参考訳(メタデータ) (2025-01-30T21:00:47Z) - Enhancing Multilingual ASR for Unseen Languages via Language Embedding Modeling [50.62091603179394]
最も先進的なASRモデルの1つであるWhisperは99の言語を効果的に扱う。
しかし、ウィスパーは未確認の言語と戦っているが、それらは事前訓練には含まれていない。
本研究では,これらの関係を利用して未知言語上でのASR性能を向上させる手法を提案する。
論文 参考訳(メタデータ) (2024-12-21T04:05:43Z) - Towards Cross-Lingual Audio Abuse Detection in Low-Resource Settings with Few-Shot Learning [1.532756501930393]
低リソース言語における乱用言語検出のための事前学習音声表現の可能性について検討する。
提案手法は,モデルに依存しないメタラーニングフレームワークに表現を統合し,乱用言語を10言語に分類する。
論文 参考訳(メタデータ) (2024-12-02T11:51:19Z) - Improving Speech Emotion Recognition in Under-Resourced Languages via Speech-to-Speech Translation with Bootstrapping Data Selection [49.27067541740956]
音声感情認識(SER)は、人間とコンピュータの自然な相互作用が可能な汎用AIエージェントを開発する上で重要な要素である。
英語や中国語以外の言語でラベル付きデータが不足しているため、堅牢な多言語SERシステムの構築は依然として困難である。
本稿では,低SERリソース言語におけるSERの性能向上のための手法を提案する。
論文 参考訳(メタデータ) (2024-09-17T08:36:45Z) - Meta-Whisper: Speech-Based Meta-ICL for ASR on Low-Resource Languages [51.12146889808824]
Meta-Whisperは、低リソース言語の自動音声認識を改善するための新しいアプローチである。
これにより、Whisperは、広範囲の微調整をすることなく、馴染みのない言語で音声を認識できる能力を高める。
論文 参考訳(メタデータ) (2024-09-16T16:04:16Z) - LLMs in the Loop: Leveraging Large Language Model Annotations for Active Learning in Low-Resource Languages [1.149936119867417]
低リソース言語は、限られた言語資源とデータラベリングの専門知識のために、AI開発において重大な障壁に直面している。
データアノテーションのアクティブ学習ループにおけるLLMの可能性を活用することを提案する。
GPT-4-Turboを用いた実証的な評価では、データ要求が大幅に削減され、最先端の性能が実証された。
論文 参考訳(メタデータ) (2024-04-02T19:34:22Z) - Large Language Models are Efficient Learners of Noise-Robust Speech
Recognition [65.95847272465124]
大規模言語モデル(LLM)の最近の進歩は、自動音声認識(ASR)のための生成誤り訂正(GER)を促進している。
本研究では,このベンチマークをノイズの多い条件に拡張し,GERのデノナイジングをLLMに教えることができるかを検討する。
最新のLLM実験では,単語誤り率を最大53.9%改善し,新たなブレークスルーを実現している。
論文 参考訳(メタデータ) (2024-01-19T01:29:27Z) - Reduce, Reuse, Recycle: Is Perturbed Data better than Other Language augmentation for Low Resource Self-Supervised Speech Models [48.44820587495038]
自己教師付き表現学習(SSRL)は、音素認識を含むタスクの教師付きモデルよりも優れた性能を示した。
SSRLモデルのトレーニングは、十分な事前学習データが入手できない低リソース言語にとって課題となる。
本稿では,低リソース環境下でのSSRLモデルの事前学習にピッチ変動,雑音付加,アクセント付きターゲット言語,その他の言語音声を用いることを提案し,音素認識の評価を行う。
論文 参考訳(メタデータ) (2023-09-22T10:09:09Z) - Learning Cross-lingual Mappings for Data Augmentation to Improve
Low-Resource Speech Recognition [31.575930914290762]
言語間リソースの爆発は、低リソース言語のデータの不足を補う効果的な方法である。
エンドツーエンド音声認識のための学習可能な言語間マッピングの概念を拡張した。
その結果,任意のソース言語 ASR モデルを用いて,低リソースターゲット言語認識を行うことが可能であることが示唆された。
論文 参考訳(メタデータ) (2023-06-14T15:24:31Z) - Meta-Transfer Learning for Code-Switched Speech Recognition [72.84247387728999]
低リソース環境下でのコード切替音声認識システムにおける学習を伝達するメタトランスファー学習法を提案する。
本モデルでは,コードスイッチングデータに最適化を条件付けることにより,個々の言語を識別し,混合言語音声をよりよく認識できるように変換する。
論文 参考訳(メタデータ) (2020-04-29T14:27:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。