論文の概要: Evaluating Standard and Dialectal Frisian ASR: Multilingual Fine-tuning and Language Identification for Improved Low-resource Performance
- arxiv url: http://arxiv.org/abs/2502.04883v1
- Date: Fri, 07 Feb 2025 12:42:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-10 14:57:26.987180
- Title: Evaluating Standard and Dialectal Frisian ASR: Multilingual Fine-tuning and Language Identification for Improved Low-resource Performance
- Title(参考訳): 低リソース性能向上のための多言語ファインチューニングと言語同定のための標準とディレクタのフリシアンASRの評価
- Authors: Reihaneh Amooie, Wietse de Vries, Yun Hao, Jelske Dijkstra, Matt Coler, Martijn Wieling,
- Abstract要約: 最先端の手法では、大量のデータに事前訓練されたモデルをラベル付きデータを使って微調整する自己教師ありトランスファーラーニングをデプロイする。
我々は,多言語微調整データと補助言語識別タスクを用いて,Frisian ASRの性能を向上させることができることを示す。
- 参考スコア(独自算出の注目度): 9.624005980086707
- License:
- Abstract: Automatic Speech Recognition (ASR) performance for low-resource languages is still far behind that of higher-resource languages such as English, due to a lack of sufficient labeled data. State-of-the-art methods deploy self-supervised transfer learning where a model pre-trained on large amounts of data is fine-tuned using little labeled data in a target low-resource language. In this paper, we present and examine a method for fine-tuning an SSL-based model in order to improve the performance for Frisian and its regional dialects (Clay Frisian, Wood Frisian, and South Frisian). We show that Frisian ASR performance can be improved by using multilingual (Frisian, Dutch, English and German) fine-tuning data and an auxiliary language identification task. In addition, our findings show that performance on dialectal speech suffers substantially, and, importantly, that this effect is moderated by the elicitation approach used to collect the dialectal data. Our findings also particularly suggest that relying solely on standard language data for ASR evaluation may underestimate real-world performance, particularly in languages with substantial dialectal variation.
- Abstract(参考訳): 低リソース言語のための自動音声認識(ASR)の性能は、十分なラベル付きデータが不足しているため、英語のような高リソース言語よりもはるかに劣っている。
State-of-the-art method deploy self-supervised transfer learning where a model pre-trained on large data is fine-tuned using little labeled data in a target low-resource language。
本稿では,フリシアンとその地域方言(クレー・フリシアン,ウッド・フリシアン,サウス・フリシアン)の性能を向上させるために,SSLベースのモデルを微調整する方法を提案する。
本稿では,多言語(ロシア語,オランダ語,英語,ドイツ語)の微調整データと補助言語識別タスクを用いて,Frisian ASRの性能を向上できることを示す。
さらに,本研究は,方言音声のパフォーマンスが著しく低下していること,および,この効果が方言データ収集に使用されるエリケーションアプローチによって抑制されていることを示唆した。
また,ASR評価のための標準言語データのみに依存することは,特に方言変化の大きい言語において,現実世界のパフォーマンスを過小評価する可能性も示唆された。
関連論文リスト
- Investigating the Impact of Language-Adaptive Fine-Tuning on Sentiment Analysis in Hausa Language Using AfriBERTa [2.5055584842618175]
感情分析(SA)は、自然言語処理(NLP)において、テキストで表される感情を識別することで重要な役割を担っている。
本研究では, 言語適応ファインチューニング(LAFT)の有効性について検討した。
論文 参考訳(メタデータ) (2025-01-19T11:52:46Z) - Enhancing Multilingual ASR for Unseen Languages via Language Embedding Modeling [50.62091603179394]
最も先進的なASRモデルの1つであるWhisperは99の言語を効果的に扱う。
しかし、ウィスパーは未確認の言語と戦っているが、それらは事前訓練には含まれていない。
本研究では,これらの関係を利用して未知言語上でのASR性能を向上させる手法を提案する。
論文 参考訳(メタデータ) (2024-12-21T04:05:43Z) - Towards Cross-Lingual Audio Abuse Detection in Low-Resource Settings with Few-Shot Learning [1.532756501930393]
低リソース言語における乱用言語検出のための事前学習音声表現の可能性について検討する。
提案手法は,モデルに依存しないメタラーニングフレームワークに表現を統合し,乱用言語を10言語に分類する。
論文 参考訳(メタデータ) (2024-12-02T11:51:19Z) - Challenges in Adapting Multilingual LLMs to Low-Resource Languages using LoRA PEFT Tuning [0.4194295877935868]
本研究では,ローランド適応 (LoRA) -高効率ファインチューニング (PEFT) がマラウイの多言語Gemmaモデルに及ぼす影響について検討した。
52,000対の命令応答対を持つ翻訳データセットを用いて、評価結果が微調整後に低下する一方で、手動による評価では、微調整されたモデルが元のモデルよりも優れていることがしばしば示唆されている。
論文 参考訳(メタデータ) (2024-11-27T18:14:38Z) - Improving Multilingual ASR in the Wild Using Simple N-best Re-ranking [68.77659513993507]
我々は,多言語ASRの精度を向上させるため,単純かつ効果的なN-best再分類手法を提案する。
その結果, 音声認識の精度は8.7%, 6.1%, 単語誤り率は3.3%, 単語誤り率は2.0%であった。
論文 参考訳(メタデータ) (2024-09-27T03:31:32Z) - Exploring the Impact of Data Quantity on ASR in Extremely Low-resource Languages [24.856817602140193]
この研究は、2つの絶滅危惧言語であるAmisとSediqに焦点を当てている。
本稿では,多言語コーパスを利用して対象とする限られた言語データを増やす新しいデータ選択手法を提案する。
論文 参考訳(メタデータ) (2024-09-13T14:35:47Z) - An Initial Investigation of Language Adaptation for TTS Systems under Low-resource Scenarios [76.11409260727459]
本稿では,最近のSSLベースの多言語TSシステムであるZMM-TTSの言語適応性について検討する。
本研究では,事前学習言語と対象言語との音声学的な類似性が,対象言語の適応性能に影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2024-06-13T08:16:52Z) - Quantifying the Dialect Gap and its Correlates Across Languages [69.18461982439031]
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
論文 参考訳(メタデータ) (2023-10-23T17:42:01Z) - A Novel Self-training Approach for Low-resource Speech Recognition [15.612232220719653]
低リソース環境における自動音声認識(ASR)のための自己学習手法を提案する。
提案手法は単語誤り率を大幅に改善し,14.94%の相対的な改善を実現した。
提案手法は,Common Voice Punjabiデータセットの最良の結果を報告する。
論文 参考訳(メタデータ) (2023-08-10T01:02:45Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z) - Building Low-Resource NER Models Using Non-Speaker Annotation [58.78968578460793]
言語横断的な手法はこれらの懸念に対処する上で顕著な成功を収めた。
本稿では,Non-Speaker''(NS)アノテーションを用いた低リソース名前付きエンティティ認識(NER)モデル構築のための補完的アプローチを提案する。
NSアノテータの使用は、現代の文脈表現上に構築された言語間メソッドよりも、一貫した結果が得られることを示す。
論文 参考訳(メタデータ) (2020-06-17T03:24:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。