論文の概要: ASR advancements for indigenous languages: Quechua, Guarani, Bribri, Kotiria, and Wa'ikhana
- arxiv url: http://arxiv.org/abs/2404.08368v1
- Date: Fri, 12 Apr 2024 10:12:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-15 15:26:15.999072
- Title: ASR advancements for indigenous languages: Quechua, Guarani, Bribri, Kotiria, and Wa'ikhana
- Title(参考訳): ASRによる先住民語の発展 - Quechua, Guarani, Bribri, Kotiria, Wa'ikhana
- Authors: Monica Romero, Sandra Gomez, Iván G. Torre,
- Abstract要約: 多様な情報源にまたがる音声コーパスをクロールすることで,各対象言語に対する信頼性の高いASRモデルを提案する。
凍結調整された更新とドロップアウト率は,lrのエポックの総数よりも重要なパラメータであることがわかった。
私たちは最高のモデルを解放します -- ワシカーナとコティリアの2つについて、これまでに報告された他のASRモデルはありません。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Indigenous languages are a fundamental legacy in the development of human communication, embodying the unique identity and culture of local communities of America. The Second AmericasNLP Competition Track 1 of NeurIPS 2022 proposed developing automatic speech recognition (ASR) systems for five indigenous languages: Quechua, Guarani, Bribri, Kotiria, and Wa'ikhana. In this paper, we propose a reliable ASR model for each target language by crawling speech corpora spanning diverse sources and applying data augmentation methods that resulted in the winning approach in this competition. To achieve this, we systematically investigated the impact of different hyperparameters by a Bayesian search on the performance of the language models, specifically focusing on the variants of the Wav2vec2.0 XLS-R model: 300M and 1B parameters. Moreover, we performed a global sensitivity analysis to assess the contribution of various hyperparametric configurations to the performances of our best models. Importantly, our results show that freeze fine-tuning updates and dropout rate are more vital parameters than the total number of epochs of lr. Additionally, we liberate our best models -- with no other ASR model reported until now for two Wa'ikhana and Kotiria -- and the many experiments performed to pave the way to other researchers to continue improving ASR in minority languages. This insight opens up interesting avenues for future work, allowing for the advancement of ASR techniques in the preservation of minority indigenous and acknowledging the complexities involved in this important endeavour.
- Abstract(参考訳): 先住民族言語は、アメリカの地域社会のユニークなアイデンティティと文化を具現化した、人間のコミュニケーションの発展における基本的遺産である。
NeurIPS 2022のSecond AmericasNLPコンペティショントラック1では、Cechua、Guarani、Brbri、Kotiria、Wa'ikhanaの5つのネイティブ言語のための自動音声認識(ASR)システムの開発が提案された。
本稿では,多種多様なソースにまたがる音声コーパスをクローリングし,この競合に勝利をもたらすデータ拡張手法を適用することにより,各ターゲット言語に対する信頼性の高いASRモデルを提案する。
これを実現するため,ベイズ探索により異なるハイパーパラメータが言語モデルの性能に与える影響を系統的に検討し,特に300Mと1BのパラメータであるWav2vec2.0 XLS-Rモデルの変種に着目した。
さらに, 最適モデルの性能に対する各種ハイパーパラメトリック構成の寄与を評価するために, グローバル感度解析を行った。
以上の結果から, 微調整更新とドロップアウト率の凍結は, lr の総エポック数よりも重要なパラメータであることが示唆された。
さらに、私たちは最高のモデル -- これまでに2つのWa'ikhanaとKotiriaで報告された他のASRモデル -- を解放し、他の研究者が少数言語でASRを改善し続けるための多くの実験を実施しました。
この知見は将来の研究への興味深い道を開き、少数民族の保存におけるASR技術の発展と、この重要な取り組みに関わる複雑さの認識を可能にした。
関連論文リスト
- Whisper Finetuning on Nepali Language [0.0]
本研究は,ネパール語の転写精度を向上させるために,OpenAIのWhisperモデルを微調整し,包括的で一般化したデータセットを作成することに焦点を当てる。
ASRデータセットと自己記録されたカスタムデータセットを多種多様なアクセント、方言、話し方で活用し、拡張によってさらに充実させます。
我々のアプローチは、FleurのデータセットでトレーニングされたWhisperのベースラインモデルよりも優れており、中規模モデルでは36.2%、中型モデルでは23.8%のWER削減を実現している。
論文 参考訳(メタデータ) (2024-11-19T15:55:56Z) - Automatic Speech Recognition for the Ika Language [0.0]
IkaのNew Testament Bible Multilingualから収集した高品質な音声データセット上で、事前学習したwav2vec 2.0の大規模翻訳を行う。
この結果から,微調整による事前学習モデルでは単語誤り率(WER)が0.5377,文字誤り率(CER)が0.2651となり,学習時間は1時間を超えることがわかった。
論文 参考訳(メタデータ) (2024-10-01T11:56:42Z) - Improving Multilingual ASR in the Wild Using Simple N-best Re-ranking [68.77659513993507]
我々は,多言語ASRの精度を向上させるため,単純かつ効果的なN-best再分類手法を提案する。
その結果, 音声認識の精度は8.7%, 6.1%, 単語誤り率は3.3%, 単語誤り率は2.0%であった。
論文 参考訳(メタデータ) (2024-09-27T03:31:32Z) - CLAIR-A: Leveraging Large Language Models to Judge Audio Captions [73.51087998971418]
機械生成オーディオキャプションの評価は、様々な要因を検討する必要がある複雑なタスクである。
本稿では,大規模言語モデルのゼロショット機能を活用するシンプルで柔軟なCLAIR-Aを提案する。
我々の評価では、CLAIR-Aは従来のメトリクスと比較して品質の人的判断を良く予測する。
論文 参考訳(メタデータ) (2024-09-19T17:59:52Z) - A Novel Self-training Approach for Low-resource Speech Recognition [15.612232220719653]
低リソース環境における自動音声認識(ASR)のための自己学習手法を提案する。
提案手法は単語誤り率を大幅に改善し,14.94%の相対的な改善を実現した。
提案手法は,Common Voice Punjabiデータセットの最良の結果を報告する。
論文 参考訳(メタデータ) (2023-08-10T01:02:45Z) - From English to More Languages: Parameter-Efficient Model Reprogramming
for Cross-Lingual Speech Recognition [50.93943755401025]
言語間音声認識のためのニューラルモデル再プログラミングに基づく新しいパラメータ効率学習フレームワークを提案する。
我々は、学習可能な事前学習機能強化に焦点を当てた、異なる補助的ニューラルネットワークアーキテクチャを設計する。
提案手法は,既存のASRチューニングアーキテクチャとその拡張性能を自己監督的損失で向上させる。
論文 参考訳(メタデータ) (2023-01-19T02:37:56Z) - Effectiveness of Mining Audio and Text Pairs from Public Data for
Improving ASR Systems for Low-Resource Languages [15.214673043019395]
Shrutilipiは、12のインドの言語で6,400時間以上のラベル付きオーディオを含むデータセットです。
平均すると、Shrutilipiは公開ラベル付きデータよりも2.3倍増加する。
We show that that Shrutilipi to the training set of Wav2Vec models to a average down of WER for 7 languages。
論文 参考訳(メタデータ) (2022-08-26T13:37:45Z) - No Language Left Behind: Scaling Human-Centered Machine Translation [69.28110770760506]
低レベルの言語と高レベルの言語のパフォーマンスギャップを狭めるためのデータセットとモデルを作成します。
何千ものタスクをトレーニングしながらオーバーフィッティングに対処するために,複数のアーキテクチャとトレーニングの改善を提案する。
本モデルでは,従来の最先端技術と比較して,BLEUの44%の改善を実現している。
論文 参考訳(メタデータ) (2022-07-11T07:33:36Z) - Scaling ASR Improves Zero and Few Shot Learning [23.896440724468246]
大規模データセットでもっとも有用なサンプルを見つけるために,トレーニングデータを効率的にスケールするためのデータ選択手法を提案する。
1-10Bパラメータのユニバーサル英語ASRモデルを訓練することにより、音声認識性能の限界を多くの領域に広げる。
脳損傷による障害のある話者に対して、私たちの最高のゼロショットモデルと少数ショットモデルは、それぞれAphasiaBankテストセットで22%と60%の相対的な改善を達成しています。
論文 参考訳(メタデータ) (2021-11-10T21:18:59Z) - Arabic Speech Recognition by End-to-End, Modular Systems and Human [56.96327247226586]
我々は、エンドツーエンド変換器ASR、モジュール型HMM-DNN ASR、および人間の音声認識のための包括的なベンチマークを行う。
ASRでは、エンドツーエンドの作業が12.5%、27.5%、23.8%のWERとなり、それぞれMGB2、MGB3、MGB5の新たなパフォーマンスマイルストーンとなった。
以上の結果から,アラビア語における人的パフォーマンスは,平均3.6%のWERギャップを持つ機械に比べて,依然としてかなり優れていたことが示唆された。
論文 参考訳(メタデータ) (2021-01-21T05:55:29Z) - Unsupervised Cross-lingual Representation Learning for Speech
Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。
我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。
実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2020-06-24T18:25:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。