論文の概要: ASR advancements for indigenous languages: Quechua, Guarani, Bribri, Kotiria, and Wa'ikhana
- arxiv url: http://arxiv.org/abs/2404.08368v1
- Date: Fri, 12 Apr 2024 10:12:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-15 15:26:15.999072
- Title: ASR advancements for indigenous languages: Quechua, Guarani, Bribri, Kotiria, and Wa'ikhana
- Title(参考訳): ASRによる先住民語の発展 - Quechua, Guarani, Bribri, Kotiria, Wa'ikhana
- Authors: Monica Romero, Sandra Gomez, Iván G. Torre,
- Abstract要約: 多様な情報源にまたがる音声コーパスをクロールすることで,各対象言語に対する信頼性の高いASRモデルを提案する。
凍結調整された更新とドロップアウト率は,lrのエポックの総数よりも重要なパラメータであることがわかった。
私たちは最高のモデルを解放します -- ワシカーナとコティリアの2つについて、これまでに報告された他のASRモデルはありません。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Indigenous languages are a fundamental legacy in the development of human communication, embodying the unique identity and culture of local communities of America. The Second AmericasNLP Competition Track 1 of NeurIPS 2022 proposed developing automatic speech recognition (ASR) systems for five indigenous languages: Quechua, Guarani, Bribri, Kotiria, and Wa'ikhana. In this paper, we propose a reliable ASR model for each target language by crawling speech corpora spanning diverse sources and applying data augmentation methods that resulted in the winning approach in this competition. To achieve this, we systematically investigated the impact of different hyperparameters by a Bayesian search on the performance of the language models, specifically focusing on the variants of the Wav2vec2.0 XLS-R model: 300M and 1B parameters. Moreover, we performed a global sensitivity analysis to assess the contribution of various hyperparametric configurations to the performances of our best models. Importantly, our results show that freeze fine-tuning updates and dropout rate are more vital parameters than the total number of epochs of lr. Additionally, we liberate our best models -- with no other ASR model reported until now for two Wa'ikhana and Kotiria -- and the many experiments performed to pave the way to other researchers to continue improving ASR in minority languages. This insight opens up interesting avenues for future work, allowing for the advancement of ASR techniques in the preservation of minority indigenous and acknowledging the complexities involved in this important endeavour.
- Abstract(参考訳): 先住民族言語は、アメリカの地域社会のユニークなアイデンティティと文化を具現化した、人間のコミュニケーションの発展における基本的遺産である。
NeurIPS 2022のSecond AmericasNLPコンペティショントラック1では、Cechua、Guarani、Brbri、Kotiria、Wa'ikhanaの5つのネイティブ言語のための自動音声認識(ASR)システムの開発が提案された。
本稿では,多種多様なソースにまたがる音声コーパスをクローリングし,この競合に勝利をもたらすデータ拡張手法を適用することにより,各ターゲット言語に対する信頼性の高いASRモデルを提案する。
これを実現するため,ベイズ探索により異なるハイパーパラメータが言語モデルの性能に与える影響を系統的に検討し,特に300Mと1BのパラメータであるWav2vec2.0 XLS-Rモデルの変種に着目した。
さらに, 最適モデルの性能に対する各種ハイパーパラメトリック構成の寄与を評価するために, グローバル感度解析を行った。
以上の結果から, 微調整更新とドロップアウト率の凍結は, lr の総エポック数よりも重要なパラメータであることが示唆された。
さらに、私たちは最高のモデル -- これまでに2つのWa'ikhanaとKotiriaで報告された他のASRモデル -- を解放し、他の研究者が少数言語でASRを改善し続けるための多くの実験を実施しました。
この知見は将来の研究への興味深い道を開き、少数民族の保存におけるASR技術の発展と、この重要な取り組みに関わる複雑さの認識を可能にした。
関連論文リスト
- YAYI 2: Multilingual Open-Source Large Language Models [53.92832054643197]
我々は,300億のパラメータを持つベースモデルとチャットモデルを含むYAYI 2を提案する。
YAYI 2は、トレーニング済みのデータ処理パイプラインによってフィルタされた2.65兆のトークンを含む多言語コーパス上で、スクラッチから事前トレーニングされる。
ベースモデルは、数百万の指示による教師付き微調整と、人間のフィードバックからの強化学習によって、人間の価値と整合する。
論文 参考訳(メタデータ) (2023-12-22T17:34:47Z) - Evaluating Self-Supervised Speech Representations for Indigenous
American Languages [6.235388047623929]
南アメリカの先住民であるケチュア語に対するASRコーパスを提示する。
我々は、Kechua上の大規模なSSLモデルと、低リソースのASR上のGuaraniやBrbriといった6つのネイティブ言語の有効性をベンチマークした。
その結果、最先端のSSLモデルによる驚くほど高い性能を示し、大規模モデルの現実世界データへの一般化可能性を示している。
論文 参考訳(メタデータ) (2023-10-05T16:11:14Z) - Reduce, Reuse, Recycle: Is Perturbed Data better than Other Language
augmentation for Low Resource Self-Supervised Speech Models [52.92618442300405]
自己教師付き表現学習(SSRL)は、教師付きモデルと比較して下流音素認識の性能を改善した。
SSRLモデルのトレーニングには大量の事前学習データが必要である。
本稿では,低リソース条件下でのSSRLモデルの事前学習に音声拡張を用い,音素認識をダウンストリームタスクとして評価する。
論文 参考訳(メタデータ) (2023-09-22T10:09:09Z) - Advancing African-Accented Speech Recognition: Epistemic Uncertainty-Driven Data Selection for Generalizable ASR Models [4.737011294851092]
アノテーションプロセスの自動化と,情報的不確実性に基づくデータ選択によるアノテーション関連費用の削減を行う。
我々のアプローチは69.44%のWER改善をもたらし、既存のベースラインよりも平均45%少ないデータを必要とする。
提案手法はアフリカ中心のASRの即時問題に対処し,他の未表現および低リソース言語やアクセントに対するASRシステムの改善に広範な意味を持つことを示す。
論文 参考訳(メタデータ) (2023-06-03T13:11:37Z) - End-to-End Speech Recognition: A Survey [68.35707678386949]
本調査の目的は、E2E ASRモデルの分類とそれに対応する改善を提供することである。
E2E ASRのすべての関連する側面は、パフォーマンスとデプロイメントの機会に関する議論を伴う、この作業でカバーされている。
論文 参考訳(メタデータ) (2023-03-03T01:46:41Z) - From English to More Languages: Parameter-Efficient Model Reprogramming
for Cross-Lingual Speech Recognition [50.93943755401025]
言語間音声認識のためのニューラルモデル再プログラミングに基づく新しいパラメータ効率学習フレームワークを提案する。
我々は、学習可能な事前学習機能強化に焦点を当てた、異なる補助的ニューラルネットワークアーキテクチャを設計する。
提案手法は,既存のASRチューニングアーキテクチャとその拡張性能を自己監督的損失で向上させる。
論文 参考訳(メタデータ) (2023-01-19T02:37:56Z) - Data Augmentation for Low-Resource Quechua ASR Improvement [2.260916274164351]
ディープラーニングの手法により、英語のASRでは単語エラー率が5%未満のシステムをデプロイできるようになった。
いわゆる低リソース言語では,既存のリソースに基づいて新たなリソースを作成する手法が検討されている。
本稿では,低リソースおよび凝集度言語に対するASRモデルの結果を改善するためのデータ拡張手法について述べる。
論文 参考訳(メタデータ) (2022-07-14T12:49:15Z) - ASR data augmentation in low-resource settings using cross-lingual
multi-speaker TTS and cross-lingual voice conversion [49.617722668505834]
提案手法は,モデル学習中に1つの話者のみを用いて音声合成と音声変換を行い,ASRシステムの改善を可能にする。
対象言語における1つの実話者のみを用いてデータ拡張法を用いて、有望なASRトレーニング結果を得ることが可能である。
論文 参考訳(メタデータ) (2022-03-29T11:55:30Z) - A Study of Multilingual End-to-End Speech Recognition for Kazakh,
Russian, and English [5.094176584161206]
我々は、カザフスタンで使われている3つの言語(カザフ語、ロシア語、英語)に対して、1つのエンドツーエンド(E2E)自動音声認識(ASR)モデルを訓練する。
本稿ではまず,Transformer ネットワークに基づく多言語 E2E ASR の開発について述べる。
論文 参考訳(メタデータ) (2021-08-03T04:04:01Z) - Arabic Speech Recognition by End-to-End, Modular Systems and Human [56.96327247226586]
我々は、エンドツーエンド変換器ASR、モジュール型HMM-DNN ASR、および人間の音声認識のための包括的なベンチマークを行う。
ASRでは、エンドツーエンドの作業が12.5%、27.5%、23.8%のWERとなり、それぞれMGB2、MGB3、MGB5の新たなパフォーマンスマイルストーンとなった。
以上の結果から,アラビア語における人的パフォーマンスは,平均3.6%のWERギャップを持つ機械に比べて,依然としてかなり優れていたことが示唆された。
論文 参考訳(メタデータ) (2021-01-21T05:55:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。