論文の概要: Evaluating Self-Supervised Speech Representations for Indigenous
American Languages
- arxiv url: http://arxiv.org/abs/2310.03639v1
- Date: Thu, 5 Oct 2023 16:11:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-06 15:31:15.793180
- Title: Evaluating Self-Supervised Speech Representations for Indigenous
American Languages
- Title(参考訳): ネイティブアメリカン言語における自己教師あり音声表現の評価
- Authors: Chih-Chen Chen, William Chen, Rodolfo Zevallos, John Ortega
- Abstract要約: 南アメリカの先住民であるケチュア語に対するASRコーパスを提示する。
我々は、Kechua上の大規模なSSLモデルと、低リソースのASR上のGuaraniやBrbriといった6つのネイティブ言語の有効性をベンチマークした。
その結果、最先端のSSLモデルによる驚くほど高い性能を示し、大規模モデルの現実世界データへの一般化可能性を示している。
- 参考スコア(独自算出の注目度): 4.391983791404748
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The application of self-supervision to speech representation learning has
garnered significant interest in recent years, due to its scalability to large
amounts of unlabeled data. However, much progress, both in terms of
pre-training and downstream evaluation, has remained concentrated in
monolingual models that only consider English. Few models consider other
languages, and even fewer consider indigenous ones. In our submission to the
New Language Track of the ASRU 2023 ML-SUPERB Challenge, we present an ASR
corpus for Quechua, an indigenous South American Language. We benchmark the
efficacy of large SSL models on Quechua, along with 6 other indigenous
languages such as Guarani and Bribri, on low-resource ASR. Our results show
surprisingly strong performance by state-of-the-art SSL models, showing the
potential generalizability of large-scale models to real-world data.
- Abstract(参考訳): 音声表現学習への自己スーパービジョンの適用は、大量のラベルなしデータへの拡張性のため、近年大きな関心を集めている。
しかし、事前学習と下流評価の両面での大きな進歩は、英語のみを考慮した単言語モデルに集中している。
他の言語を考えるモデルはほとんどなく、土着言語を考えるモデルも少なくない。
ASRU 2023 ML-SUPERB Challengeの新たな言語トラックへの投稿では、南アメリカの先住民であるケチュアのためのASRコーパスを提示する。
我々は、Kechua上の大規模なSSLモデルと、低リソースのASR上のGuaraniやBrbriといった6つのネイティブ言語の有効性をベンチマークした。
その結果,最先端sslモデルによる性能は驚くほど向上し,実データへの大規模モデルの一般化可能性も示された。
関連論文リスト
- Self-supervised Speech Representations Still Struggle with African American Vernacular English [28.223877889211803]
疎化言語変種話者のためのASRシステムの低性能化は、よく文書化された現象である。
AAVEとメインストリーム・アメリカン・イングリッシュのASR性能のギャップを埋めることができるかどうかを検討する。
論文 参考訳(メタデータ) (2024-08-26T13:29:25Z) - Seamless Language Expansion: Enhancing Multilingual Mastery in Self-Supervised Models [60.09618700199927]
既存のSSLモデルにLoRAを統合して新しい言語を拡張する適応手法を提案する。
また、既存の言語における能力を維持するために、データの組み合わせと再クラスタ化を含む保存戦略も開発している。
論文 参考訳(メタデータ) (2024-06-20T08:13:30Z) - SeaLLMs -- Large Language Models for Southeast Asia [76.50157503379086]
東南アジア(SEA)言語に焦点を当てた,革新的な言語モデルであるSeaLLMを紹介した。
SeaLLMはLlama-2モデルに基づいて構築され、さらに拡張語彙、特殊命令、アライメントチューニングによる事前訓練が継続されている。
包括的評価により,SeaLLM-13bモデルは言語タスクやアシスタントスタイルの指示追従能力に優れた性能を示した。
論文 参考訳(メタデータ) (2023-12-01T17:17:56Z) - ML-SUPERB: Multilingual Speech Universal PERformance Benchmark [73.65853301350042]
音声処理Universal PERformance Benchmark (SUPERB) は、音声処理タスクにおける自己監督学習(SSL)モデルの性能をベンチマークするためのリーダーボードである。
本稿では,言語認識と言語識別の両方を考慮した多言語SUPERBを提案する。
SUPERBベンチマークと同様、音声SSLモデルはFBANKよりも性能が大幅に向上する。
論文 参考訳(メタデータ) (2023-05-18T00:01:27Z) - Lessons learned from the evaluation of Spanish Language Models [27.653133576469276]
本稿では,スペイン語の言語モデルと,以下の結果との比較を行う。
我々は、その根底にある要因を理解するために、さらなる研究の必要性を論じる。
スペイン語のための言語技術開発における最近の活動は歓迎されるが、我々の結果は、言語モデルの構築は依然としてオープンでリソースの多い問題であることを示している。
論文 参考訳(メタデータ) (2022-12-16T10:33:38Z) - Language Contamination Explains the Cross-lingual Capabilities of
English Pretrained Models [79.38278330678965]
一般的な英語事前学習コーパスには、かなりの量の非英語テキストが含まれていることが判明した。
これにより、大規模なデータセットで数十億の外国語トークンが生成される。
そして、これらの少数の非英語データでさえ、それらに基づいて訓練されたモデルの言語間移動を促進することを実証する。
論文 参考訳(メタデータ) (2022-04-17T23:56:54Z) - Can Character-based Language Models Improve Downstream Task Performance
in Low-Resource and Noisy Language Scenarios? [0.0]
我々は、ナラビジ(NArabizi)と呼ばれるラテン文字の拡張を用いて書かれた北アフリカ方言のアラビア語に焦点を当てている。
ナラビジの99k文のみを学習し,小さな木バンクで微調整したキャラクタベースモデルは,大規模多言語モデルとモノリンガルモデルで事前学習した同じアーキテクチャで得られたものに近い性能を示す。
論文 参考訳(メタデータ) (2021-10-26T14:59:16Z) - Language Models are Few-shot Multilingual Learners [66.11011385895195]
我々は、非英語言語における多言語分類を行う際に、GPTモデルとT5モデルの多言語的スキルを評価する。
文脈としての英語の例を見ると、事前学習された言語モデルは、英語のテストサンプルだけでなく、英語以外のサンプルも予測できることが示されている。
論文 参考訳(メタデータ) (2021-09-16T03:08:22Z) - On the Multilingual Capabilities of Very Large-Scale English Language
Models [0.0]
GPT(Generative Pre-trained Transformer)は、機械学習の歴史において、前例のない規模に拡張されている。
本研究では,GPT-3の多言語的スキルについて検討し,事前学習用コーパスであるカタルーニャ語にはほとんど現れない1つの言語に着目した。
このモデルでは、特に生成タスクにおいて、主に言語理解タスクでは予測可能な制限があるが、ゼロショットシナリオでは顕著な結果が得られる。
論文 参考訳(メタデータ) (2021-08-30T16:18:50Z) - Unsupervised Cross-lingual Representation Learning for Speech
Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。
我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。
実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2020-06-24T18:25:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。