論文の概要: AfriHuBERT: A self-supervised speech representation model for African languages
- arxiv url: http://arxiv.org/abs/2409.20201v1
- Date: Mon, 30 Sep 2024 11:28:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-02 12:56:53.685119
- Title: AfriHuBERT: A self-supervised speech representation model for African languages
- Title(参考訳): AfriHuBERT:アフリカ言語のための自己教師型音声表現モデル
- Authors: Jesujoba O. Alabi, Xuechen Liu, Dietrich Klakow, Junichi Yamagishi,
- Abstract要約: 本稿では,147言語で事前訓練されたSOTAモデルとSSLモデルであるmHuBERT-147の拡張について述べる。
mHuBERT-147は16のアフリカ言語で事前訓練されているが、様々な情報源から収集された6,500時間以上の音声データの事前訓練を通じて39のアフリカ言語をカバーするように拡張した。
- 参考スコア(独自算出の注目度): 44.722780475475915
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we present AfriHuBERT, an extension of mHuBERT-147, a state-of-the-art (SOTA) and compact self-supervised learning (SSL) model, originally pretrained on 147 languages. While mHuBERT-147 was pretrained on 16 African languages, we expand this to cover 39 African languages through continued pretraining on 6,500+ hours of speech data aggregated from diverse sources, including 23 newly added languages. We evaluate AfriHuBERT on two key speech tasks: Language Identification (LID) and Automatic Speech Recognition (ASR) using FLEURS dataset. Our results show a +4% F1 score improvement on average for LID and a -1.2% average Word Error Rate (WER) reduction for ASR. Further analysis shows that ASR models trained on AfriHuBERT exhibit improved cross-corpus generalization. Additionally, the analysis indicates that the FLEURS have data quality limitations that may affect their suitability for evaluating low-resource African languages, suggesting the need for better evaluation benchmarks for these languages.
- Abstract(参考訳): 本稿では,mHuBERT-147の拡張であるAfriHuBERTについて述べる。
mHuBERT-147は16のアフリカ言語で事前訓練されているが、新たに23の言語を含む様々なソースから収集された6500時間以上の音声データを事前訓練することで、39のアフリカ言語をカバーするように拡張した。
我々は、FLEURSデータセットを用いて、言語識別(LID)と自動音声認識(ASR)の2つの主要な音声タスクについてAfriHuBERTを評価する。
その結果, LID の平均 F1 スコアは 4% 向上し, ASR の平均 Word Error Rate (WER) は -1.2% 低下した。
さらに分析したところ、AfriHuBERTでトレーニングされたASRモデルでは、クロスコーパスの一般化が改善された。
さらにこの分析は、FLEURSが低リソースのアフリカの言語を評価するのに適したデータ品質に制限があることを示し、これらの言語のより良い評価ベンチマークの必要性を示唆している。
関連論文リスト
- HYBRINFOX at CheckThat! 2024 -- Task 1: Enhancing Language Models with Structured Information for Check-Worthiness Estimation [0.8083061106940517]
本稿では,2024年 - タスク1コンペティションのためのHYBRINFOXチームの実験と結果について要約する。
本稿では,RoBERTaのような言語モデルに三重項による埋め込みを組み込む手法を提案する。
論文 参考訳(メタデータ) (2024-07-04T11:33:54Z) - Africa-Centric Self-Supervised Pre-Training for Multilingual Speech Representation in a Sub-Saharan Context [2.3066058341851816]
アフリカ語のみに特化して訓練された最初の自己教師型多言語音声モデルを提案する。
このモデルは、サハラ以南のアフリカで話されている21の言語と方言で、6万時間近い未ラベルの音声セグメントから学習された。
論文 参考訳(メタデータ) (2024-04-02T14:43:36Z) - DN at SemEval-2023 Task 12: Low-Resource Language Text Classification
via Multilingual Pretrained Language Model Fine-tuning [0.0]
感情分析のための既存のモデルやデータセットは、英語や中国語などの高リソース言語向けに開発されている。
AfriSenti-SemEval 2023 Shared Task 12は、低リソースのアフリカの言語に対する感情分析モデルを評価することで、このギャップを埋めることを目的としている。
そこで我々は,多言語XLM-Rモデルを多言語モデルに適用し,様々なデータに基づいて分類ヘッドを訓練した。
論文 参考訳(メタデータ) (2023-05-04T07:28:45Z) - MasakhaNER 2.0: Africa-centric Transfer Learning for Named Entity
Recognition [55.95128479289923]
アフリカ系言語は10億人を超える人々によって話されているが、NLPの研究や開発ではあまり語られていない。
我々は、20のアフリカ言語で最大の人間アノテーション付きNERデータセットを作成します。
最適な転送言語を選択すると、ゼロショットF1スコアが平均14ポイント向上することを示す。
論文 参考訳(メタデータ) (2022-10-22T08:53:14Z) - XLS-R: Self-supervised Cross-lingual Speech Representation Learning at
Scale [48.0390317915984]
XLS-Rはwav2vec 2.0に基づく言語間音声表現学習のための大規模モデルである。
128の言語で50万時間近く、最大2Bパラメータを持つモデルをトレーニングします。
論文 参考訳(メタデータ) (2021-11-17T18:49:42Z) - AfroMT: Pretraining Strategies and Reproducible Benchmarks for
Translation of 8 African Languages [94.75849612191546]
AfroMTは、広く話されている8つのアフリカ言語のための標準化され、クリーンで再現可能な機械翻訳ベンチマークである。
これらの言語の特徴を考慮に入れたシステム診断のための分析ツール群を開発した。
11言語での事前トレーニングでは,強いベースラインに対して最大2つのBLEUポイントのゲインが得られた。
論文 参考訳(メタデータ) (2021-09-10T07:45:21Z) - AmericasNLI: Evaluating Zero-shot Natural Language Understanding of
Pretrained Multilingual Models in Truly Low-resource Languages [75.08199398141744]
我々は、XNLI(Conneau et al)の拡張である AmericasNLI を提示する。
は、アメリカ大陸の10の原住民の言語である。
XLM-Rで実験を行い、複数のゼロショットおよび翻訳ベースのアプローチをテストします。
XLM-Rのゼロショット性能は全10言語で低調であり、平均性能は38.62%である。
論文 参考訳(メタデータ) (2021-04-18T05:32:28Z) - Speech Recognition for Endangered and Extinct Samoyedic languages [0.32228025627337864]
本研究では,絶滅危惧言語と絶滅危惧言語を用いた音声認識実験を行う。
私たちの知る限りでは、絶滅言語のために機能的なASRシステムが構築されたのはこれが初めてです。
論文 参考訳(メタデータ) (2020-12-09T21:41:40Z) - Unsupervised Cross-lingual Representation Learning for Speech
Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。
我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。
実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2020-06-24T18:25:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。