論文の概要: AfriHuBERT: A self-supervised speech representation model for African languages
- arxiv url: http://arxiv.org/abs/2409.20201v2
- Date: Sun, 01 Jun 2025 10:49:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-03 20:53:52.981722
- Title: AfriHuBERT: A self-supervised speech representation model for African languages
- Title(参考訳): AfriHuBERT:アフリカ言語のための自己教師型音声表現モデル
- Authors: Jesujoba O. Alabi, Xuechen Liu, Dietrich Klakow, Junichi Yamagishi,
- Abstract要約: AfriHuBERTは、147言語で事前訓練された、コンパクトな自己教師付き学習(SSL)モデルであるmHuBERT-147の拡張である。
mHuBERT-147は16のアフリカの言語をカバーしていたが、様々な情報源から10K時間以上の音声データを事前学習することで1,226に拡張した。
音声言語識別(SLID)と音声認識(ASR)の2つの重要なタスクについてAfriHuBERTを評価する。
SLIDは3.6%, 平均単語誤り率(WER)は2.1%, 平均単語誤り率(WER)はmHuBERT-147。
- 参考スコア(独自算出の注目度): 44.722780475475915
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we present AfriHuBERT, an extension of mHuBERT-147, a compact self-supervised learning (SSL) model pretrained on 147 languages. While mHuBERT-147 covered 16 African languages, we expand this to 1,226 through continued pretraining on 10K+ hours of speech data from diverse sources, benefiting an African population of over 600M. We evaluate AfriHuBERT on two key speech tasks, Spoken Language Identification (SLID) and Automatic Speech Recognition (ASR), using the FLEURS benchmark. Our results show a +3.6% F1 score improvement for SLID and a -2.1% average Word Error Rate (WER) reduction for ASR over mHuBERT-147, and demonstrates competitiveness with larger SSL models such as MMS and XEUS. Further analysis shows that ASR models trained on AfriHuBERT exhibit improved cross-corpus generalization and are competitive in extremely low-resource ASR scenarios.
- Abstract(参考訳): そこで本研究では,147言語で事前訓練されたコンパクト自己教師学習(SSL)モデルであるmHuBERT-147の拡張であるAfriHuBERTを提案する。
mHuBERT-147は16のアフリカの言語をカバーしていたが、様々な情報源から10K時間以上の音声データを事前学習し続け、アフリカの人口6億人に恩恵を与えた。
FLEURSベンチマークを用いて,音声言語識別(SLID)と音声認識(ASR)の2つの主要な音声課題についてAfriHuBERTの評価を行った。
以上の結果から,SLIDでは3.6%,mHuBERT-147では平均単語誤り率(WER)が2.1%向上し,MMSやXEUSといった大規模SSLモデルとの競合性が示された。
さらに分析したところ、AfriHuBERTでトレーニングされたASRモデルでは、クロスコーパスの一般化が改善され、極低リソースのASRシナリオで競合することが示された。
関連論文リスト
- HYBRINFOX at CheckThat! 2024 -- Task 1: Enhancing Language Models with Structured Information for Check-Worthiness Estimation [0.8083061106940517]
本稿では,2024年 - タスク1コンペティションのためのHYBRINFOXチームの実験と結果について要約する。
本稿では,RoBERTaのような言語モデルに三重項による埋め込みを組み込む手法を提案する。
論文 参考訳(メタデータ) (2024-07-04T11:33:54Z) - Africa-Centric Self-Supervised Pre-Training for Multilingual Speech Representation in a Sub-Saharan Context [2.3066058341851816]
アフリカ語のみに特化して訓練された最初の自己教師型多言語音声モデルを提案する。
このモデルは、サハラ以南のアフリカで話されている21の言語と方言で、6万時間近い未ラベルの音声セグメントから学習された。
論文 参考訳(メタデータ) (2024-04-02T14:43:36Z) - DN at SemEval-2023 Task 12: Low-Resource Language Text Classification
via Multilingual Pretrained Language Model Fine-tuning [0.0]
感情分析のための既存のモデルやデータセットは、英語や中国語などの高リソース言語向けに開発されている。
AfriSenti-SemEval 2023 Shared Task 12は、低リソースのアフリカの言語に対する感情分析モデルを評価することで、このギャップを埋めることを目的としている。
そこで我々は,多言語XLM-Rモデルを多言語モデルに適用し,様々なデータに基づいて分類ヘッドを訓練した。
論文 参考訳(メタデータ) (2023-05-04T07:28:45Z) - MasakhaNER 2.0: Africa-centric Transfer Learning for Named Entity
Recognition [55.95128479289923]
アフリカ系言語は10億人を超える人々によって話されているが、NLPの研究や開発ではあまり語られていない。
我々は、20のアフリカ言語で最大の人間アノテーション付きNERデータセットを作成します。
最適な転送言語を選択すると、ゼロショットF1スコアが平均14ポイント向上することを示す。
論文 参考訳(メタデータ) (2022-10-22T08:53:14Z) - XLS-R: Self-supervised Cross-lingual Speech Representation Learning at
Scale [48.0390317915984]
XLS-Rはwav2vec 2.0に基づく言語間音声表現学習のための大規模モデルである。
128の言語で50万時間近く、最大2Bパラメータを持つモデルをトレーニングします。
論文 参考訳(メタデータ) (2021-11-17T18:49:42Z) - AfroMT: Pretraining Strategies and Reproducible Benchmarks for
Translation of 8 African Languages [94.75849612191546]
AfroMTは、広く話されている8つのアフリカ言語のための標準化され、クリーンで再現可能な機械翻訳ベンチマークである。
これらの言語の特徴を考慮に入れたシステム診断のための分析ツール群を開発した。
11言語での事前トレーニングでは,強いベースラインに対して最大2つのBLEUポイントのゲインが得られた。
論文 参考訳(メタデータ) (2021-09-10T07:45:21Z) - AmericasNLI: Evaluating Zero-shot Natural Language Understanding of
Pretrained Multilingual Models in Truly Low-resource Languages [75.08199398141744]
我々は、XNLI(Conneau et al)の拡張である AmericasNLI を提示する。
は、アメリカ大陸の10の原住民の言語である。
XLM-Rで実験を行い、複数のゼロショットおよび翻訳ベースのアプローチをテストします。
XLM-Rのゼロショット性能は全10言語で低調であり、平均性能は38.62%である。
論文 参考訳(メタデータ) (2021-04-18T05:32:28Z) - Speech Recognition for Endangered and Extinct Samoyedic languages [0.32228025627337864]
本研究では,絶滅危惧言語と絶滅危惧言語を用いた音声認識実験を行う。
私たちの知る限りでは、絶滅言語のために機能的なASRシステムが構築されたのはこれが初めてです。
論文 参考訳(メタデータ) (2020-12-09T21:41:40Z) - Unsupervised Cross-lingual Representation Learning for Speech
Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。
我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。
実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2020-06-24T18:25:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。