Fugu-MT 論文翻訳(概要): AfriHuBERT: A self-supervised speech representation model for African languages

論文の概要: AfriHuBERT: A self-supervised speech representation model for African languages

arxiv url: http://arxiv.org/abs/2409.20201v2
Date: Sun, 01 Jun 2025 10:49:58 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-03 20:53:52.981722
Title: AfriHuBERT: A self-supervised speech representation model for African languages
Title（参考訳）: AfriHuBERT:アフリカ言語のための自己教師型音声表現モデル
Authors: Jesujoba O. Alabi, Xuechen Liu, Dietrich Klakow, Junichi Yamagishi,
Abstract要約: AfriHuBERTは、147言語で事前訓練された、コンパクトな自己教師付き学習(SSL)モデルであるmHuBERT-147の拡張である。 mHuBERT-147は16のアフリカの言語をカバーしていたが、様々な情報源から10K時間以上の音声データを事前学習することで1,226に拡張した。音声言語識別(SLID)と音声認識(ASR)の2つの重要なタスクについてAfriHuBERTを評価する。 SLIDは3.6%, 平均単語誤り率(WER)は2.1%, 平均単語誤り率(WER)はmHuBERT-147。
参考スコア（独自算出の注目度）: 44.722780475475915
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this work, we present AfriHuBERT, an extension of mHuBERT-147, a compact self-supervised learning (SSL) model pretrained on 147 languages. While mHuBERT-147 covered 16 African languages, we expand this to 1,226 through continued pretraining on 10K+ hours of speech data from diverse sources, benefiting an African population of over 600M. We evaluate AfriHuBERT on two key speech tasks, Spoken Language Identification (SLID) and Automatic Speech Recognition (ASR), using the FLEURS benchmark. Our results show a +3.6% F1 score improvement for SLID and a -2.1% average Word Error Rate (WER) reduction for ASR over mHuBERT-147, and demonstrates competitiveness with larger SSL models such as MMS and XEUS. Further analysis shows that ASR models trained on AfriHuBERT exhibit improved cross-corpus generalization and are competitive in extremely low-resource ASR scenarios.
Abstract（参考訳）: そこで本研究では,147言語で事前訓練されたコンパクト自己教師学習(SSL)モデルであるmHuBERT-147の拡張であるAfriHuBERTを提案する。 mHuBERT-147は16のアフリカの言語をカバーしていたが、様々な情報源から10K時間以上の音声データを事前学習し続け、アフリカの人口6億人に恩恵を与えた。 FLEURSベンチマークを用いて,音声言語識別(SLID)と音声認識(ASR)の2つの主要な音声課題についてAfriHuBERTの評価を行った。以上の結果から,SLIDでは3.6%,mHuBERT-147では平均単語誤り率(WER)が2.1%向上し,MMSやXEUSといった大規模SSLモデルとの競合性が示された。さらに分析したところ、AfriHuBERTでトレーニングされたASRモデルでは、クロスコーパスの一般化が改善され、極低リソースのASRシナリオで競合することが示された。

関連論文リスト

Self-supervised Speech Representations Still Struggle with African American Vernacular English [28.223877889211803]
疎化言語変種話者のためのASRシステムの低性能化は、よく文書化された現象である。 AAVEとメインストリーム・アメリカン・イングリッシュのASR性能のギャップを埋めることができるかどうかを検討する。
論文参考訳（メタデータ） (2024-08-26T13:29:25Z)
HYBRINFOX at CheckThat! 2024 -- Task 1: Enhancing Language Models with Structured Information for Check-Worthiness Estimation [0.8083061106940517]
本稿では,2024年 - タスク1コンペティションのためのHYBRINFOXチームの実験と結果について要約する。本稿では,RoBERTaのような言語モデルに三重項による埋め込みを組み込む手法を提案する。
論文参考訳（メタデータ） (2024-07-04T11:33:54Z)
mHuBERT-147: A Compact Multilingual HuBERT Model [23.207762084023933]
mHuBERT-147は90K時間のクリーンでオープンなデータに基づいて訓練された最初の汎用多言語HuBERT音声表現モデルである。マルチイテレーションの HuBERT アプローチをスケールアップするために,ファイスベースのクラスタリングを用い,元の手法よりも5.2倍高速なラベル割り当てを実現した。以上の結果から,mHuBERT147は多言語音声タスクの有望なモデルであり,高い性能とパラメータ効率のバランスを保っていることが示唆された。
論文参考訳（メタデータ） (2024-06-10T15:32:42Z)
Africa-Centric Self-Supervised Pre-Training for Multilingual Speech Representation in a Sub-Saharan Context [2.3066058341851816]
アフリカ語のみに特化して訓練された最初の自己教師型多言語音声モデルを提案する。このモデルは、サハラ以南のアフリカで話されている21の言語と方言で、6万時間近い未ラベルの音声セグメントから学習された。
論文参考訳（メタデータ） (2024-04-02T14:43:36Z)
LeBenchmark 2.0: a Standardized, Replicable and Enhanced Framework for Self-supervised Representations of French Speech [70.3307853082527]
この研究は、SSL対応のフランス語音声技術の評価と構築のためのオープンソースのフレームワークであるLeBenchmark 2.0を紹介している。文書化され、大規模で、異質なコーパスを含み、14,000時間に及ぶ異質なスピーチがある。コミュニティが共有する2600万から10億の学習可能なパラメータを含む、トレーニング済みのSSLwav2vec 2.0モデルが10種類含まれている。
論文参考訳（メタデータ） (2023-09-11T14:13:09Z)
Indonesian Automatic Speech Recognition with XLSR-53 [0.0]
本研究では,XLSR-53事前学習モデルを用いたインドネシア語自動音声認識(ASR)の開発に焦点を当てた。このXLSR-53事前学習モデルは、非英語言語におけるトレーニングデータの量を大幅に削減する。
論文参考訳（メタデータ） (2023-08-20T09:59:40Z)
DN at SemEval-2023 Task 12: Low-Resource Language Text Classification via Multilingual Pretrained Language Model Fine-tuning [0.0]
感情分析のための既存のモデルやデータセットは、英語や中国語などの高リソース言語向けに開発されている。 AfriSenti-SemEval 2023 Shared Task 12は、低リソースのアフリカの言語に対する感情分析モデルを評価することで、このギャップを埋めることを目的としている。そこで我々は,多言語XLM-Rモデルを多言語モデルに適用し,様々なデータに基づいて分類ヘッドを訓練した。
論文参考訳（メタデータ） (2023-05-04T07:28:45Z)
From English to More Languages: Parameter-Efficient Model Reprogramming for Cross-Lingual Speech Recognition [50.93943755401025]
言語間音声認識のためのニューラルモデル再プログラミングに基づく新しいパラメータ効率学習フレームワークを提案する。我々は、学習可能な事前学習機能強化に焦点を当てた、異なる補助的ニューラルネットワークアーキテクチャを設計する。提案手法は,既存のASRチューニングアーキテクチャとその拡張性能を自己監督的損失で向上させる。
論文参考訳（メタデータ） (2023-01-19T02:37:56Z)
MasakhaNER 2.0: Africa-centric Transfer Learning for Named Entity Recognition [55.95128479289923]
アフリカ系言語は10億人を超える人々によって話されているが、NLPの研究や開発ではあまり語られていない。我々は、20のアフリカ言語で最大の人間アノテーション付きNERデータセットを作成します。最適な転送言語を選択すると、ゼロショットF1スコアが平均14ポイント向上することを示す。
論文参考訳（メタデータ） (2022-10-22T08:53:14Z)
XLS-R: Self-supervised Cross-lingual Speech Representation Learning at Scale [48.0390317915984]
XLS-Rはwav2vec 2.0に基づく言語間音声表現学習のための大規模モデルである。 128の言語で50万時間近く、最大2Bパラメータを持つモデルをトレーニングします。
論文参考訳（メタデータ） (2021-11-17T18:49:42Z)
AfroMT: Pretraining Strategies and Reproducible Benchmarks for Translation of 8 African Languages [94.75849612191546]
AfroMTは、広く話されている8つのアフリカ言語のための標準化され、クリーンで再現可能な機械翻訳ベンチマークである。これらの言語の特徴を考慮に入れたシステム診断のための分析ツール群を開発した。 11言語での事前トレーニングでは,強いベースラインに対して最大2つのBLEUポイントのゲインが得られた。
論文参考訳（メタデータ） (2021-09-10T07:45:21Z)
AmericasNLI: Evaluating Zero-shot Natural Language Understanding of Pretrained Multilingual Models in Truly Low-resource Languages [75.08199398141744]
我々は、XNLI(Conneau et al)の拡張である AmericasNLI を提示する。は、アメリカ大陸の10の原住民の言語である。 XLM-Rで実験を行い、複数のゼロショットおよび翻訳ベースのアプローチをテストします。 XLM-Rのゼロショット性能は全10言語で低調であり、平均性能は38.62%である。
論文参考訳（メタデータ） (2021-04-18T05:32:28Z)
Speech Recognition for Endangered and Extinct Samoyedic languages [0.32228025627337864]
本研究では,絶滅危惧言語と絶滅危惧言語を用いた音声認識実験を行う。私たちの知る限りでは、絶滅言語のために機能的なASRシステムが構築されたのはこれが初めてです。
論文参考訳（メタデータ） (2020-12-09T21:41:40Z)
Unsupervised Cross-lingual Representation Learning for Speech Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文参考訳（メタデータ） (2020-06-24T18:25:05Z)
Extending Multilingual BERT to Low-Resource Languages [71.0976635999159]
M-BERT(M-BERT)は、教師付きおよびゼロショットの言語間移動学習において大きな成功を収めている。我々は、M-BERTを拡張して、新しい言語に利益をもたらすための、シンプルで効果的なアプローチを提案する。
論文参考訳（メタデータ） (2020-04-28T16:36:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。