論文の概要: Africa-Centric Self-Supervised Pre-Training for Multilingual Speech Representation in a Sub-Saharan Context
- arxiv url: http://arxiv.org/abs/2404.02000v2
- Date: Fri, 5 Apr 2024 09:07:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-08 11:37:03.536604
- Title: Africa-Centric Self-Supervised Pre-Training for Multilingual Speech Representation in a Sub-Saharan Context
- Title(参考訳): サブサハラ語文脈における多言語音声表現のためのアフリカ中心の自己教師付き事前学習
- Authors: Antoine Caubrière, Elodie Gauthier,
- Abstract要約: アフリカ語のみに特化して訓練された最初の自己教師型多言語音声モデルを提案する。
このモデルは、サハラ以南のアフリカで話されている21の言語と方言で、6万時間近い未ラベルの音声セグメントから学習された。
- 参考スコア(独自算出の注目度): 2.3066058341851816
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present the first self-supervised multilingual speech model trained exclusively on African speech. The model learned from nearly 60 000 hours of unlabeled speech segments in 21 languages and dialects spoken in sub-Saharan Africa. On the SSA subset of the FLEURS-102 dataset, our approach based on a HuBERT$_{base}$ (0.09B) architecture shows competitive results, for ASR downstream task, compared to the w2v-bert-51 (0.6B) pre-trained model proposed in the FLEURS benchmark, while being more efficient by using 7x less data and 6x less parameters. Furthermore, in the context of a LID downstream task, our approach outperforms FLEURS baselines accuracy by over 22\%.
- Abstract(参考訳): アフリカ語のみに特化して訓練された最初の自己教師型多言語音声モデルを提案する。
このモデルは、サハラ以南のアフリカで話されている21の言語と方言で、6万時間近い未ラベルの音声セグメントから学習された。
FLEURS-102データセットのSSAサブセットでは,HuBERT$_{base}$ (0.09B)アーキテクチャに基づくアプローチが,FLEURSベンチマークで提案されたw2v-bert-51(0.6B)事前学習モデルと比較して,ASRダウンストリームタスクに対する競合結果を示している。
さらに,LIDダウンストリームタスクの文脈では,FLEURSの精度を22.5%以上向上させる。
関連論文リスト
- AfriHuBERT: A self-supervised speech representation model for African languages [44.722780475475915]
本稿では,147言語で事前訓練されたSOTAモデルとSSLモデルであるmHuBERT-147の拡張について述べる。
mHuBERT-147は16のアフリカ言語で事前訓練されているが、様々な情報源から収集された6,500時間以上の音声データの事前訓練を通じて39のアフリカ言語をカバーするように拡張した。
論文 参考訳(メタデータ) (2024-09-30T11:28:33Z) - DataComp-LM: In search of the next generation of training sets for language models [200.5293181577585]
DataComp for Language Models (DCLM)は、制御されたデータセット実験のためのテストベッドであり、言語モデルを改善することを目的としている。
我々は、Common Crawlから抽出された240Tトークンの標準化コーパス、OpenLMフレームワークに基づく効果的な事前学習レシピ、53の下流評価スイートを提供する。
DCLMベンチマークの参加者は、412Mから7Bパラメータのモデルスケールでの重複、フィルタリング、データ混合などのデータキュレーション戦略を実験することができる。
論文 参考訳(メタデータ) (2024-06-17T17:42:57Z) - Self-supervised Adaptive Pre-training of Multilingual Speech Models for
Language and Dialect Identification [19.893213508284813]
目標領域や下流タスクの言語に事前学習モデルを適用するために,自己教師付き適応型事前学習を提案する。
SPTはFLEURSベンチマークのXLSR性能を向上し、表現不足言語では40.1%まで向上することを示した。
論文 参考訳(メタデータ) (2023-12-12T14:58:08Z) - LeBenchmark 2.0: a Standardized, Replicable and Enhanced Framework for Self-supervised Representations of French Speech [70.3307853082527]
この研究は、SSL対応のフランス語音声技術の評価と構築のためのオープンソースのフレームワークであるLeBenchmark 2.0を紹介している。
文書化され、大規模で、異質なコーパスを含み、14,000時間に及ぶ異質なスピーチがある。
コミュニティが共有する2600万から10億の学習可能なパラメータを含む、トレーニング済みのSSLwav2vec 2.0モデルが10種類含まれている。
論文 参考訳(メタデータ) (2023-09-11T14:13:09Z) - From English to More Languages: Parameter-Efficient Model Reprogramming
for Cross-Lingual Speech Recognition [50.93943755401025]
言語間音声認識のためのニューラルモデル再プログラミングに基づく新しいパラメータ効率学習フレームワークを提案する。
我々は、学習可能な事前学習機能強化に焦点を当てた、異なる補助的ニューラルネットワークアーキテクチャを設計する。
提案手法は,既存のASRチューニングアーキテクチャとその拡張性能を自己監督的損失で向上させる。
論文 参考訳(メタデータ) (2023-01-19T02:37:56Z) - Scaling ASR Improves Zero and Few Shot Learning [23.896440724468246]
大規模データセットでもっとも有用なサンプルを見つけるために,トレーニングデータを効率的にスケールするためのデータ選択手法を提案する。
1-10Bパラメータのユニバーサル英語ASRモデルを訓練することにより、音声認識性能の限界を多くの領域に広げる。
脳損傷による障害のある話者に対して、私たちの最高のゼロショットモデルと少数ショットモデルは、それぞれAphasiaBankテストセットで22%と60%の相対的な改善を達成しています。
論文 参考訳(メタデータ) (2021-11-10T21:18:59Z) - AmericasNLI: Evaluating Zero-shot Natural Language Understanding of
Pretrained Multilingual Models in Truly Low-resource Languages [75.08199398141744]
我々は、XNLI(Conneau et al)の拡張である AmericasNLI を提示する。
は、アメリカ大陸の10の原住民の言語である。
XLM-Rで実験を行い、複数のゼロショットおよび翻訳ベースのアプローチをテストします。
XLM-Rのゼロショット性能は全10言語で低調であり、平均性能は38.62%である。
論文 参考訳(メタデータ) (2021-04-18T05:32:28Z) - Multilingual Speech Translation with Efficient Finetuning of Pretrained
Models [82.22294901727933]
最小限のLNA(LayerNorm and Attention)ファインタニングは、ゼロショットのクロスリンガルおよびクロスモーダリティ転送能力を実現することができる。
本手法は多言語多言語モデルにおいて強いゼロショット性能を示す。
論文 参考訳(メタデータ) (2020-10-24T08:15:08Z) - Unsupervised Cross-lingual Representation Learning for Speech
Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。
我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。
実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2020-06-24T18:25:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。