論文の概要: mHuBERT-147: A Compact Multilingual HuBERT Model
- arxiv url: http://arxiv.org/abs/2406.06371v3
- Date: Thu, 27 Jun 2024 07:56:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-28 18:56:54.814644
- Title: mHuBERT-147: A Compact Multilingual HuBERT Model
- Title(参考訳): mHuBERT-147:小型多言語 HuBERT モデル
- Authors: Marcely Zanon Boito, Vivek Iyer, Nikolaos Lagos, Laurent Besacier, Ioan Calapodescu,
- Abstract要約: mHuBERT-147は90K時間のクリーンでオープンなデータに基づいて訓練された最初の汎用多言語HuBERT音声表現モデルである。
マルチイテレーションの HuBERT アプローチをスケールアップするために,ファイスベースのクラスタリングを用い,元の手法よりも5.2倍高速なラベル割り当てを実現した。
以上の結果から,mHuBERT147は多言語音声タスクの有望なモデルであり,高い性能とパラメータ効率のバランスを保っていることが示唆された。
- 参考スコア(独自算出の注目度): 23.207762084023933
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We present mHuBERT-147, the first general-purpose massively multilingual HuBERT speech representation model trained on 90K hours of clean, open-license data. To scale up the multi-iteration HuBERT approach, we use faiss-based clustering, achieving 5.2x faster label assignment than the original method. We also apply a new multilingual batching up-sampling strategy, leveraging both language and dataset diversity. After 3 training iterations, our compact 95M parameter mHuBERT-147 outperforms larger models trained on substantially more data. We rank second and first on the ML-SUPERB 10min and 1h leaderboards, with SOTA scores for 3 tasks. Across ASR/LID tasks, our model consistently surpasses XLS-R (300M params; 436K hours) and demonstrates strong competitiveness against the much larger MMS (1B params; 491K hours). Our findings indicate that mHuBERT-147 is a promising model for multilingual speech tasks, offering an unprecedented balance between high performance and parameter efficiency.
- Abstract(参考訳): 我々は90K時間のクリーンでオープンなデータに基づいて訓練された最初の汎用多言語HuBERT音声表現モデルであるmHuBERT-147を提案する。
マルチイテレーションの HuBERT アプローチをスケールアップするために,ファイスベースのクラスタリングを用い,元の手法よりも5.2倍高速なラベル割り当てを実現した。
また、言語とデータセットの多様性の両面を活用した、新しい多言語バッチアップサンプリング戦略を適用します。
3回のトレーニングを行った後、95MパラメータmHuBERT-147は、かなり多くのデータに基づいてトレーニングされたより大きなモデルよりも優れています。
ML-SUPERB 10minと1hのリーダーボードでは、SOTAスコアが3タスクで2位と1位です。
ASR/LIDタスク全体で、我々のモデルは一貫してXLS-R(300Mパラム、436K時間)を超え、はるかに大きなMSM(1Bパラム、491K時間)に対して強い競争力を示す。
以上の結果から,mHuBERT-147は多言語音声タスクの有望なモデルであり,高い性能とパラメータ効率のバランスを保っていることが示唆された。
関連論文リスト
- Data-Efficient French Language Modeling with CamemBERTa [0.0]
本稿では,DeBERTaV3アーキテクチャとトレーニング目標に基づいて構築された,フランスのDeBERTaモデルであるCamemBERTaを紹介する。
我々は、さまざまなフランス語の下流タスクとデータセットに対して、我々のモデルの性能を評価する。
論文 参考訳(メタデータ) (2023-06-02T12:45:34Z) - Google USM: Scaling Automatic Speech Recognition Beyond 100 Languages [76.95115818308918]
100以上の言語で自動音声認識(ASR)を行う単一大モデルであるUniversal Speech Model (USM)を導入する。
これは300以上の言語にまたがる1200万時間 (M) の大規模なラベル付き多言語データセット上で、モデルのエンコーダを事前トレーニングすることで達成される。
我々は,多言語事前学習とランダム投影量子化と音声-テキスト・モダリティマッチングを用いて,下流多言語ASRおよび音声-テキスト翻訳タスクの最先端性能を実現する。
論文 参考訳(メタデータ) (2023-03-02T07:47:18Z) - Beyond English-Centric Bitexts for Better Multilingual Language
Representation Learning [99.42850643947439]
我々は、新しいサンプリング戦略と組み合わさって、英語中心のbitextsを超えることによって、モデルサイズにおけるパフォーマンスが大幅に向上することを示す。
XY-LENT XL は XLM-RXXL より優れ,mT5 XXL との競合性能は5倍,6倍小さい。
論文 参考訳(メタデータ) (2022-10-26T17:16:52Z) - DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with
Gradient-Disentangled Embedding Sharing [117.41016786835452]
本稿では,DeBERTaモデルの改良を目的とした,事前学習型言語モデルDeBERTaV3を提案する。
ELECTRAでのバニラ埋め込み共有は、トレーニング効率とモデルパフォーマンスを損なう。
そこで本研究では、タグ・オブ・ウォーのダイナミクスを回避するために、新しい勾配距離の埋め込み方式を提案する。
論文 参考訳(メタデータ) (2021-11-18T06:48:00Z) - Learning Compact Metrics for MT [21.408684470261342]
最先端多言語モデルであるRemBERTを用いて,多言語性とモデルキャパシティのトレードオフについて検討する。
モデルのサイズが実際に言語間移動のボトルネックであることを示し、蒸留がこのボトルネックにどのように対処できるかを示す。
提案手法は,バニラ微調整よりも最大10.5%向上し,パラメータの3分の1しか使用せず,RemBERTの性能の92.6%に達する。
論文 参考訳(メタデータ) (2021-10-12T20:39:35Z) - Larger-Scale Transformers for Multilingual Masked Language Modeling [16.592883204398518]
XLM-R XLとXLM-R XXLはXLM-Rよりも1.8%、XNLIの平均精度は2.4%向上した。
また、GLUEベンチマークの英語タスクのRoBERTa-Largeモデルを平均0.3%上回り、99以上の言語を扱う。
論文 参考訳(メタデータ) (2021-05-02T23:15:02Z) - Evaluating Contextualized Language Models for Hungarian [0.0]
ハンガリーのモデルhubertと多言語bertモデルを含む4つの多言語モデルを比較した。
huBERTは、他のモデルよりも、特にグローバルな最適化に近い大きなマージンで、うまく機能していることが分かりました。
論文 参考訳(メタデータ) (2021-02-22T09:29:01Z) - Multilingual Speech Translation with Efficient Finetuning of Pretrained
Models [82.22294901727933]
最小限のLNA(LayerNorm and Attention)ファインタニングは、ゼロショットのクロスリンガルおよびクロスモーダリティ転送能力を実現することができる。
本手法は多言語多言語モデルにおいて強いゼロショット性能を示す。
論文 参考訳(メタデータ) (2020-10-24T08:15:08Z) - DeBERTa: Decoding-enhanced BERT with Disentangled Attention [119.77305080520718]
2つの新しい手法を用いてBERTモデルとRoBERTaモデルを改善する新しいモデルアーキテクチャDeBERTaを提案する。
これらの手法により,モデル事前学習の効率化と,自然言語理解(NLU)と自然言語生成(NLG)の両方の性能向上が期待できる。
論文 参考訳(メタデータ) (2020-06-05T19:54:34Z) - InterBERT: Vision-and-Language Interaction for Multi-modal Pretraining [76.32065400614162]
我々は,本シリーズのマルチモーダル事前学習手法M6の最初のモデルであるInterBERT(BERT for Interaction)を提案する。
モデルは、異なるモダリティの情報フロー間の相互作用をモデル化する強力な能力を持っている。
中国語におけるマルチモーダル事前学習のための大規模データセットを提案し,中国初のマルチモーダル事前学習モデルである中国語InterBERTを開発した。
論文 参考訳(メタデータ) (2020-03-30T03:13:22Z) - RobBERT: a Dutch RoBERTa-based Language Model [9.797319790710711]
我々はRoBERTaを使ってRobBERTと呼ばれるオランダ語のモデルをトレーニングします。
各種タスクにおけるその性能および微調整データセットサイズの重要性を計測する。
RobBERTは様々なタスクの最先端の結果を改善し、特に小さなデータセットを扱う場合、他のモデルよりもはるかに優れています。
論文 参考訳(メタデータ) (2020-01-17T13:25:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。