論文の概要: Towards Robust Speech Representation Learning for Thousands of Languages
- arxiv url: http://arxiv.org/abs/2407.00837v2
- Date: Tue, 2 Jul 2024 17:23:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 01:27:27.964681
- Title: Towards Robust Speech Representation Learning for Thousands of Languages
- Title(参考訳): 何千もの言語に対するロバストな音声表現学習に向けて
- Authors: William Chen, Wangyou Zhang, Yifan Peng, Xinjian Li, Jinchuan Tian, Jiatong Shi, Xuankai Chang, Soumi Maiti, Karen Livescu, Shinji Watanabe,
- Abstract要約: 自己教師付き学習(SSL)は、ラベル付きデータの必要性を減らすことで、音声技術をより多くの言語に拡張するのに役立つ。
我々は4057言語にまたがる100万時間以上のデータに基づいて訓練された、ユニバーサル音声のための言語横断言語であるXEUSを提案する。
- 参考スコア(独自算出の注目度): 77.2890285555615
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised learning (SSL) has helped extend speech technologies to more languages by reducing the need for labeled data. However, models are still far from supporting the world's 7000+ languages. We propose XEUS, a Cross-lingual Encoder for Universal Speech, trained on over 1 million hours of data across 4057 languages, extending the language coverage of SSL models 4-fold. We combine 1 million hours of speech from existing publicly accessible corpora with a newly created corpus of 7400+ hours from 4057 languages, which will be publicly released. To handle the diverse conditions of multilingual speech data, we augment the typical SSL masked prediction approach with a novel dereverberation objective, increasing robustness. We evaluate XEUS on several benchmarks, and show that it consistently outperforms or achieves comparable results to state-of-the-art (SOTA) SSL models across a variety of tasks. XEUS sets a new SOTA on the ML-SUPERB benchmark: it outperforms MMS 1B and w2v-BERT 2.0 v2 by 0.8% and 4.4% respectively, despite having less parameters or pre-training data. Checkpoints, code, and data are found in https://www.wavlab.org/activities/2024/xeus/.
- Abstract(参考訳): 自己教師付き学習(SSL)は、ラベル付きデータの必要性を減らすことで、音声技術をより多くの言語に拡張するのに役立つ。
しかし、モデルは世界の7000以上の言語をサポートするには程遠い。
我々は,4057言語にまたがる100万時間以上のデータをトレーニングし,SSLモデルの言語カバレッジを4倍に拡張するユニバーサル音声用言語エンコーダXEUSを提案する。
既存の公開コーパスから100万時間、4057言語から新たに作成された7400時間以上のコーパスを合わせて公開します。
多言語音声データの多様な条件に対処するため、従来のSSLマスクによる予測アプローチを新しい派生目標で強化し、ロバスト性を高めた。
我々はXEUSをいくつかのベンチマークで評価し、様々なタスクにおける最先端(SOTA)SSLモデルよりも一貫して優れるか、同等の結果が得られることを示した。
XEUSはML-SUPERBベンチマークに新しいSOTAを設定し、MMS 1Bとw2v-BERT 2.0 v2をそれぞれ0.8%と4.4%で上回っている。
チェックポイント、コード、データはhttps://www.wavlab.org/activities/2024/xeus/にある。
関連論文リスト
- Joint Prediction and Denoising for Large-scale Multilingual
Self-supervised Learning [69.77973092264338]
我々は、より強力な技術がより効率的な事前トレーニングをもたらし、SSLをより多くの研究グループに開放することを示します。
我々は,WavLMのジョイント予測を拡張し,136言語にまたがる40k時間のデータをデノベーションするWavLabLMを提案する。
このモデルではXLS-Rの性能を94%維持でき、データの3%しか保持できない。
論文 参考訳(メタデータ) (2023-09-26T23:55:57Z) - LeBenchmark 2.0: a Standardized, Replicable and Enhanced Framework for Self-supervised Representations of French Speech [70.3307853082527]
この研究は、SSL対応のフランス語音声技術の評価と構築のためのオープンソースのフレームワークであるLeBenchmark 2.0を紹介している。
文書化され、大規模で、異質なコーパスを含み、14,000時間に及ぶ異質なスピーチがある。
コミュニティが共有する2600万から10億の学習可能なパラメータを含む、トレーニング済みのSSLwav2vec 2.0モデルが10種類含まれている。
論文 参考訳(メタデータ) (2023-09-11T14:13:09Z) - Scaling Speech Technology to 1,000+ Languages [66.31120979098483]
MMS(Massively Multilingual Speech)プロジェクトは、タスクに応じてサポート言語を10~40倍増やす。
主な材料は、一般に公開されている宗教文書の読解に基づく新しいデータセットである。
我々は,1,406言語,1,107言語用1つの多言語自動音声認識モデル,同一言語用音声合成モデル,4,017言語用言語識別モデルについて,事前学習したwav2vec 2.0モデルを構築した。
論文 参考訳(メタデータ) (2023-05-22T22:09:41Z) - ML-SUPERB: Multilingual Speech Universal PERformance Benchmark [73.65853301350042]
音声処理Universal PERformance Benchmark (SUPERB) は、音声処理タスクにおける自己監督学習(SSL)モデルの性能をベンチマークするためのリーダーボードである。
本稿では,言語認識と言語識別の両方を考慮した多言語SUPERBを提案する。
SUPERBベンチマークと同様、音声SSLモデルはFBANKよりも性能が大幅に向上する。
論文 参考訳(メタデータ) (2023-05-18T00:01:27Z) - Google USM: Scaling Automatic Speech Recognition Beyond 100 Languages [76.95115818308918]
100以上の言語で自動音声認識(ASR)を行う単一大モデルであるUniversal Speech Model (USM)を導入する。
これは300以上の言語にまたがる1200万時間 (M) の大規模なラベル付き多言語データセット上で、モデルのエンコーダを事前トレーニングすることで達成される。
我々は,多言語事前学習とランダム投影量子化と音声-テキスト・モダリティマッチングを用いて,下流多言語ASRおよび音声-テキスト翻訳タスクの最先端性能を実現する。
論文 参考訳(メタデータ) (2023-03-02T07:47:18Z) - MLS: A Large-Scale Multilingual Dataset for Speech Research [37.803100082550294]
データセットは、LibriVoxの読み出しオーディオブックに由来する。
英語の約44.5K時間と、他の言語で約6K時間を含む8つの言語で構成されている。
論文 参考訳(メタデータ) (2020-12-07T01:53:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。