論文の概要: MOSEL: 950,000 Hours of Speech Data for Open-Source Speech Foundation Model Training on EU Languages
- arxiv url: http://arxiv.org/abs/2410.01036v1
- Date: Tue, 1 Oct 2024 19:54:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 23:30:27.773830
- Title: MOSEL: 950,000 Hours of Speech Data for Open-Source Speech Foundation Model Training on EU Languages
- Title(参考訳): MOSEL: EU言語を用いたオープンソースの音声基礎モデルトレーニングのための音声データ95万時間
- Authors: Marco Gaido, Sara Papi, Luisa Bentivogli, Alessio Brutti, Mauro Cettolo, Roberto Gretter, Marco Matassoni, Mohamed Nabih, Matteo Negri,
- Abstract要約: 既存の基盤モデル(FM)には、オープンソースの用語で公開されているモデルウェイト、コード、トレーニングデータがない。
欧州連合(EU)の24の公用語に注目して、このギャップを埋める第一歩を踏み出します。
我々は,CC-BYライセンスの下で,441k時間の未ラベルデータの自動書き起こしをリリースする。
- 参考スコア(独自算出の注目度): 27.27404080214069
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rise of foundation models (FMs), coupled with regulatory efforts addressing their risks and impacts, has sparked significant interest in open-source models. However, existing speech FMs (SFMs) fall short of full compliance with the open-source principles, even if claimed otherwise, as no existing SFM has model weights, code, and training data publicly available under open-source terms. In this work, we take the first step toward filling this gap by focusing on the 24 official languages of the European Union (EU). We collect suitable training data by surveying automatic speech recognition datasets and unlabeled speech corpora under open-source compliant licenses, for a total of 950k hours. Additionally, we release automatic transcripts for 441k hours of unlabeled data under the permissive CC-BY license, thereby facilitating the creation of open-source SFMs for the EU languages.
- Abstract(参考訳): ファンデーションモデル(FM)の台頭と、そのリスクと影響に対処する規制の取り組みが組み合わさって、オープンソースモデルに大きな関心を呼んだ。
しかしながら、既存の音声FM(SFMs)は、たとえ既存のSFMがオープンソースの用語で公開されているモデルウェイト、コード、トレーニングデータを持っていないとしても、オープンソース原則に完全に準拠していない。
本研究では、欧州連合(EU)の24の公用語に注目して、このギャップを埋める第一歩を踏み出します。
我々は,オープンソース準拠のライセンス下で,自動音声認識データセットと未ラベル音声コーパスを合計950k時間調査することにより,適切なトレーニングデータを収集する。
さらに, CC-BYライセンスの下で, 441k時間の非ラベルデータの自動書き起こしを公開し, EU 言語のオープンソース SFM 作成を容易にする。
関連論文リスト
- Leveraging Open-Source Large Language Models for Native Language Identification [1.6267479602370543]
ネイティブ言語識別(NLI)は、法医学、マーケティング、第二言語習得に応用されている。
本研究では,オープンソース生成型大規模言語モデル(LLM)をNLIに適用する可能性について検討する。
論文 参考訳(メタデータ) (2024-09-15T08:14:18Z) - MooER: LLM-based Speech Recognition and Translation Models from Moore Threads [13.02816167879662]
MooERはムーアスレッドの大規模自動音声認識(ASR)/自動音声翻訳(AST)モデルである。
オープンソースおよび自己収集音声データを含む5000hの擬似ラベル付きデータセットをトレーニングに使用する。
Covost2 Zh2enテストセットで行った実験は、我々のモデルが他のオープンソースのLLMよりも優れていることを示唆している。
論文 参考訳(メタデータ) (2024-08-09T14:43:56Z) - UltraLink: An Open-Source Knowledge-Enhanced Multilingual Supervised
Fine-tuning Dataset [69.33424532827608]
オープンソースの大規模言語モデル(LLM)は、様々な分野において大きな強みを持っている。
本研究では,オープンソースの多言語教師付き微調整データセットを構築する。
結果として得られたUltraLinkデータセットは、5つの言語にわたる約100万のサンプルで構成されている。
論文 参考訳(メタデータ) (2024-02-07T05:05:53Z) - On the Safety of Open-Sourced Large Language Models: Does Alignment
Really Prevent Them From Being Misused? [49.99955642001019]
オープンソースでアライメントされた大きな言語モデルは、望ましくないコンテンツを生成するために簡単に誤解される可能性があることを示す。
我々のキーとなる考え方は、オープンソースLLMの生成プロセスを直接操作して、望ましくないコンテンツを生成するのを誤解することです。
論文 参考訳(メタデータ) (2023-10-02T19:22:01Z) - Cross-Lingual NER for Financial Transaction Data in Low-Resource
Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。
我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。
わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文 参考訳(メタデータ) (2023-07-16T00:45:42Z) - Democratizing LLMs for Low-Resource Languages by Leveraging their English Dominant Abilities with Linguistically-Diverse Prompts [75.33019401706188]
大規模言語モデル(LLM)は、少数の例を単純に観察することで、効果的にタスクを実行することが知られている。
我々は,LLMが任意の言語から英語に翻訳するよう促すために,多種多様な高ソース言語から合成例を組み立てることを提案する。
我々の教師なしプロンプト法は、英語と13のIndic言語と21のアフリカ低リソース言語間の翻訳において、異なる大きさのLLMにおける教師付き少ショット学習と同等に機能する。
論文 参考訳(メタデータ) (2023-06-20T08:27:47Z) - BLOOM: A 176B-Parameter Open-Access Multilingual Language Model [264.96498474333697]
大規模言語モデル(LLM)は、いくつかのデモや自然言語命令に基づいて新しいタスクを実行できることが示されている。
BLOOMは、176Bパラメータのオープンアクセス言語モデルであり、数百人の研究者の協力により設計・構築されている。
BLOOMは、RATSコーパスでトレーニングされたデコーダのみのトランスフォーマー言語モデルである。
論文 参考訳(メタデータ) (2022-11-09T18:48:09Z) - The People's Speech: A Large-Scale Diverse English Speech Recognition
Dataset for Commercial Usage [1.5213617014998604]
このデータセットでトレーニングされたモデルは、Librispeechのテストクリーンテストセット上で9.98%のワードエラー率を達成する。
本稿では,大規模機械学習コーパスの作成に伴う法的・倫理的問題について論じる。
論文 参考訳(メタデータ) (2021-11-17T19:14:40Z) - CoVoST: A Diverse Multilingual Speech-To-Text Translation Corpus [57.641761472372814]
CoVoSTは11言語から英語への多言語による音声からテキストへの翻訳コーパスである。
11,000人以上の話者と60以上のアクセントで多様化した。
CoVoSTはCC0ライセンスでリリースされており、無料で利用できる。
論文 参考訳(メタデータ) (2020-02-04T14:35:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。