論文の概要: FAMA: The First Large-Scale Open-Science Speech Foundation Model for English and Italian
- arxiv url: http://arxiv.org/abs/2505.22759v2
- Date: Fri, 30 May 2025 19:40:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-03 13:48:30.040102
- Title: FAMA: The First Large-Scale Open-Science Speech Foundation Model for English and Italian
- Title(参考訳): FAMA: 英語とイタリア語のための初の大規模オープン・サイエンス・スピーチ・ファウンデーション・モデル
- Authors: Sara Papi, Marco Gaido, Luisa Bentivogli, Alessio Brutti, Mauro Cettolo, Roberto Gretter, Marco Matassoni, Mohamed Nabih, Matteo Negri,
- Abstract要約: FAMAは、英語とイタリア語のオープンサイエンス・スピーチ・ファンデーション・モデルの最初のファミリーである。
既存のSFMと比較して最大8倍高速な競合性能を実現している。
コード、データセット、モデルを含むすべてのアーティファクトは、OS準拠のライセンスの下でリリースされている。
- 参考スコア(独自算出の注目度): 27.27404080214069
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The development of speech foundation models (SFMs) like Whisper and SeamlessM4T has significantly advanced the field of speech processing. However, their closed nature--with inaccessible training data and code--poses major reproducibility and fair evaluation challenges. While other domains have made substantial progress toward open science by developing fully transparent models trained on open-source (OS) code and data, similar efforts in speech remain limited. To fill this gap, we introduce FAMA, the first family of open science SFMs for English and Italian, trained on 150k+ hours of OS speech data. Moreover, we present a new dataset containing 16k hours of cleaned and pseudo-labeled speech for both languages. Results show that FAMA achieves competitive performance compared to existing SFMs while being up to 8 times faster. All artifacts, including code, datasets, and models, are released under OS-compliant licenses, promoting openness in speech technology research.
- Abstract(参考訳): WhisperやSeamlessM4Tのような音声基礎モデル(SFM)の開発は、音声処理の分野を大幅に進歩させた。
しかし、それらのクローズドな性質は、到達不能なトレーニングデータとコードとともに、大きな再現性と公正な評価課題を規定している。
他のドメインは、オープンソース(OS)コードとデータに基づいてトレーニングされた完全な透明なモデルを開発することで、オープンサイエンスに向けてかなりの進歩を遂げてきたが、スピーチにおける同様の取り組みは、まだ限られている。
このギャップを埋めるために、我々は、英語とイタリア語のためのオープンサイエンスSFMの最初のファミリーであるFAMAを紹介します。
さらに,両言語に対して16k時間にわたるクリーン化および擬似ラベル付き音声を含む新しいデータセットを提案する。
その結果,FAMAは既存のSFMと比較して最大8倍の速さで競争性能を発揮することがわかった。
コード、データセット、モデルを含むすべてのアーティファクトは、OS準拠のライセンスの下でリリースされ、音声技術研究におけるオープン性を促進する。
関連論文リスト
- MOSEL: 950,000 Hours of Speech Data for Open-Source Speech Foundation Model Training on EU Languages [27.27404080214069]
既存の基盤モデル(FM)には、オープンソースの用語で公開されているモデルウェイト、コード、トレーニングデータがない。
欧州連合(EU)の24の公用語に注目して、このギャップを埋める第一歩を踏み出します。
我々は,CC-BYライセンスの下で,441k時間の未ラベルデータの自動書き起こしをリリースする。
論文 参考訳(メタデータ) (2024-10-01T19:54:10Z) - MooER: LLM-based Speech Recognition and Translation Models from Moore Threads [13.02816167879662]
MooERはムーアスレッドの大規模自動音声認識(ASR)/自動音声翻訳(AST)モデルである。
オープンソースおよび自己収集音声データを含む5000hの擬似ラベル付きデータセットをトレーニングに使用する。
Covost2 Zh2enテストセットで行った実験は、我々のモデルが他のオープンソースのLLMよりも優れていることを示唆している。
論文 参考訳(メタデータ) (2024-08-09T14:43:56Z) - OWSM-CTC: An Open Encoder-Only Speech Foundation Model for Speech Recognition, Translation, and Language Identification [44.94458898538114]
Connectionist Temporal Classification (CTC)に基づく新しいエンコーダのみの音声基礎モデルOWSM-CTCを提案する。
多言語自動音声認識(ASR)、音声翻訳(ST)、言語識別(LID)のための180k時間の公開音声データをトレーニングする。
エンコーダデコーダOWSMと比較して、OWSM-CTCはASRとSTの24%の相対的改善を達成し、より堅牢で推論の3倍から4倍高速である。
論文 参考訳(メタデータ) (2024-02-20T02:04:38Z) - OLMo: Accelerating the Science of Language Models [165.16277690540363]
言語モデル(LM)は、NLP研究と商用製品製品の両方で広く普及している。
商業的重要性が増すにつれ、最も強力なモデルは閉鎖され、プロプライエタリなインターフェースに遅れを取っている。
我々は、研究コミュニティが強力で真にオープンなLMにアクセスできることが不可欠であると信じている。
私たちは、言語モデルの科学的研究を可能にするために、競争力のある真にオープンな言語モデルであるOLMoを構築しました。
論文 参考訳(メタデータ) (2024-02-01T18:28:55Z) - Reproducing Whisper-Style Training Using an Open-Source Toolkit and
Publicly Available Data [75.7383558074758]
本研究はWhisperスタイル音声モデル(OWSM)を提案する。
OWSMはオープンソースツールキットと公開データを使ってWhisperスタイルのトレーニングを再現する。
データ準備、トレーニング、推論、スコアリングに使用されるすべてのスクリプトと、オープンサイエンスを促進するための事前訓練されたモデルとトレーニングログを公開します。
論文 参考訳(メタデータ) (2023-09-25T05:01:34Z) - SeqGPT: An Out-of-the-box Large Language Model for Open Domain Sequence
Understanding [103.34092301324425]
大規模言語モデル(LLM)は、オープンドメインのNLPタスクに顕著な能力を示している。
本稿では、オープンドメインの自然言語理解に特化して強化された、バイリンガル(英語と中国語)のオープンソース自己回帰モデルSeqGPTを提案する。
論文 参考訳(メタデータ) (2023-08-21T07:31:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。