論文の概要: OWSM v4: Improving Open Whisper-Style Speech Models via Data Scaling and Cleaning
- arxiv url: http://arxiv.org/abs/2506.00338v1
- Date: Sat, 31 May 2025 01:44:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:32.789104
- Title: OWSM v4: Improving Open Whisper-Style Speech Models via Data Scaling and Cleaning
- Title(参考訳): OWSM v4: データスケーリングとクリーニングによるオープンウィスパースタイル音声モデルの改善
- Authors: Yifan Peng, Shakeel Muhammad, Yui Sudo, William Chen, Jinchuan Tian, Chyi-Jiunn Lin, Shinji Watanabe,
- Abstract要約: Open Whisperスタイルの音声モデル(OWSM)プロジェクトは、一連の完全にオープンな音声基礎モデルを開発した。
この作業は、大規模なWebcrawledデータセットであるYODASとCreative Commonsライセンスを統合することでOWSMを強化する。
これを解決するために、公開ツールキットを用いたスケーラブルなデータクリーニングパイプラインを開発し、75言語にわたる166,000時間の音声データセットを生成する。
- 参考スコア(独自算出の注目度): 41.50536035290623
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Open Whisper-style Speech Models (OWSM) project has developed a series of fully open speech foundation models using academic-scale resources, but their training data remains insufficient. This work enhances OWSM by integrating YODAS, a large-scale web-crawled dataset with a Creative Commons license. However, incorporating YODAS is nontrivial due to its wild nature, which introduces challenges such as incorrect language labels and audio-text misalignments. To address this, we develop a scalable data-cleaning pipeline using public toolkits, yielding a dataset with 166,000 hours of speech across 75 languages. Our new series of OWSM v4 models, trained on this curated dataset alongside existing OWSM data, significantly outperform previous versions on multilingual benchmarks. Our models even match or surpass frontier industrial models like Whisper and MMS in multiple scenarios. We will publicly release the cleaned YODAS data, pre-trained models, and all associated scripts via the ESPnet toolkit.
- Abstract(参考訳): Open Whisper-style Speech Models (OWSM) プロジェクトは学術規模のリソースを用いた一連の完全にオープンな音声基礎モデルを開発したが、そのトレーニングデータはまだ不十分である。
この作業は、大規模なWebcrawledデータセットであるYODASとCreative Commonsライセンスを統合することでOWSMを強化する。
しかし、YODASを組み込むことは、不正確な言語ラベルやオーディオテキストの誤りといった問題を引き起こす、その野望から、簡単ではない。
これを解決するために、公開ツールキットを用いたスケーラブルなデータクリーニングパイプラインを開発し、75言語にわたる166,000時間の音声データセットを生成する。
我々の新しいOWSM v4モデルは、既存のOWSMデータとともに、このキュレートされたデータセットでトレーニングされ、マルチ言語ベンチマークの以前のバージョンよりも大幅に優れています。
私たちのモデルは、WhisperやMSといった最前線の産業モデルと、複数のシナリオで一致したり、超えたりさえします。
クリーン化されたYODASデータ、事前訓練されたモデル、およびESPnetツールキットを介して関連するすべてのスクリプトを公開します。
関連論文リスト
- Reproducing Whisper-Style Training Using an Open-Source Toolkit and
Publicly Available Data [75.7383558074758]
本研究はWhisperスタイル音声モデル(OWSM)を提案する。
OWSMはオープンソースツールキットと公開データを使ってWhisperスタイルのトレーニングを再現する。
データ準備、トレーニング、推論、スコアリングに使用されるすべてのスクリプトと、オープンサイエンスを促進するための事前訓練されたモデルとトレーニングログを公開します。
論文 参考訳(メタデータ) (2023-09-25T05:01:34Z) - Textually Pretrained Speech Language Models [107.10344535390956]
本稿では、事前訓練されたテキスト言語モデルからウォームスタートを用いたSpeechLMの訓練方法であるTWISTを提案する。
我々は、TWISTがボード全体のコールドスタートSpeechLMより優れる自動評価と人的評価の両方を用いて示す。
論文 参考訳(メタデータ) (2023-05-22T13:12:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。