論文の概要: OLMoASR: Open Models and Data for Training Robust Speech Recognition Models
- arxiv url: http://arxiv.org/abs/2508.20869v1
- Date: Thu, 28 Aug 2025 15:00:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-29 18:12:02.467996
- Title: OLMoASR: Open Models and Data for Training Robust Speech Recognition Models
- Title(参考訳): OLMoASR:ロバスト音声認識モデルの学習のためのオープンモデルとデータ
- Authors: Huong Ngo, Matt Deitke, Martijn Bartelds, Sarah Pratt, Josh Gardner, Matt Jordan, Ludwig Schmidt,
- Abstract要約: 本稿では、大規模データセットOLMoASR-Poolと一連のモデルOLMoASRを提案し、ロバストなゼロショット音声認識モデルの研究と開発を行う。
私たちのキュレーションパイプラインは、OLMoASR-Mixと呼ばれる高品質なオーディオ書き起こしペアを100万時間生成します。
OLMoASRは、ショートおよびロングフォーム音声認識ベンチマークにおいて、OpenAIのWhisperに匹敵する平均性能を達成する。
- 参考スコア(独自算出の注目度): 30.64066048505222
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Improvements in training data scale and quality have led to significant advances, yet its influence in speech recognition remains underexplored. In this paper, we present a large-scale dataset, OLMoASR-Pool, and series of models, OLMoASR, to study and develop robust zero-shot speech recognition models. Beginning from OLMoASR-Pool, a collection of 3M hours of English audio and 17M transcripts, we design text heuristic filters to remove low-quality or mistranscribed data. Our curation pipeline produces a new dataset containing 1M hours of high-quality audio-transcript pairs, which we call OLMoASR-Mix. We use OLMoASR-Mix to train the OLMoASR-Mix suite of models, ranging from 39M (tiny.en) to 1.5B (large.en) parameters. Across all model scales, OLMoASR achieves comparable average performance to OpenAI's Whisper on short and long-form speech recognition benchmarks. Notably, OLMoASR-medium.en attains a 12.8\% and 11.0\% word error rate (WER) that is on par with Whisper's largest English-only model Whisper-medium.en's 12.4\% and 10.5\% WER for short and long-form recognition respectively (at equivalent parameter count). OLMoASR-Pool, OLMoASR models, and filtering, training and evaluation code will be made publicly available to further research on robust speech processing.
- Abstract(参考訳): 訓練データ尺度と品質の改善は大きな進歩をもたらしたが、音声認識への影響は未解明のままである。
本稿では,大規模データセットOLMoASR-Poolと一連のモデルOLMoASRについて述べる。
OLMoASR-Poolは、英語音声の3M時間と17M文字起こしのコレクションから始まり、低品質または誤転写データを削除するためにテキストヒューリスティックフィルタを設計する。
我々のキュレーションパイプラインは、OLMoASR-Mixと呼ばれる高品質な音声書き起こしペア100万時間を含む新しいデータセットを生成する。
我々はOLMoASR-Mixを使用して、39M(tiny.en)から1.5B(large.en)パラメータのOLMoASR-Mixスイートをトレーニングする。
すべてのモデルスケールにおいて、OLMoASRはショートおよびロングフォーム音声認識ベンチマークでOpenAIのWhisperに匹敵する平均性能を達成している。
特にOLMoASR-medium.enは、Whisperの最大の英語のみのモデルであるWhisper-medium.enの12.4\%と10.5\%のWERと同等の12.8\%と11.0\%のワードエラー率(WER)を達成している。
OLMoASR-Pool、OLMoASRモデル、フィルタリング、トレーニング、評価コードを公開して、堅牢な音声処理に関するさらなる研究を行う。
関連論文リスト
- Optimized Text Embedding Models and Benchmarks for Amharic Passage Retrieval [49.1574468325115]
トレーニング済みのAmharic BERTとRoBERTaのバックボーンをベースとした,Amharic固有の高密度検索モデルを提案する。
提案したRoBERTa-Base-Amharic-Embedモデル(110Mパラメータ)は,MRR@10の相対的な改善を17.6%達成する。
RoBERTa-Medium-Amharic-Embed (42M)のようなよりコンパクトな派生型は13倍以上小さいまま競争力を維持している。
論文 参考訳(メタデータ) (2025-05-25T23:06:20Z) - Whispering in Amharic: Fine-tuning Whisper for Low-resource Language [3.2858851789879595]
本研究は,AmharicにおけるOpenAIのWhisper自動音声認識モデルについて検討する。
Mozilla Common Voice、FLEURS、BDU-speechデータセットといったデータセットを使って微調整します。
最高のパフォーマンスモデルであるWhispersmall-amは、既存のFLEURSデータと新しい、目に見えないAmharicデータセットの混合を微調整することで、大幅に改善される。
論文 参考訳(メタデータ) (2025-03-24T09:39:41Z) - OLMoE: Open Mixture-of-Experts Language Models [180.19698806071867]
OLMoEは、Sparse Mixture-of-Experts (MoE)を利用した、完全にオープンで最先端の言語モデルである。
OLMoE-1B-7Bは70億(B)のパラメータを持つが、入力トークンごとに1Bしか使用しない。
5兆のトークンで事前トレーニングし、さらにOLMoE-1B-7B-インストラクトを作成するように適応します。
論文 参考訳(メタデータ) (2024-09-03T17:08:20Z) - MooER: LLM-based Speech Recognition and Translation Models from Moore Threads [13.02816167879662]
MooERはムーアスレッドの大規模自動音声認識(ASR)/自動音声翻訳(AST)モデルである。
オープンソースおよび自己収集音声データを含む5000hの擬似ラベル付きデータセットをトレーニングに使用する。
Covost2 Zh2enテストセットで行った実験は、我々のモデルが他のオープンソースのLLMよりも優れていることを示唆している。
論文 参考訳(メタデータ) (2024-08-09T14:43:56Z) - GigaSpeech 2: An Evolving, Large-Scale and Multi-domain ASR Corpus for Low-Resource Languages with Automated Crawling, Transcription and Refinement [36.29371629234269]
GigaSpeech 2は大規模多言語音声認識コーパスである。
タイ語、インドネシア語、ベトナム語を含む約3万時間の音声が自動で書き起こされる。
論文 参考訳(メタデータ) (2024-06-17T13:44:20Z) - Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。
我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。
提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文 参考訳(メタデータ) (2024-03-14T01:16:32Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。