論文の概要: Whale: Large-Scale multilingual ASR model with w2v-BERT and E-Branchformer with large speech data
- arxiv url: http://arxiv.org/abs/2506.01439v1
- Date: Mon, 02 Jun 2025 08:52:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.106908
- Title: Whale: Large-Scale multilingual ASR model with w2v-BERT and E-Branchformer with large speech data
- Title(参考訳): Whale:w2v-BERTとE-Branchformerを用いた大規模多言語ASRモデル
- Authors: Yosuke Kashiwagi, Hayato Futami, Emiru Tsunoo, Satoshi Asakawa,
- Abstract要約: 本稿では,大規模音声認識モデルWhaleの開発について報告する。
WhisperやOWSMのようなモデルと同様に、Whaleは大きなモデルサイズと多種多様なデータセットの両方を活用している。
Librispeechテストクリーンセットでワードエラー率2.4%、CSJ eval3で文字エラー率3.4%、Whisper large-v3とOWSM v3.1を上回っている。
- 参考スコア(独自算出の注目度): 11.203870814602267
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper reports on the development of a large-scale speech recognition model, Whale. Similar to models such as Whisper and OWSM, Whale leverages both a large model size and a diverse, extensive dataset. Whale's architecture integrates w2v-BERT self-supervised model, an encoder-decoder backbone built on E-Branchformer, and a joint CTC-attention decoding strategy. The training corpus comprises varied speech data, of not only public corpora but also in-house data, thereby enhancing the model's robustness to different speaking styles and acoustic conditions. Through evaluations on multiple benchmarks, Whale achieved comparable performance to existing models. In particular, it achieves a word error rate of 2.4% on the Librispeech test-clean set and a character error rate of 3.4% on the CSJ eval3 set, outperforming Whisper large-v3 and OWSM v3.1.
- Abstract(参考訳): 本稿では,大規模音声認識モデルWhaleの開発について報告する。
WhisperやOWSMのようなモデルと同様に、Whaleは大きなモデルサイズと多種多様なデータセットの両方を活用している。
Whaleのアーキテクチャは、w2v-BERT自己教師モデル、E-Branchformer上に構築されたエンコーダデコーダバックボーン、CTC-アテンションデコード戦略を統合している。
トレーニングコーパスは、公開コーパスだけでなく、社内データも多種多様な音声データからなり、異なる話し方や音響条件に対するモデルの堅牢性を高める。
複数のベンチマークの評価を通じて、Whaleは既存のモデルに匹敵するパフォーマンスを達成した。
特に、Librispeechテストクリーンセットのワードエラー率2.4%、CSJ eval3セットの文字エラー率3.4%を達成し、Whisper large-v3およびOWSM v3.1を上回っている。
関連論文リスト
- GigaSpeech 2: An Evolving, Large-Scale and Multi-domain ASR Corpus for Low-Resource Languages with Automated Crawling, Transcription and Refinement [36.29371629234269]
GigaSpeech 2は大規模多言語音声認識コーパスである。
タイ語、インドネシア語、ベトナム語を含む約3万時間の音声が自動で書き起こされる。
論文 参考訳(メタデータ) (2024-06-17T13:44:20Z) - OWSM-CTC: An Open Encoder-Only Speech Foundation Model for Speech Recognition, Translation, and Language Identification [44.94458898538114]
Connectionist Temporal Classification (CTC)に基づく新しいエンコーダのみの音声基礎モデルOWSM-CTCを提案する。
多言語自動音声認識(ASR)、音声翻訳(ST)、言語識別(LID)のための180k時間の公開音声データをトレーニングする。
エンコーダデコーダOWSMと比較して、OWSM-CTCはASRとSTの24%の相対的改善を達成し、より堅牢で推論の3倍から4倍高速である。
論文 参考訳(メタデータ) (2024-02-20T02:04:38Z) - WanJuan: A Comprehensive Multimodal Dataset for Advancing English and
Chinese Large Models [69.96148259273065]
ワンフアン(Wan Juan)は、中国語と英語のデータからなる大規模なマルチモーダルデータセットであり、幅広いWebソースから収集されている。
同様のスケールのモデルと比較して,多次元評価において有意な優位性を示すモデルであるInternLMのトレーニングに利用された。
論文 参考訳(メタデータ) (2023-08-21T14:40:48Z) - Large-Scale Self- and Semi-Supervised Learning for Speech Translation [48.06478781295623]
大規模なLibri-Light音声コーパスとCommonCrawlを用いた言語モデリングを用いて,事前学習と自己学習の両方について検討する。
私たちの実験は、CoVoST 2言語ペアの4つすべてで平均2.6 BLEUで以前の状態よりも改善されました。
論文 参考訳(メタデータ) (2021-04-14T07:44:52Z) - Unsupervised Cross-lingual Representation Learning for Speech
Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。
我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。
実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2020-06-24T18:25:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。