論文の概要: Whale: Large-Scale multilingual ASR model with w2v-BERT and E-Branchformer with large speech data
- arxiv url: http://arxiv.org/abs/2506.01439v1
- Date: Mon, 02 Jun 2025 08:52:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.106908
- Title: Whale: Large-Scale multilingual ASR model with w2v-BERT and E-Branchformer with large speech data
- Title(参考訳): Whale:w2v-BERTとE-Branchformerを用いた大規模多言語ASRモデル
- Authors: Yosuke Kashiwagi, Hayato Futami, Emiru Tsunoo, Satoshi Asakawa,
- Abstract要約: 本稿では,大規模音声認識モデルWhaleの開発について報告する。
WhisperやOWSMのようなモデルと同様に、Whaleは大きなモデルサイズと多種多様なデータセットの両方を活用している。
Librispeechテストクリーンセットでワードエラー率2.4%、CSJ eval3で文字エラー率3.4%、Whisper large-v3とOWSM v3.1を上回っている。
- 参考スコア(独自算出の注目度): 11.203870814602267
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper reports on the development of a large-scale speech recognition model, Whale. Similar to models such as Whisper and OWSM, Whale leverages both a large model size and a diverse, extensive dataset. Whale's architecture integrates w2v-BERT self-supervised model, an encoder-decoder backbone built on E-Branchformer, and a joint CTC-attention decoding strategy. The training corpus comprises varied speech data, of not only public corpora but also in-house data, thereby enhancing the model's robustness to different speaking styles and acoustic conditions. Through evaluations on multiple benchmarks, Whale achieved comparable performance to existing models. In particular, it achieves a word error rate of 2.4% on the Librispeech test-clean set and a character error rate of 3.4% on the CSJ eval3 set, outperforming Whisper large-v3 and OWSM v3.1.
- Abstract(参考訳): 本稿では,大規模音声認識モデルWhaleの開発について報告する。
WhisperやOWSMのようなモデルと同様に、Whaleは大きなモデルサイズと多種多様なデータセットの両方を活用している。
Whaleのアーキテクチャは、w2v-BERT自己教師モデル、E-Branchformer上に構築されたエンコーダデコーダバックボーン、CTC-アテンションデコード戦略を統合している。
トレーニングコーパスは、公開コーパスだけでなく、社内データも多種多様な音声データからなり、異なる話し方や音響条件に対するモデルの堅牢性を高める。
複数のベンチマークの評価を通じて、Whaleは既存のモデルに匹敵するパフォーマンスを達成した。
特に、Librispeechテストクリーンセットのワードエラー率2.4%、CSJ eval3セットの文字エラー率3.4%を達成し、Whisper large-v3およびOWSM v3.1を上回っている。
関連論文リスト
- Adaptability of ASR Models on Low-Resource Language: A Comparative Study of Whisper and Wav2Vec-BERT on Bangla [0.0]
本研究では,2つの最先端自動音声認識(ASR)モデル,OpenAIのWhisper(Small & Large-V2)とFacebookのWav2Vec-BERT(Bangla)の性能について検討した。
論文 参考訳(メタデータ) (2025-07-02T17:44:54Z) - Whisper Turns Stronger: Augmenting Wav2Vec 2.0 for Superior ASR in Low-Resource Languages [1.3108652488669736]
本稿では,データ拡張技術を用いて,Wav2Vec2上で微調整されたASRシステムを強化するエンドツーエンドフレームワークを提案する。
提案手法は,事前学習したWav2Vec2とよく知られたWhisper ASRモデルの2つのベースラインモデルより優れている。
論文 参考訳(メタデータ) (2024-12-31T13:03:20Z) - GigaSpeech 2: An Evolving, Large-Scale and Multi-domain ASR Corpus for Low-Resource Languages with Automated Crawling, Transcription and Refinement [36.29371629234269]
GigaSpeech 2は大規模多言語音声認識コーパスである。
タイ語、インドネシア語、ベトナム語を含む約3万時間の音声が自動で書き起こされる。
論文 参考訳(メタデータ) (2024-06-17T13:44:20Z) - ML-SUPERB 2.0: Benchmarking Multilingual Speech Models Across Modeling Constraints, Languages, and Datasets [106.7760874400261]
本稿では、事前訓練されたSSLと教師付き音声モデルを評価するための新しいベンチマークであるML-SUPERB2.0を提案する。
ML-SUPERBのセットアップよりも性能が向上するが、性能は下流モデル設計に依存している。
また、言語とデータセットのパフォーマンスに大きな違いがあることから、よりターゲットを絞ったアプローチの必要性も示唆されている。
論文 参考訳(メタデータ) (2024-06-12T21:01:26Z) - To Distill or Not to Distill? On the Robustness of Robust Knowledge Distillation [16.655022975392992]
現在の多言語ASRモデルは計算集約的であり、適切な総合的な評価を欠いている。
我々は、大きな教師モデルからより効率的なより小さな学生の変種に知識を蒸留する。
最もよく蒸留されたモデル全体の性能(45.0$% WER)は、SoTAモデルの2倍の大きさである。
論文 参考訳(メタデータ) (2024-06-06T21:11:53Z) - OWSM-CTC: An Open Encoder-Only Speech Foundation Model for Speech Recognition, Translation, and Language Identification [44.94458898538114]
Connectionist Temporal Classification (CTC)に基づく新しいエンコーダのみの音声基礎モデルOWSM-CTCを提案する。
多言語自動音声認識(ASR)、音声翻訳(ST)、言語識別(LID)のための180k時間の公開音声データをトレーニングする。
エンコーダデコーダOWSMと比較して、OWSM-CTCはASRとSTの24%の相対的改善を達成し、より堅牢で推論の3倍から4倍高速である。
論文 参考訳(メタデータ) (2024-02-20T02:04:38Z) - WanJuan: A Comprehensive Multimodal Dataset for Advancing English and
Chinese Large Models [69.96148259273065]
ワンフアン(Wan Juan)は、中国語と英語のデータからなる大規模なマルチモーダルデータセットであり、幅広いWebソースから収集されている。
同様のスケールのモデルと比較して,多次元評価において有意な優位性を示すモデルであるInternLMのトレーニングに利用された。
論文 参考訳(メタデータ) (2023-08-21T14:40:48Z) - Large-Scale Self- and Semi-Supervised Learning for Speech Translation [48.06478781295623]
大規模なLibri-Light音声コーパスとCommonCrawlを用いた言語モデリングを用いて,事前学習と自己学習の両方について検討する。
私たちの実験は、CoVoST 2言語ペアの4つすべてで平均2.6 BLEUで以前の状態よりも改善されました。
論文 参考訳(メタデータ) (2021-04-14T07:44:52Z) - Dual-decoder Transformer for Joint Automatic Speech Recognition and
Multilingual Speech Translation [71.54816893482457]
自動音声認識(ASR)と多言語音声翻訳(ST)を共同で行う新しいモデルアーキテクチャであるデュアルデコーダトランスフォーマを導入する。
我々のモデルはオリジナルのTransformerアーキテクチャに基づいているが、2つのデコーダで構成されており、それぞれが1つのタスク(ASRまたはST)を担っている。
論文 参考訳(メタデータ) (2020-11-02T04:59:50Z) - InfoBERT: Improving Robustness of Language Models from An Information
Theoretic Perspective [84.78604733927887]
BERTのような大規模言語モデルは、幅広いNLPタスクで最先端のパフォーマンスを実現している。
近年の研究では、このようなBERTベースのモデルが、テキストの敵対的攻撃の脅威に直面していることが示されている。
本稿では,事前学習した言語モデルの堅牢な微調整のための新しい学習フレームワークであるInfoBERTを提案する。
論文 参考訳(メタデータ) (2020-10-05T20:49:26Z) - Unsupervised Cross-lingual Representation Learning for Speech
Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。
我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。
実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2020-06-24T18:25:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。