論文の概要: Scaling ASR Improves Zero and Few Shot Learning
- arxiv url: http://arxiv.org/abs/2111.05948v1
- Date: Wed, 10 Nov 2021 21:18:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-12 15:05:08.640126
- Title: Scaling ASR Improves Zero and Few Shot Learning
- Title(参考訳): Scaling ASRはゼロとほとんどショット学習を改善した
- Authors: Alex Xiao, Weiyi Zheng, Gil Keren, Duc Le, Frank Zhang, Christian
Fuegen, Ozlem Kalinli, Yatharth Saraf, Abdelrahman Mohamed
- Abstract要約: 大規模データセットでもっとも有用なサンプルを見つけるために,トレーニングデータを効率的にスケールするためのデータ選択手法を提案する。
1-10Bパラメータのユニバーサル英語ASRモデルを訓練することにより、音声認識性能の限界を多くの領域に広げる。
脳損傷による障害のある話者に対して、私たちの最高のゼロショットモデルと少数ショットモデルは、それぞれAphasiaBankテストセットで22%と60%の相対的な改善を達成しています。
- 参考スコア(独自算出の注目度): 23.896440724468246
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With 4.5 million hours of English speech from 10 different sources across 120
countries and models of up to 10 billion parameters, we explore the frontiers
of scale for automatic speech recognition. We propose data selection techniques
to efficiently scale training data to find the most valuable samples in massive
datasets. To efficiently scale model sizes, we leverage various optimizations
such as sparse transducer loss and model sharding. By training 1-10B parameter
universal English ASR models, we push the limits of speech recognition
performance across many domains. Furthermore, our models learn powerful speech
representations with zero and few-shot capabilities on novel domains and styles
of speech, exceeding previous results across multiple in-house and public
benchmarks. For speakers with disorders due to brain damage, our best zero-shot
and few-shot models achieve 22% and 60% relative improvement on the AphasiaBank
test set, respectively, while realizing the best performance on public social
media videos. Furthermore, the same universal model reaches equivalent
performance with 500x less in-domain data on the SPGISpeech financial-domain
dataset.
- Abstract(参考訳): 120カ国の10の異なるソースから450万時間に及ぶ英語音声と、最大100億のパラメータのモデルを用いて、自動音声認識のためのスケールのフロンティアを探索する。
大規模データセットでもっとも有用なサンプルを見つけるために,トレーニングデータを効率的にスケールするためのデータ選択手法を提案する。
モデルサイズを効率的にスケールするために、スパーストランスデューサ損失やモデルシャーディングといった様々な最適化を利用する。
1-10Bパラメータのユニバーサル英語ASRモデルを訓練することにより、音声認識性能の限界を多くの領域に広げる。
さらに,本モデルでは,新しいドメインやスタイルの音声に対して,ゼロおよび少数ショットの能力を持つ強力な音声表現を学習し,複数の社内および公開ベンチマークで過去の結果を上回った。
脳損傷による障害のある話者に対して、私たちの最高のゼロショットモデルと少数ショットモデルはそれぞれ、AphasiaBankのテストセットで22%と60%の改善を実現し、パブリックなソーシャルメディアビデオで最高のパフォーマンスを実現しました。
さらに、同じユニバーサルモデルは、SPGISpeechファイナンシャルドメインデータセットの500倍少ないドメインデータで同等のパフォーマンスに達する。
関連論文リスト
- Automatic Speech Recognition for the Ika Language [0.0]
IkaのNew Testament Bible Multilingualから収集した高品質な音声データセット上で、事前学習したwav2vec 2.0の大規模翻訳を行う。
この結果から,微調整による事前学習モデルでは単語誤り率(WER)が0.5377,文字誤り率(CER)が0.2651となり,学習時間は1時間を超えることがわかった。
論文 参考訳(メタデータ) (2024-10-01T11:56:42Z) - SER Evals: In-domain and Out-of-domain Benchmarking for Speech Emotion Recognition [3.4355593397388597]
音声感情認識(SER)は、強力な自己教師付き学習(SSL)モデルの出現に大きく貢献している。
本稿では,最先端SERモデルの堅牢性と適応性を評価するための大規模ベンチマークを提案する。
主に音声認識用に設計されたWhisperモデルは,言語横断SERにおいて,専用SSLモデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-08-14T23:33:10Z) - Towards Robust Speech Representation Learning for Thousands of Languages [77.2890285555615]
自己教師付き学習(SSL)は、ラベル付きデータの必要性を減らすことで、音声技術をより多くの言語に拡張するのに役立つ。
我々は4057言語にまたがる100万時間以上のデータに基づいて訓練された、ユニバーサル音声のための言語横断言語であるXEUSを提案する。
論文 参考訳(メタデータ) (2024-06-30T21:40:26Z) - Replay to Remember: Continual Layer-Specific Fine-tuning for German
Speech Recognition [19.635428830237842]
大規模ASRモデルの性能は,より小さな領域に対してどのように近似できるかを検討する。
本研究では,ASRモデルの頑健性を高めるために,連続学習に経験リプレイを適用した。
論文 参考訳(メタデータ) (2023-07-14T11:20:22Z) - Google USM: Scaling Automatic Speech Recognition Beyond 100 Languages [76.95115818308918]
100以上の言語で自動音声認識(ASR)を行う単一大モデルであるUniversal Speech Model (USM)を導入する。
これは300以上の言語にまたがる1200万時間 (M) の大規模なラベル付き多言語データセット上で、モデルのエンコーダを事前トレーニングすることで達成される。
我々は,多言語事前学習とランダム投影量子化と音声-テキスト・モダリティマッチングを用いて,下流多言語ASRおよび音声-テキスト翻訳タスクの最先端性能を実現する。
論文 参考訳(メタデータ) (2023-03-02T07:47:18Z) - From English to More Languages: Parameter-Efficient Model Reprogramming
for Cross-Lingual Speech Recognition [50.93943755401025]
言語間音声認識のためのニューラルモデル再プログラミングに基づく新しいパラメータ効率学習フレームワークを提案する。
我々は、学習可能な事前学習機能強化に焦点を当てた、異なる補助的ニューラルネットワークアーキテクチャを設計する。
提案手法は,既存のASRチューニングアーキテクチャとその拡張性能を自己監督的損失で向上させる。
論文 参考訳(メタデータ) (2023-01-19T02:37:56Z) - PaLM: Scaling Language Modeling with Pathways [180.69584031908113]
我々は,パスウェイズ言語モデル PaLM と呼ばれるトランスフォーマー言語モデルを用いて,540ビリオンのパラメータを訓練した。
我々はPathwaysという新しいMLシステムを用いて,6144 TPU v4チップ上でPaLMをトレーニングした。
数百の言語理解および生成ベンチマーク上で、最先端の数発の学習結果を達成し、スケーリングの継続的なメリットを実証する。
論文 参考訳(メタデータ) (2022-04-05T16:11:45Z) - Visual Speech Recognition for Multiple Languages in the Wild [64.52593130370757]
より優れたVSRモデルを設計することが、より大きなトレーニングセットを使用する上でも同様に重要であることを示す。
VSRモデルに予測に基づく補助タスクを追加することを提案する。
このようなモデルは、異なる言語で動作し、公開データセット上でトレーニングされたこれまでのすべてのメソッドを大きなマージンで上回ることを示す。
論文 参考訳(メタデータ) (2022-02-26T07:21:00Z) - BigSSL: Exploring the Frontier of Large-Scale Semi-Supervised Learning
for Automatic Speech Recognition [126.5605160882849]
事前学習,自己学習,モデルサイズのスケールアップの組み合わせによって,データの効率が大幅に向上することがわかった。
本稿では,大規模な下流タスクに対して,事前学習モデルと自己学習モデルを使用することによって得られる普遍的なメリットについて報告する。
論文 参考訳(メタデータ) (2021-09-27T17:59:19Z) - Scaling End-to-End Models for Large-Scale Multilingual ASR [44.89961662796597]
多くの言語ファミリーでASRモデルを構築することは、大きな言語バリエーションと非常にバランスの取れないデータのために、マルチタスク学習の難しい問題です。
言語毎のデータ量は7.7Kから54.7K時間まで様々である。
論文 参考訳(メタデータ) (2021-04-30T08:24:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。