論文の概要: Google USM: Scaling Automatic Speech Recognition Beyond 100 Languages
- arxiv url: http://arxiv.org/abs/2303.01037v2
- Date: Fri, 3 Mar 2023 01:18:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-06 11:40:25.487952
- Title: Google USM: Scaling Automatic Speech Recognition Beyond 100 Languages
- Title(参考訳): Google USM:100言語を超えて自動音声認識をスケール
- Authors: Yu Zhang, Wei Han, James Qin, Yongqiang Wang, Ankur Bapna, Zhehuai
Chen, Nanxin Chen, Bo Li, Vera Axelrod, Gary Wang, Zhong Meng, Ke Hu, Andrew
Rosenberg, Rohit Prabhavalkar, Daniel S. Park, Parisa Haghani, Jason Riesa,
Ginger Perng, Hagen Soltau, Trevor Strohman, Bhuvana Ramabhadran, Tara
Sainath, Pedro Moreno, Chung-Cheng Chiu, Johan Schalkwyk, Fran\c{c}oise
Beaufays, Yonghui Wu
- Abstract要約: 100以上の言語で自動音声認識(ASR)を行う単一大モデルであるUniversal Speech Model (USM)を導入する。
これは300以上の言語にまたがる1200万時間 (M) の大規模なラベル付き多言語データセット上で、モデルのエンコーダを事前トレーニングすることで達成される。
我々は,多言語事前学習とランダム投影量子化と音声-テキスト・モダリティマッチングを用いて,下流多言語ASRおよび音声-テキスト翻訳タスクの最先端性能を実現する。
- 参考スコア(独自算出の注目度): 75.06531694700679
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce the Universal Speech Model (USM), a single large model that
performs automatic speech recognition (ASR) across 100+ languages. This is
achieved by pre-training the encoder of the model on a large unlabeled
multilingual dataset of 12 million (M) hours spanning over 300 languages, and
fine-tuning on a smaller labeled dataset. We use multilingual pre-training with
random-projection quantization and speech-text modality matching to achieve
state-of-the-art performance on downstream multilingual ASR and speech-to-text
translation tasks. We also demonstrate that despite using a labeled training
set 1/7-th the size of that used for the Whisper model, our model exhibits
comparable or better performance on both in-domain and out-of-domain speech
recognition tasks across many languages.
- Abstract(参考訳): 我々は,100以上の言語で自動音声認識(asr)を行う単一大規模モデルであるuniversal speech model (usm)を提案する。
これは300以上の言語にまたがる1200万時間(M)の大規模ラベル付き多言語データセットでモデルのエンコーダを事前トレーニングし、より小さなラベル付きデータセットで微調整することで達成される。
我々は,多言語事前学習とランダム投影量子化と音声-テキスト・モダリティマッチングを用いて,下流多言語ASRおよび音声-テキスト翻訳タスクの最先端性能を実現する。
また,Whisperモデルでは,ラベル付きトレーニングセットを1/7の規模で使用しても,ドメイン内およびドメイン外音声認識タスクにおいて,同等あるいは優れた性能を示すことを示す。
関連論文リスト
- AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - Adapting Multi-Lingual ASR Models for Handling Multiple Talkers [63.151811561972515]
最先端の大規模音声モデル(USM)は、複数のドメインや言語にまたがる適切な自動音声認識(ASR)性能を示す。
マルチストーカーASRに対するUSMの適応手法を提案する。
まず,マルチストーカーASRと発話タイムスタンプ予測を共同で行うシリアライズ出力訓練の強化版を開発する。
論文 参考訳(メタデータ) (2023-05-30T05:05:52Z) - ComSL: A Composite Speech-Language Model for End-to-End Speech-to-Text
Translation [79.66359274050885]
公的な事前訓練された音声のみのモデルと言語のみのモデルからなる複合アーキテクチャ上に構築された音声言語モデルであるComSLを提案する。
提案手法は,エンドツーエンドの音声-テキスト翻訳タスクにおいて有効であることを示す。
論文 参考訳(メタデータ) (2023-05-24T07:42:15Z) - Scaling Speech Technology to 1,000+ Languages [66.31120979098483]
MMS(Massively Multilingual Speech)プロジェクトは、タスクに応じてサポート言語を10~40倍増やす。
主な材料は、一般に公開されている宗教文書の読解に基づく新しいデータセットである。
我々は,1,406言語,1,107言語用1つの多言語自動音声認識モデル,同一言語用音声合成モデル,4,017言語用言語識別モデルについて,事前学習したwav2vec 2.0モデルを構築した。
論文 参考訳(メタデータ) (2023-05-22T22:09:41Z) - From English to More Languages: Parameter-Efficient Model Reprogramming
for Cross-Lingual Speech Recognition [50.93943755401025]
言語間音声認識のためのニューラルモデル再プログラミングに基づく新しいパラメータ効率学習フレームワークを提案する。
我々は、学習可能な事前学習機能強化に焦点を当てた、異なる補助的ニューラルネットワークアーキテクチャを設計する。
提案手法は,既存のASRチューニングアーキテクチャとその拡張性能を自己監督的損失で向上させる。
論文 参考訳(メタデータ) (2023-01-19T02:37:56Z) - Distilling a Pretrained Language Model to a Multilingual ASR Model [3.4012007729454816]
教師のテキストモデルに埋め込まれた豊富な知識を学生の音声モデルに蒸留する。
我々は,100時間未満の音声データを持つCommonVoiceデータセットの低リソース言語20言語に対して,本手法の優位性を示す。
論文 参考訳(メタデータ) (2022-06-25T12:36:11Z) - Exploring Capabilities of Monolingual Audio Transformers using Large
Datasets in Automatic Speech Recognition of Czech [0.9653976364051563]
チェコ語単言語音声トランスフォーマーを8万時間以上のラベルなし音声を含む大規模データセットから事前学習する過程について述べる。
2つの公開データセットで評価された様々な微調整設定による実験の大規模なパレットを提示する。
論文 参考訳(メタデータ) (2022-06-15T16:14:37Z) - FLEURS: Few-shot Learning Evaluation of Universal Representations of
Speech [33.71744518887916]
FLEURS(Few-shot Learning Evaluation of Universal Representations of Speech benchmark)を紹介する。
FLEURSは、機械翻訳FLoRes-101ベンチマーク上に構築された102言語におけるn-way並列音声データセットである。
論文 参考訳(メタデータ) (2022-05-25T02:29:03Z) - Massively Multilingual ASR: 50 Languages, 1 Model, 1 Billion Parameters [31.705705891482594]
低音源言語における音声認識(ASR)の性能向上を目的とした,複数言語を対象とした単一音響モデルの訓練について検討した。
入力言語を知らずに1つの関節モデルから多言語学習の3つの変種を、この情報を用いて複数の頭部に比較する。
複数の言語でのASRモデルの多言語学習により、認識性能、特に低リソース言語での認識性能が向上することを示す。
論文 参考訳(メタデータ) (2020-07-06T18:43:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。