論文の概要: Scaling Up Deliberation for Multilingual ASR
- arxiv url: http://arxiv.org/abs/2210.05785v1
- Date: Tue, 11 Oct 2022 21:07:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-13 15:30:49.751112
- Title: Scaling Up Deliberation for Multilingual ASR
- Title(参考訳): 多言語asrのための検討のスケールアップ
- Authors: Ke Hu, Bo Li, Tara N. Sainath
- Abstract要約: 多言語音声認識のための第2パス検討について検討する。
テキストエンコーダは複数の言語からの仮説テキストをエンコードし,デコーダは多言語テキストと音声に付随する。
検討の結果,9言語の平均 WER はシングルパスモデルと比較して4% 向上していることがわかった。
- 参考スコア(独自算出の注目度): 36.860327600638705
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multilingual end-to-end automatic speech recognition models are attractive
due to its simplicity in training and deployment. Recent work on large-scale
training of such models has shown promising results compared to monolingual
models. However, the work often focuses on multilingual models themselves in a
single-pass setup. In this work, we investigate second-pass deliberation for
multilingual speech recognition. Our proposed deliberation is multilingual,
i.e., the text encoder encodes hypothesis text from multiple languages, and the
decoder attends to multilingual text and audio. We investigate scaling the
deliberation text encoder and decoder, and compare scaling the deliberation
decoder and the first-pass cascaded encoder. We show that deliberation improves
the average WER on 9 languages by 4% relative compared to the single-pass
model. By increasing the size of the deliberation up to 1B parameters, the
average WER improvement increases to 9%, with up to 14% for certain languages.
Our deliberation rescorer is based on transformer layers and can be
parallelized during rescoring.
- Abstract(参考訳): 多言語用エンドツーエンド自動音声認識モデルは、訓練と展開が簡単であるため魅力的である。
このようなモデルの大規模トレーニングに関する最近の研究は、単言語モデルと比較して有望な結果を示している。
しかしながら、この研究は多言語モデル自体をシングルパス設定でフォーカスすることが多い。
本研究では,多言語音声認識のための第2パスの検討を行う。
提案する検討は多言語であり,テキストエンコーダは複数の言語から仮説テキストを符号化し,デコーダは多言語テキストと音声に出席する。
審議テキストエンコーダとデコーダのスケーリングについて検討し,審議デコーダと第1パスカスケードエンコーダの比較を行った。
本研究では,9言語の平均WERをシングルパスモデルと比較して4%改善することを示す。
審議パラメータを最大1bまで増やすことで、平均wer改善率は9%となり、特定の言語では最大14%まで向上した。
検討対象のrescorerはtransformer layerに基づいており,rescoring時に並列化することができる。
関連論文リスト
- Streaming Bilingual End-to-End ASR model using Attention over Multiple
Softmax [6.386371634323785]
本稿では,両言語を単一のニューラルモデルで認識可能な,バイリンガル・エンド・ツー・エンド(E2E)モデリング手法を提案する。
提案モデルでは,自己認識機構によって結合された言語固有のジョイントネットワークを用いて,エンコーダと予測ネットワークを共有する。
論文 参考訳(メタデータ) (2024-01-22T01:44:42Z) - Multilingual self-supervised speech representations improve the speech
recognition of low-resource African languages with codeswitching [65.74653592668743]
微細な自己教師型多言語表現は絶対単語誤り率を最大20%削減する。
訓練データに制限のある状況では、自己教師付き表現を微調整することが、より良いパフォーマンスと実行可能なソリューションである。
論文 参考訳(メタデータ) (2023-11-25T17:05:21Z) - Bilingual Streaming ASR with Grapheme units and Auxiliary Monolingual
Loss [11.447307867370064]
自動音声認識(ASR)において、ほとんどの主要地域において、英語を二次的ローカライズとしてサポートするためのバイリンガルソリューションを導入する。
本研究の主な展開は, (a) 音素単位の代わりにグラファイム単位を用いた発音辞書, (b) 完全なバイリンガルアライメントモデル, 次いでバイリンガルストリーミングトランスフォーマーモデルである。
バイリンガル・スペイン語(ES)およびバイリンガル・イタリア語(IT)アプリケーションのための大規模トレーニングおよびテストタスクについて検討した。
論文 参考訳(メタデータ) (2023-08-11T18:06:33Z) - Improved Cross-Lingual Transfer Learning For Automatic Speech
Translation [18.97234151624098]
エンコーダ-デコーダシーケンス-シーケンス変換モデルのエンコーダをSAMU-XLS-Rで初期化することにより,言語間タスクの知識伝達を大幅に改善することを示す。
提案手法の有効性を,CoVoST-2とEuroparlという2つの一般的なデータセットに示す。
論文 参考訳(メタデータ) (2023-06-01T15:19:06Z) - LAMASSU: Streaming Language-Agnostic Multilingual Speech Recognition and
Translation Using Neural Transducers [71.76680102779765]
自動音声認識(ASR)と音声翻訳(ST)はどちらもモデル構造としてニューラルトランスデューサを使用することができる。
ニューラルトランスデューサを用いた多言語音声認識および翻訳モデルであるLAMASSUを提案する。
論文 参考訳(メタデータ) (2022-11-05T04:03:55Z) - Language-agnostic Code-Switching in Sequence-To-Sequence Speech
Recognition [62.997667081978825]
コードスイッチング(Code-Switching, CS)とは、異なる言語の単語やフレーズを交互に使用する現象である。
本稿では,異なるソース言語の音声および対応するラベルを転写する,シンプルで効果的なデータ拡張手法を提案する。
さらに,5,03%のWERによるトレーニング中に見つからない文間言語スイッチにおいて,モデルの性能を向上できることを示す。
論文 参考訳(メタデータ) (2022-10-17T12:15:57Z) - Breaking Down Multilingual Machine Translation [74.24795388967907]
マルチ言語学習は一般にエンコーダにとって有益であるが,ローソース言語(LRL)ではデコーダにのみ有益であることを示す。
LRLの多言語モデルと一対多モデルは、Aharoniらによって報告された最良の結果よりも優れています。
論文 参考訳(メタデータ) (2021-10-15T14:57:12Z) - How Phonotactics Affect Multilingual and Zero-shot ASR Performance [74.70048598292583]
Transformer encoder-decoderモデルは、トレーニング中に提示された言語のIPA転写において、多言語データをうまく活用することが示されている。
我々は,エンコーダデコーダをAMとLMを分離したハイブリッドASRシステムに置き換える。
交叉音韻律のモデル化による利得は限定的であり,強すぎるモデルがゼロショット転送を損なう可能性があることを示す。
論文 参考訳(メタデータ) (2020-10-22T23:07:24Z) - One Model, Many Languages: Meta-learning for Multilingual Text-to-Speech [3.42658286826597]
本稿では,文脈パラメータ生成のメタラーニング概念を用いた多言語音声合成手法を提案する。
本モデルでは,言語間で効率的に情報を共有できることが示され,主観的評価テストにより,ベースラインよりも自然な,正確なコードスイッチング音声を生成する。
論文 参考訳(メタデータ) (2020-08-03T10:43:30Z) - Unsupervised Cross-lingual Representation Learning for Speech
Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。
我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。
実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2020-06-24T18:25:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。