論文の概要: Bilingual Streaming ASR with Grapheme units and Auxiliary Monolingual
Loss
- arxiv url: http://arxiv.org/abs/2308.06327v1
- Date: Fri, 11 Aug 2023 18:06:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-15 18:02:41.487221
- Title: Bilingual Streaming ASR with Grapheme units and Auxiliary Monolingual
Loss
- Title(参考訳): Grapheme単位と補助単言語損失を用いたバイリンガルストリーミングASR
- Authors: Mohammad Soleymanpour, Mahmoud Al Ismail, Fahimeh Bahmaninezhad,
Kshitiz Kumar, Jian Wu
- Abstract要約: 自動音声認識(ASR)において、ほとんどの主要地域において、英語を二次的ローカライズとしてサポートするためのバイリンガルソリューションを導入する。
本研究の主な展開は, (a) 音素単位の代わりにグラファイム単位を用いた発音辞書, (b) 完全なバイリンガルアライメントモデル, 次いでバイリンガルストリーミングトランスフォーマーモデルである。
バイリンガル・スペイン語(ES)およびバイリンガル・イタリア語(IT)アプリケーションのための大規模トレーニングおよびテストタスクについて検討した。
- 参考スコア(独自算出の注目度): 11.447307867370064
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We introduce a bilingual solution to support English as secondary locale for
most primary locales in hybrid automatic speech recognition (ASR) settings. Our
key developments constitute: (a) pronunciation lexicon with grapheme units
instead of phone units, (b) a fully bilingual alignment model and subsequently
bilingual streaming transformer model, (c) a parallel encoder structure with
language identification (LID) loss, (d) parallel encoder with an auxiliary loss
for monolingual projections. We conclude that in comparison to LID loss, our
proposed auxiliary loss is superior in specializing the parallel encoders to
respective monolingual locales, and that contributes to stronger bilingual
learning. We evaluate our work on large-scale training and test tasks for
bilingual Spanish (ES) and bilingual Italian (IT) applications. Our bilingual
models demonstrate strong English code-mixing capability. In particular, the
bilingual IT model improves the word error rate (WER) for a code-mix IT task
from 46.5% to 13.8%, while also achieving a close parity (9.6%) with the
monolingual IT model (9.5%) over IT tests.
- Abstract(参考訳): そこで本稿では,ASR(Hybrid Automatic Speech Recognition)設定において,英語を2次的ローカライズとしてサポートするためのバイリンガルソリューションを提案する。
私たちの重要な発展は
(a)電話機の代わりにグラフ単位の発音レキシコン
b) 完全なバイリンガルアライメントモデルとその後のバイリンガルストリーミングトランスモデル。
(c)言語識別(LID)損失を伴う並列エンコーダ構造
(d)単言語投射に対する補助損失を有する並列エンコーダ。
我々は,LID損失と比較して,並列エンコーダを各単言語局所に限定する上で,補助的損失が優れており,二言語学習の強化に寄与していると結論付けた。
我々は,二言語スペイン語(es)および二言語イタリア語(it)アプリケーションのための大規模訓練およびテストタスクに関する作業を評価する。
我々のバイリンガルモデルは、強い英語コード混合能力を示している。
特に、バイリンガルITモデルは、コードミックスITタスクのワードエラー率(WER)を46.5%から13.8%に改善し、ITテストよりもモノリンガルITモデル(9.5%)と密接な同等(9.6%)を達成した。
関連論文リスト
- Towards a Deep Understanding of Multilingual End-to-End Speech
Translation [52.26739715012842]
我々は22言語以上で訓練された多言語エンドツーエンド音声翻訳モデルで学習した表現を解析する。
我々は分析から3つの大きな発見を得た。
論文 参考訳(メタデータ) (2023-10-31T13:50:55Z) - Building High-accuracy Multilingual ASR with Gated Language Experts and
Curriculum Training [45.48362355283723]
本稿では,多言語トランスデューサモデルを強化するために,ゲート言語の専門家とカリキュラムトレーニングを提案する。
本手法はゲーティング機構とLID損失を組み込んで,トランスフォーマーの専門家が言語固有の情報を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-03-01T19:20:01Z) - Scaling Up Deliberation for Multilingual ASR [36.860327600638705]
多言語音声認識のための第2パス検討について検討する。
テキストエンコーダは複数の言語からの仮説テキストをエンコードし,デコーダは多言語テキストと音声に付随する。
検討の結果,9言語の平均 WER はシングルパスモデルと比較して4% 向上していることがわかった。
論文 参考訳(メタデータ) (2022-10-11T21:07:00Z) - LAE: Language-Aware Encoder for Monolingual and Multilingual ASR [87.74794847245536]
言語固有の情報を混在させることにより,両状況に対処する新しい言語対応エンコーダ (LAE) アーキテクチャを提案する。
マンダリン・イングリッシュ・コードスウィッチ音声を用いた実験により,LAEはフレームレベルで異なる言語を識別できることが示唆された。
論文 参考訳(メタデータ) (2022-06-05T04:03:12Z) - Bilingual End-to-End ASR with Byte-Level Subwords [4.268218327369146]
文字レベル、バイトレベル、バイトペア符号化(BPE)、バイトレベルバイトペア符号化(BBPE)など、さまざまな表現について検討する。
我々は,発話に基づくバイリンガルASRをサポートする単一エンドツーエンドモデルの開発に注力する。
ペナルティスキーム付きBBPEは,少ない出力と少ないパラメータであっても,発話ベースのバイリンガルASR性能を2%から5%向上できることがわかった。
論文 参考訳(メタデータ) (2022-05-01T15:01:01Z) - Code Switched and Code Mixed Speech Recognition for Indic languages [0.0]
多言語自動音声認識(ASR)システムの訓練は、音響情報と語彙情報が典型的には言語固有のものであるため困難である。
言語識別(LID)に基づく一言語モデルとエンドツーエンドの多言語音声認識システムの性能を比較した。
また,Hindi- English と Bengali- English の相似解法を提案し,それぞれ 21.77 と 28.27 の WER を実現する。
論文 参考訳(メタデータ) (2022-03-30T18:09:28Z) - Reducing language context confusion for end-to-end code-switching
automatic speech recognition [50.89821865949395]
本稿では,E2E符号スイッチングASRモデルの多言語コンテキストの混同を低減するための言語関連アテンション機構を提案する。
複数の言語のそれぞれの注意を計算することにより、豊かな単言語データから言語知識を効率的に伝達することができる。
論文 参考訳(メタデータ) (2022-01-28T14:39:29Z) - Breaking Down Multilingual Machine Translation [74.24795388967907]
マルチ言語学習は一般にエンコーダにとって有益であるが,ローソース言語(LRL)ではデコーダにのみ有益であることを示す。
LRLの多言語モデルと一対多モデルは、Aharoniらによって報告された最良の結果よりも優れています。
論文 参考訳(メタデータ) (2021-10-15T14:57:12Z) - Magic dust for cross-lingual adaptation of monolingual wav2vec-2.0 [7.378368959253632]
モノリンガルなwav2vec-2.0は、いくつかの言語でASR学習者として優れていることを示す。
この研究の重要な発見は、適応されたモノリンガルwav2vec-2.0が、トップラインのマルチリンガルXLSRモデルと同様のパフォーマンスを達成することである。
論文 参考訳(メタデータ) (2021-10-07T15:29:22Z) - Cross-lingual Machine Reading Comprehension with Language Branch
Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。
本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。
LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。
複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文 参考訳(メタデータ) (2020-10-27T13:12:17Z) - How Phonotactics Affect Multilingual and Zero-shot ASR Performance [74.70048598292583]
Transformer encoder-decoderモデルは、トレーニング中に提示された言語のIPA転写において、多言語データをうまく活用することが示されている。
我々は,エンコーダデコーダをAMとLMを分離したハイブリッドASRシステムに置き換える。
交叉音韻律のモデル化による利得は限定的であり,強すぎるモデルがゼロショット転送を損なう可能性があることを示す。
論文 参考訳(メタデータ) (2020-10-22T23:07:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。