論文の概要: Streaming End-to-End Bilingual ASR Systems with Joint Language
Identification
- arxiv url: http://arxiv.org/abs/2007.03900v1
- Date: Wed, 8 Jul 2020 05:00:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-12 13:34:18.681543
- Title: Streaming End-to-End Bilingual ASR Systems with Joint Language
Identification
- Title(参考訳): 連立言語同定を用いたエンドツーエンドのバイリンガルASRシステム
- Authors: Surabhi Punjabi, Harish Arsikere, Zeynab Raeesy, Chander Chandak,
Nikhil Bhave, Ankish Bansal, Markus M\"uller, Sergio Murillo, Ariya Rastrow,
Sri Garimella, Roland Maas, Mat Hans, Athanasios Mouchtaris, Siegfried
Kunzmann
- Abstract要約: 本稿では,ASRと言語識別の両方を実行するストリーミング,エンドツーエンド,バイリンガルシステムを提案する。
提案手法は、アメリカ合衆国で話される英語とスペイン語、インドで話される英語とヒンディー語という2つの言語対に適用される。
- 参考スコア(独自算出の注目度): 19.09014345299161
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multilingual ASR technology simplifies model training and deployment, but its
accuracy is known to depend on the availability of language information at
runtime. Since language identity is seldom known beforehand in real-world
scenarios, it must be inferred on-the-fly with minimum latency. Furthermore, in
voice-activated smart assistant systems, language identity is also required for
downstream processing of ASR output. In this paper, we introduce streaming,
end-to-end, bilingual systems that perform both ASR and language identification
(LID) using the recurrent neural network transducer (RNN-T) architecture. On
the input side, embeddings from pretrained acoustic-only LID classifiers are
used to guide RNN-T training and inference, while on the output side, language
targets are jointly modeled with ASR targets. The proposed method is applied to
two language pairs: English-Spanish as spoken in the United States, and
English-Hindi as spoken in India. Experiments show that for English-Spanish,
the bilingual joint ASR-LID architecture matches monolingual ASR and
acoustic-only LID accuracies. For the more challenging (owing to
within-utterance code switching) case of English-Hindi, English ASR and LID
metrics show degradation. Overall, in scenarios where users switch dynamically
between languages, the proposed architecture offers a promising simplification
over running multiple monolingual ASR models and an LID classifier in parallel.
- Abstract(参考訳): 多言語ASR技術は、モデルトレーニングとデプロイを単純化するが、その精度は実行時の言語情報の可用性に依存することが知られている。
言語のアイデンティティは、現実のシナリオでは事前には知られていないため、最小限のレイテンシでオンザフライで推測する必要がある。
さらに音声アクティブなスマートアシスタントシステムでは、ASR出力の下流処理には言語アイデンティティも必要である。
本稿では,recurrent neural network transducer(rnn-t)アーキテクチャを用いて,asrと言語識別(lid)の両方を実行するストリーミング,エンドツーエンドのバイリンガルシステムを提案する。
入力側では、事前訓練された音響専用LID分類器からの埋め込みを用いて、RNN-Tのトレーニングと推論を誘導する一方、出力側では、言語ターゲットをASRターゲットと共同でモデル化する。
提案手法は、アメリカ合衆国で話される英語とスペイン語、インドで話される英語とヒンディーの2つの言語対に適用できる。
ASR-LIDアーキテクチャは英語とスペイン語では単言語ASRと音響のみのLIDの精度に一致している。
英語ヒンディー語のより難易度の高い(言語内コードのスイッチングによる)ケースでは、英語のasrとlidメトリクスが劣化している。
全体として、ユーザが動的に言語間で切り替えるシナリオでは、提案アーキテクチャは複数のモノリンガル ASR モデルと LID 分類器を並列に実行するよりも、有望な単純化を提供する。
関連論文リスト
- CL-MASR: A Continual Learning Benchmark for Multilingual ASR [15.974765568276615]
連続学習環境における多言語自動音声認識のベンチマークであるCL-MASRを提案する。
CL-MASRは、大規模事前訓練されたASRモデル上に実装された多種多様な連続学習手法と共通のメトリクスを提供する。
我々の知る限り、CL-MASRは多言語ASRタスクのための最初の連続学習ベンチマークである。
論文 参考訳(メタデータ) (2023-10-25T18:55:40Z) - Unified model for code-switching speech recognition and language
identification based on a concatenated tokenizer [17.700515986659063]
Code-Switching (CS) Multilingual Automatic Speech Recognition (ASR) モデルは会話中に2つ以上の交互言語を含む音声を転写することができる。
本稿では,純粋にモノリンガルなデータソースからASRデータセットをコードスイッチングする新しい手法を提案する。
新たな Concatenated Tokenizer により、ASR モデルは既存のモノリンガルトークンを再利用しながら、出力されたテキストトークンごとに言語IDを生成することができる。
論文 参考訳(メタデータ) (2023-06-14T21:24:11Z) - Efficient Spoken Language Recognition via Multilabel Classification [53.662747523872305]
我々のモデルは,現在の最先端手法よりも桁違いに小さく,高速でありながら,競争力のある結果が得られることを示す。
我々のマルチラベル戦略は、マルチクラス分類よりも非ターゲット言語の方が堅牢である。
論文 参考訳(メタデータ) (2023-06-02T23:04:19Z) - LAMASSU: Streaming Language-Agnostic Multilingual Speech Recognition and
Translation Using Neural Transducers [71.76680102779765]
自動音声認識(ASR)と音声翻訳(ST)はどちらもモデル構造としてニューラルトランスデューサを使用することができる。
ニューラルトランスデューサを用いた多言語音声認識および翻訳モデルであるLAMASSUを提案する。
論文 参考訳(メタデータ) (2022-11-05T04:03:55Z) - Learning ASR pathways: A sparse multilingual ASR model [31.147484652643282]
ASR経路は、言語固有のサブネットワーク(パス)を活性化するスパース多言語ASRモデルである。
重なり合うサブネットワークにより、共有パラメータは、共同でマルチリンガルトレーニングをすることで、低リソース言語への知識伝達を可能にする。
提案したASR経路は,高密度モデルと言語に依存しないプルーニングモデルの両方より優れ,低リソース言語の性能向上を実現している。
論文 参考訳(メタデータ) (2022-09-13T05:14:08Z) - LAE: Language-Aware Encoder for Monolingual and Multilingual ASR [87.74794847245536]
言語固有の情報を混在させることにより,両状況に対処する新しい言語対応エンコーダ (LAE) アーキテクチャを提案する。
マンダリン・イングリッシュ・コードスウィッチ音声を用いた実験により,LAEはフレームレベルで異なる言語を識別できることが示唆された。
論文 参考訳(メタデータ) (2022-06-05T04:03:12Z) - ASR data augmentation in low-resource settings using cross-lingual
multi-speaker TTS and cross-lingual voice conversion [49.617722668505834]
提案手法は,モデル学習中に1つの話者のみを用いて音声合成と音声変換を行い,ASRシステムの改善を可能にする。
対象言語における1つの実話者のみを用いてデータ拡張法を用いて、有望なASRトレーニング結果を得ることが可能である。
論文 参考訳(メタデータ) (2022-03-29T11:55:30Z) - Low-Resource Spoken Language Identification Using Self-Attentive Pooling
and Deep 1D Time-Channel Separable Convolutions [0.0]
本稿では,言語識別タスクの低リソース設定において,自己認識型プーリング層を用いた畳み込みニューラルネットワークが有望な結果を示すことを示す。
また、性別、年齢などの他の分類要素が良好に評価されるようにデータセットが十分に多様である場合、LIDシステムの混乱行列が言語類似度測定を担っているという仮説を定式化する。
論文 参考訳(メタデータ) (2021-05-31T18:35:27Z) - Multilingual and code-switching ASR challenges for low resource Indian
languages [59.2906853285309]
インドの7つの言語に関連する2つのサブタスクを通じて、多言語およびコードスイッチングASRシステムの構築に重点を置いている。
これらの言語では、列車とテストセットからなる600時間分の音声データを合計で提供します。
また,マルチリンガルサブタスクとコードスイッチサブタスクのテストセットでは,それぞれ30.73%と32.45%という,タスクのベースラインレシピも提供しています。
論文 参考訳(メタデータ) (2021-04-01T03:37:01Z) - How Phonotactics Affect Multilingual and Zero-shot ASR Performance [74.70048598292583]
Transformer encoder-decoderモデルは、トレーニング中に提示された言語のIPA転写において、多言語データをうまく活用することが示されている。
我々は,エンコーダデコーダをAMとLMを分離したハイブリッドASRシステムに置き換える。
交叉音韻律のモデル化による利得は限定的であり,強すぎるモデルがゼロショット転送を損なう可能性があることを示す。
論文 参考訳(メタデータ) (2020-10-22T23:07:24Z) - Streaming Language Identification using Combination of Acoustic
Representations and ASR Hypotheses [13.976935216584298]
多言語音声認識の一般的なアプローチは、複数の単言語ASRシステムを並列に実行することである。
本研究では,音響レベルの表現とASR仮説に基づく埋め込みを学習し,組み合わせる手法を提案する。
処理コストとレイテンシを低減するため,我々はストリーミングアーキテクチャを利用して音声言語を早期に識別する。
論文 参考訳(メタデータ) (2020-06-01T04:08:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。