論文の概要: Towards training Bilingual and Code-Switched Speech Recognition models
from Monolingual data sources
- arxiv url: http://arxiv.org/abs/2306.08753v1
- Date: Wed, 14 Jun 2023 21:24:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-16 17:11:13.011751
- Title: Towards training Bilingual and Code-Switched Speech Recognition models
from Monolingual data sources
- Title(参考訳): モノリンガルデータからのバイリンガルおよびコード変換音声認識モデルの訓練に向けて
- Authors: Kunal Dhawan, Dima Rekesh, Boris Ginsburg
- Abstract要約: 我々は,バイリンガル学習に対する異なるアプローチと,純粋にモノリンガルなデータソースを用いたコード切替型ASRモデルの評価を行った。
本稿では,バイリンガルモデルとモノリンガルモデルの性能を比較し,アグリゲーション・トークンの有効性を示し,合成コード切替ASRデータ生成手法を提案する。
- 参考スコア(独自算出の注目度): 7.691592681918439
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multilingual Automatic Speech Recognition (ASR) models are capable of
transcribing audios across multiple languages, eliminating the need for
separate models. In addition, they can perform Language Identification (LID)
and handle code-switched speech. However, training these models requires
special code-switch and multilingual speech corpora which are sparsely
available. In this paper, we evaluate different approaches towards training of
bilingual as well as code-switched ASR models using purely monolingual data
sources. We introduce the concept of aggregate tokenizers that differs from the
current prevalent technique of generating LIDs at the boundaries of monolingual
samples and produces LID for each emitted token instead. We compare bilingual
and monolingual model performance, showcase the efficacy of aggregate
tokenizers, present a synthetic code-switched ASR data generation technique and
demonstrate the effectiveness of the proposed code-switched ASR models for the
tasks of speech recognition and spoken language identification.
- Abstract(参考訳): ASR(Multilingual Automatic Speech Recognition)モデルでは、複数の言語にまたがる音声の書き起こしが可能で、個別のモデルを必要としない。
さらに、Language Identification (LID)を実行し、コード変更された音声を処理する。
しかし、これらのモデルを訓練するには特別なコードスウィッチと多言語音声コーパスが必要である。
本稿では,バイリンガル学習に対する異なるアプローチと,純粋にモノリンガルなデータソースを用いたコード切替型ASRモデルの評価を行う。
本稿では,モノリンガルなサンプル境界におけるLIDの生成技術と異なり,各トークンに対してLIDを生成する集合トークン化器の概念を紹介する。
両言語間および単言語間モデルの性能を比較し,アグリゲートトークン化器の有効性を示し,合成型asrデータ生成手法を示し,提案するasrモデルが音声認識と音声言語識別のタスクに有効であることを示す。
関連論文リスト
- Leveraging Language ID to Calculate Intermediate CTC Loss for Enhanced
Code-Switching Speech Recognition [5.3545957730615905]
ASRモデルのエンコーダの中間層に言語識別情報を導入する。
言語切替処理におけるモデルの混乱を軽減し,言語区別を暗黙的に意味する音響的特徴を生成することを目的としている。
論文 参考訳(メタデータ) (2023-12-15T07:46:35Z) - Speech collage: code-switched audio generation by collaging monolingual
corpora [50.356820349870986]
Speech Collage は音声セグメントをスプライシングすることでモノリンガルコーパスからCSデータを合成する手法である。
2つのシナリオにおける音声認識における生成データの影響について検討する。
論文 参考訳(メタデータ) (2023-09-27T14:17:53Z) - From English to More Languages: Parameter-Efficient Model Reprogramming
for Cross-Lingual Speech Recognition [50.93943755401025]
言語間音声認識のためのニューラルモデル再プログラミングに基づく新しいパラメータ効率学習フレームワークを提案する。
我々は、学習可能な事前学習機能強化に焦点を当てた、異なる補助的ニューラルネットワークアーキテクチャを設計する。
提案手法は,既存のASRチューニングアーキテクチャとその拡張性能を自己監督的損失で向上させる。
論文 参考訳(メタデータ) (2023-01-19T02:37:56Z) - LAMASSU: Streaming Language-Agnostic Multilingual Speech Recognition and
Translation Using Neural Transducers [71.76680102779765]
自動音声認識(ASR)と音声翻訳(ST)はどちらもモデル構造としてニューラルトランスデューサを使用することができる。
ニューラルトランスデューサを用いた多言語音声認識および翻訳モデルであるLAMASSUを提案する。
論文 参考訳(メタデータ) (2022-11-05T04:03:55Z) - Towards Zero-Shot Code-Switched Speech Recognition [44.76492452463019]
ゼロショット設定の下で,効率的な符号切替自動音声認識システム (ASR) の構築を目指す。
そこで本研究では,各単言語モジュールの音声セグメントを単言語スクリプトで不特定に書き起こすことにより,各単言語モジュールを単純化することを提案する。
本手法をエンドツーエンドの微分可能なニューラルネットワークに適用し、マンダリン英語SEAMEテストセットにおけるゼロショットCS ASRの有効性を実証する。
論文 参考訳(メタデータ) (2022-11-02T19:52:54Z) - Language-agnostic Code-Switching in Sequence-To-Sequence Speech
Recognition [62.997667081978825]
コードスイッチング(Code-Switching, CS)とは、異なる言語の単語やフレーズを交互に使用する現象である。
本稿では,異なるソース言語の音声および対応するラベルを転写する,シンプルで効果的なデータ拡張手法を提案する。
さらに,5,03%のWERによるトレーニング中に見つからない文間言語スイッチにおいて,モデルの性能を向上できることを示す。
論文 参考訳(メタデータ) (2022-10-17T12:15:57Z) - Learning ASR pathways: A sparse multilingual ASR model [31.147484652643282]
ASR経路は、言語固有のサブネットワーク(パス)を活性化するスパース多言語ASRモデルである。
重なり合うサブネットワークにより、共有パラメータは、共同でマルチリンガルトレーニングをすることで、低リソース言語への知識伝達を可能にする。
提案したASR経路は,高密度モデルと言語に依存しないプルーニングモデルの両方より優れ,低リソース言語の性能向上を実現している。
論文 参考訳(メタデータ) (2022-09-13T05:14:08Z) - LAE: Language-Aware Encoder for Monolingual and Multilingual ASR [87.74794847245536]
言語固有の情報を混在させることにより,両状況に対処する新しい言語対応エンコーダ (LAE) アーキテクチャを提案する。
マンダリン・イングリッシュ・コードスウィッチ音声を用いた実験により,LAEはフレームレベルで異なる言語を識別できることが示唆された。
論文 参考訳(メタデータ) (2022-06-05T04:03:12Z) - Streaming End-to-End Bilingual ASR Systems with Joint Language
Identification [19.09014345299161]
本稿では,ASRと言語識別の両方を実行するストリーミング,エンドツーエンド,バイリンガルシステムを提案する。
提案手法は、アメリカ合衆国で話される英語とスペイン語、インドで話される英語とヒンディー語という2つの言語対に適用される。
論文 参考訳(メタデータ) (2020-07-08T05:00:25Z) - Towards Relevance and Sequence Modeling in Language Recognition [39.547398348702025]
本稿では,言語認識における短系列情報を利用したニューラルネットワークフレームワークを提案する。
音声認識タスクの関連性に基づいて、音声データの一部を重み付けする言語認識に関連性を取り入れた新しいモデルを提案する。
NIST LRE 2017 Challengeにおいて、クリーン、ノイズ、マルチ話者音声データを用いて言語認識タスクを用いて実験を行う。
論文 参考訳(メタデータ) (2020-04-02T18:31:18Z) - Rnn-transducer with language bias for end-to-end Mandarin-English
code-switching speech recognition [58.105818353866354]
本稿では,言語バイアスを考慮したリカレントニューラルネットワークトランスデューサ(RNN-T)モデルを提案する。
我々は、CSの点を予測するためにモデルにバイアスを与えるために、言語アイデンティティを使用する。
これにより、言語識別情報を転写から直接学習するモデルが促進され、追加のLIDモデルが不要になる。
論文 参考訳(メタデータ) (2020-02-19T12:01:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。