論文の概要: Unified model for code-switching speech recognition and language
identification based on a concatenated tokenizer
- arxiv url: http://arxiv.org/abs/2306.08753v3
- Date: Sat, 16 Sep 2023 05:32:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-19 23:28:19.233975
- Title: Unified model for code-switching speech recognition and language
identification based on a concatenated tokenizer
- Title(参考訳): 連結化トークン化器を用いた音声認識と言語識別の統一モデル
- Authors: Kunal Dhawan, Dima Rekesh, Boris Ginsburg
- Abstract要約: Code-Switching (CS) Multilingual Automatic Speech Recognition (ASR) モデルは会話中に2つ以上の交互言語を含む音声を転写することができる。
本稿では,純粋にモノリンガルなデータソースからASRデータセットをコードスイッチングする新しい手法を提案する。
新たな Concatenated Tokenizer により、ASR モデルは既存のモノリンガルトークンを再利用しながら、出力されたテキストトークンごとに言語IDを生成することができる。
- 参考スコア(独自算出の注目度): 17.700515986659063
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Code-Switching (CS) multilingual Automatic Speech Recognition (ASR) models
can transcribe speech containing two or more alternating languages during a
conversation. This paper proposes (1) a new method for creating code-switching
ASR datasets from purely monolingual data sources, and (2) a novel Concatenated
Tokenizer that enables ASR models to generate language ID for each emitted text
token while reusing existing monolingual tokenizers. The efficacy of these
approaches for building CS ASR models is demonstrated for two language pairs,
English-Hindi and English-Spanish, where we achieve new state-of-the-art
results on the Miami Bangor CS evaluation corpus. In addition to competitive
ASR performance, the proposed Concatenated Tokenizer models are highly
effective for spoken language identification, achieving 98%+ accuracy on the
out-of-distribution FLEURS dataset.
- Abstract(参考訳): Code-Switching (CS) Multilingual Automatic Speech Recognition (ASR) モデルは会話中に2つ以上の交互言語を含む音声を転写することができる。
本稿では,(1)純粋に単言語データソースからasrデータセットをコード切り換える新しい方法,(2)既存の単言語トークンを再利用しながら,asrモデルが出力されたテキストトークン毎に言語idを生成する新しい連結トークン化器を提案する。
CS ASRモデル構築におけるこれらの手法の有効性は,マイアミ・バンゴールCS評価コーパスにおいて,2つの言語対であるイングリッシュ・ヒンディー語とイングリッシュ・スパニッシュ語で実証された。
競合的なASR性能に加えて、提案した統合トークン化モデルは音声言語識別に極めて有効であり、FLEURSデータセットの98%以上の精度を実現している。
関連論文リスト
- Leveraging Language ID to Calculate Intermediate CTC Loss for Enhanced
Code-Switching Speech Recognition [5.3545957730615905]
ASRモデルのエンコーダの中間層に言語識別情報を導入する。
言語切替処理におけるモデルの混乱を軽減し,言語区別を暗黙的に意味する音響的特徴を生成することを目的としている。
論文 参考訳(メタデータ) (2023-12-15T07:46:35Z) - Speech collage: code-switched audio generation by collaging monolingual
corpora [50.356820349870986]
Speech Collage は音声セグメントをスプライシングすることでモノリンガルコーパスからCSデータを合成する手法である。
2つのシナリオにおける音声認識における生成データの影響について検討する。
論文 参考訳(メタデータ) (2023-09-27T14:17:53Z) - From English to More Languages: Parameter-Efficient Model Reprogramming
for Cross-Lingual Speech Recognition [50.93943755401025]
言語間音声認識のためのニューラルモデル再プログラミングに基づく新しいパラメータ効率学習フレームワークを提案する。
我々は、学習可能な事前学習機能強化に焦点を当てた、異なる補助的ニューラルネットワークアーキテクチャを設計する。
提案手法は,既存のASRチューニングアーキテクチャとその拡張性能を自己監督的損失で向上させる。
論文 参考訳(メタデータ) (2023-01-19T02:37:56Z) - LAMASSU: Streaming Language-Agnostic Multilingual Speech Recognition and
Translation Using Neural Transducers [71.76680102779765]
自動音声認識(ASR)と音声翻訳(ST)はどちらもモデル構造としてニューラルトランスデューサを使用することができる。
ニューラルトランスデューサを用いた多言語音声認識および翻訳モデルであるLAMASSUを提案する。
論文 参考訳(メタデータ) (2022-11-05T04:03:55Z) - Towards Zero-Shot Code-Switched Speech Recognition [44.76492452463019]
ゼロショット設定の下で,効率的な符号切替自動音声認識システム (ASR) の構築を目指す。
そこで本研究では,各単言語モジュールの音声セグメントを単言語スクリプトで不特定に書き起こすことにより,各単言語モジュールを単純化することを提案する。
本手法をエンドツーエンドの微分可能なニューラルネットワークに適用し、マンダリン英語SEAMEテストセットにおけるゼロショットCS ASRの有効性を実証する。
論文 参考訳(メタデータ) (2022-11-02T19:52:54Z) - Language-agnostic Code-Switching in Sequence-To-Sequence Speech
Recognition [62.997667081978825]
コードスイッチング(Code-Switching, CS)とは、異なる言語の単語やフレーズを交互に使用する現象である。
本稿では,異なるソース言語の音声および対応するラベルを転写する,シンプルで効果的なデータ拡張手法を提案する。
さらに,5,03%のWERによるトレーニング中に見つからない文間言語スイッチにおいて,モデルの性能を向上できることを示す。
論文 参考訳(メタデータ) (2022-10-17T12:15:57Z) - Learning ASR pathways: A sparse multilingual ASR model [31.147484652643282]
ASR経路は、言語固有のサブネットワーク(パス)を活性化するスパース多言語ASRモデルである。
重なり合うサブネットワークにより、共有パラメータは、共同でマルチリンガルトレーニングをすることで、低リソース言語への知識伝達を可能にする。
提案したASR経路は,高密度モデルと言語に依存しないプルーニングモデルの両方より優れ,低リソース言語の性能向上を実現している。
論文 参考訳(メタデータ) (2022-09-13T05:14:08Z) - LAE: Language-Aware Encoder for Monolingual and Multilingual ASR [87.74794847245536]
言語固有の情報を混在させることにより,両状況に対処する新しい言語対応エンコーダ (LAE) アーキテクチャを提案する。
マンダリン・イングリッシュ・コードスウィッチ音声を用いた実験により,LAEはフレームレベルで異なる言語を識別できることが示唆された。
論文 参考訳(メタデータ) (2022-06-05T04:03:12Z) - Streaming End-to-End Bilingual ASR Systems with Joint Language
Identification [19.09014345299161]
本稿では,ASRと言語識別の両方を実行するストリーミング,エンドツーエンド,バイリンガルシステムを提案する。
提案手法は、アメリカ合衆国で話される英語とスペイン語、インドで話される英語とヒンディー語という2つの言語対に適用される。
論文 参考訳(メタデータ) (2020-07-08T05:00:25Z) - Towards Relevance and Sequence Modeling in Language Recognition [39.547398348702025]
本稿では,言語認識における短系列情報を利用したニューラルネットワークフレームワークを提案する。
音声認識タスクの関連性に基づいて、音声データの一部を重み付けする言語認識に関連性を取り入れた新しいモデルを提案する。
NIST LRE 2017 Challengeにおいて、クリーン、ノイズ、マルチ話者音声データを用いて言語認識タスクを用いて実験を行う。
論文 参考訳(メタデータ) (2020-04-02T18:31:18Z) - Rnn-transducer with language bias for end-to-end Mandarin-English
code-switching speech recognition [58.105818353866354]
本稿では,言語バイアスを考慮したリカレントニューラルネットワークトランスデューサ(RNN-T)モデルを提案する。
我々は、CSの点を予測するためにモデルにバイアスを与えるために、言語アイデンティティを使用する。
これにより、言語識別情報を転写から直接学習するモデルが促進され、追加のLIDモデルが不要になる。
論文 参考訳(メタデータ) (2020-02-19T12:01:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。